图像与文本表示的预训练方法探索与实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 图像与文本表示的预训练方法探 索与实践 信息平台与服务线/内容业务部 钱智明
2. 主要内容 • Data as fuel——大规模预训练数据的获取与赋能 • 预训练模型的典型构建方法与评估方式 • 信息流业务中图像预训练方法探索与实践 • 信息流业务中多模态预训练方法探索与实践 • 讨论与小结
3. 主要内容 • Data as fuel——大规模预训练数据的获取与赋能 • 预训练模型的典型构建方法与评估方式 • 信息流业务中图像预训练方法探索与实践 • 信息流业务中多模态预训练方法探索与实践 • 讨论与小结
4. Data as fuel——大规模预训练数据的获取与赋能 !"#$#%&'()*+%,-*%./0 12345 ! "#$%&'()*+,-./0123245678 ! 9:;<=>?@A>56BCBD !"#$%&'“ Pre-Trained Models: Past, Present and Future”()*+,(-.-/ ‹#›
5. Data as fuel——大规模预训练数据的获取与赋能 6789:;5 p E9FGH56 • !"#$%&%'(()*+,-./0012/3*!45'#$6#".73*-%48%4'19 p IJKL56 • :;<=>?#@6AB*,9C.D0013EFGH'I.8#?'@I45FI4FJ!, p MNOP56 • !"#$%&%'7)*KLKL*M-G3 ‹#›
6. 主要内容 • Data as fuel——大规模预训练数据的获取与赋能 • 预训练模型的典型构建方法与评估方式 • 信息流业务中图像预训练方法探索与实践 • 信息流业务中多模态预训练方法探索与实践 • 讨论与小结
7. 预训练模型的典型构建方法与评估方式 #$%& ''()*+ !" !"# !$% &# ''' ,-%& ''./01 颜色与几 何的不变 性 同一类别 的相似性 MLM 上下文内 容的相关 性 ALBEF VLMo ... MFM MIM 多模态的 一致性 GAN ‹#›
8. 对比学习方法 <=>?@ABCD p QRSBT-URSBV p WXY5 p Z[\]R^_QURS • NOPQR「ST<UVWXYZ<*[S<UV\]\<[S」 • ^_`abacd ‹#›
9. 对比学习方法 12EF<=>?@GHIB<5 !"#$%&'“ A Survey on Contrastive Self-Supervised Learning”, University of Texas at Arlington, 2021 “Momentum Contrast for Unsupervised Visual Representation Learning ”, FAIR, 2020 ‹#›
10. 对比学习方法 <=>?@JDKLM p '()OPAMNOPB`abcdef p 56ghi'()OPjklmnop p URSqrRsklt^quv p 567wxdyzt^q{|} p ~•€q>?@•‚ƒ„…†‡• p ˆ‰04Š‹ Œ•Ž2••>k‘a-’“”•–—˜™2˜56š›i”œ56•ž p ‰04Š‹ŸŒ•Ž2•>a- ¡¢’£¤¥|¦Œ ‹#›
11. 数据重构方法 NEOPQRSTUVWXYZ@J[\]5 p § –‹04Ÿ.ŸŠ0¨¨—4ŸŠ˜2042©Ÿ.Ÿª—Ÿ¨—4Ÿ«¨ª2˜¬40¨ª- ®¯¯ ¦•Š‹0˜ªŸ°2±¨/0¨ p ²³´µ¶·q¸¹B`‡º»_{|} p t•v¼½¾´¿µ¶·B`‡ÀÁÂÃÄÅ-Ær¤ÇÈÉKÊË̵¶ ()*+,-.“ SimMIM: A Simple Framework for Masked Image Modeling”, MSA, 2021 ‹#›
12. 数据重构方法 NEOP p ²³´ˆ\͵-Ë̵¶ÎÏËÌ4—™2¨ • ef'Ig%4R3h@-ij%KI • efklR1Ghim@"1!1 BEiT, Microsoft Research, 2021 MAE, Facebook, 2021 ‹#›
13. 预训练模型的典型构建方法 目标 重构方法 方法 MLM MIM MFM 对比学习 Decoder MoCoV3 Momentum Cluster ✓ ITM ✓ SWaV ✓ BEiT ✓ MAE ✓ ✓ ✓ ✓ ✓ CLIP 多模态 预训练 Negative ✓ SimCLRV2 图像 预训练 其他 ✓ ALBEF ✓ ✓ ✓ ✓ ✓ VLMo ✓ ✓ ✓ ✓ ✓ Florence ✓ ✓ ✓ ✓ ✓ ✓ ‹#›
14. 预训练模型的评估方式 ^_O` p ÐÑÒÓÔÕÖ • ×Ø7A()7ÙÚÛx=ÜÐÑÒÓÔ-Ý•ÞÓÔßG p à‡ÕÖ • á^?@â5-zÐãäåãà‡ä-?@()æçÕÖÞ‡• p +,ÕÖ • åãOPä+,-Ý•?@â5+,æqMNOP‡• p è?éêë • zìí?éx=Üêë-Ýî“Íïð-“ðïÍñ ‹#›
15. 监督与自监督预训练模型的区别与联系 abKcabOP>@\]J[def@g5 p òóäqBô‡Ý•†-•t^qšõö÷ p Ðæóäøù‡•>-úû•üAOPB` !"#$%&' “ Do Self-Supervised and Supervised Methods Learn Similar Visual Representations?”, Apple, 2021 ‹#›
16. 主要内容 • Data as fuel——大规模预训练数据的获取与赋能 • 预训练模型的典型构建方法与评估方式 • 信息流业务中图像预训练方法探索与实践 • 信息流业务中多模态预训练方法探索与实践 • 讨论与小结
17. 信息流业务中图像预训练方法探索与实践 hijklmnSop p ýþÿ!DS†-"#$%P?@&'”-GHk‘È> p •(Ì)͵q*¤úÚ-+,GHÈ • -. ´/0Ñ12Ô56-34”R-OP5Gìt6&789»_8 • 5G´:;ìík‘-<î=•>?Í/0Í@AȺÍðB`‡ñ ‹#›
18. 图像预训练过程效果分析 q-r-stuvwKxDyz p BC¡ • nopqr I6 !"#$%&%'stpqr p ‰04Š‹ Œ•Ž2qDE 不同初始化的训练过程对比 p FÌ+,AG·×Ø • uvwx19jyz{|*}~{• ‹#›
19. 图像预训练开发框架 ALBEF Reconstructive Learning SimMIM BEiT … ‹#›
20. 业务效果验证 2345346789:; <= >?@ABCBD349:; 自监督预训练在下游业务数据中的指标提升 (Accuracy) 封面美观度 图片清晰度 图片内容打分 图片低俗 ResNet-50 +4.92% +4.69% +1.32% +2.72% EfficientNet-B4 +3.18% +3.06% +1.51% +2.09% Swin-T +2.61% +1.76% +1.28% +1.09% 自监督预训练减少业务标注样本量 封面美观度 图片清晰度 图片内容打分 图片低俗 ResNet-50 -70% -80% -40% -80% EfficientNet-B4 -80% -90% -70% -80% Swin-T -30% -30% -40% -50% ‹#›
21. 图像预训练小结 {|TUstu@}~•€ p '()qbcAOP0ÞRSAÈ•` p ìíHIzúûã•š*‡-zOPã•JK‡ p 9LBô‡JJMN•‚OÃÔPBô‡ p •Q9:;HRˆMNOP•ST‡ p >?@()aklz ¡¢ãUVG,W p tQB`ÝX • /011234https://www.kaggle.com/5 • 607089:;70<;4 https://www.datafountain.cn/competitions 5 • == Scratch vs Pretrain, MAE, 2021 ‹#›
22. 主要内容 • Data as fuel——大规模预训练数据的获取与赋能 • 预训练模型的典型构建方法与评估方式 • 信息流业务中图像预训练方法探索与实践 • 信息流业务中多模态预训练方法探索与实践 • 讨论与小结
23. 信息流业务中多模态预训练方法探索与实践 •‚ƒ„…†B‡ˆ‰Š‹5 !"#$%&'()* p YZÏýÔ[\]^q_lHR p »`ÏýÔJ$q_lHR +,-./0 !"#$%&' ‹#›
24. 多模态预训练下游任务 „…oŒ•Ž•.• ‘ˆ‰’“ ‹#›
25. 多模态预训练方法 123456789: ‹#›
26. ;23<=6>: ‹#›
27. 信息流业务中多模态预训练方法探索与实践 12?;23@=A8B: ü 图像-文本对比学习来使图 像特征和文本特征相一致。 ü 使用难样本挖掘进行图像 文本匹配。 ü 将MLM应用于多模态编码。 ü 动量蒸馏法,使用动量模 型为图像-文本对比学习和 掩码语言建模生成伪目标。 ‹#›
28. 业务效果验证 ˆ”•–K=— p a7bc56Ade56 p ìí567qMNOPfg • AB€abac*[•AB€‚]ƒ„…† p ‰0Š™h—¨2ijkf • b‡ˆ‰Šc‹Œ‡ˆ*•fŽ•<‡ˆ•]{by† 模型 Flickr30K(1k test set) CC12M 9M CC3M 2.7M SBU 860K VG 769K Flickr8k 40.4K Flickr30k 145K COCO 567K AIC-ICC 1.2M 图文链路 9M 视频链路 20M MSCOCO(5K test set) TR(text-retrieval) IR(image-retrieval) TR(text-retrieval) IR(image-retrieval) R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10 ALBEF(vit)-CC4M 91.1 99.1 99.7 77.72 94.18 96.78 66.72 89 94.16 50.1 77 85.5 ALBEF(vit)-CC6M 92.2 98.8 99.6 79.1 94.3 96.5 71.58 91.34 95.82 53.77 80.13 87.84 ALBEF(vit)-CC14M 93.5 99.5 99.9 81.24 95.5 97.4 74.04 92.42 96.36 56.64 81.45 88.77 ALBEF-CC60M 94.3 99.6 99.9 81.8 95.7 97.62 75.7 92.98 96.36 57.3 82.2 89.4 swint-cc60m 90.7 98.8 99.4 76.1 93.1 96.5 67.3 88.4 94.02 50.36 77.2 85.6 ‹#›
29. 优化与效果对比 ˜™š›œ -.-/0012345(6789:;<<=>?@5ABC;DE9D>FGH Cover +Tag Cover +Title .0356 p数据扩充 %& ./ p模型升级 ()*+,* -./ .01.1 2 2 .0341 8+9:; -/ .01< .0154 .0637 .0336 .01=1 p策略微调 >?@+ABBCD EFGH@IJ -/ .016= .0111 .06< .033< .0147 > K,LCMNF OPQRSJ -/ .01=7 .01-- .0<<6 .0313 .03<7 .037 >TUVW 6./ .03 .01= .0<65 .034 .03- .07.6 >XYZ[>T U\] 6./ 2 2 2 2 .0751 2 • 增加辅助任务 • 模块增加,如r-drop Tag Title Cover All .075 !"#$%&'()*+, EFGHIJK LMN OPN ^_XY 4106.` 4<01.` abcdefXY 4-0-.` 4104.` gXhcdeXY 4105.` 4=0-.` ‹#›
30. 多模态预训练小结 {|‡ˆ‰stu@}~•€ p Ì)•lmq»n p ?@>@¡AÆÜ¡op-<îq22rŒr22ª p ÓäÓOPÌ)”?é'()st p tQB`ÝX • M‘GR’''?5“22%”#•–#@2—%˜28’#••%4$%528’#••%4$%.?#$%2™/02•%#š%6˜I#6š2((›™ • MKœR’''?5“22”@5H#•8I""I45%45%–8I"2•%#š%6˜I#6š • •• ‹#›
31. 主要内容 • Data as fuel——大规模预训练数据的获取与赋能 • 预训练模型的典型构建方法与评估方式 • 信息流业务中图像预训练方法探索与实践 • 信息流业务中多模态预训练方法探索与实践 • 讨论与小结
32. 讨论与小结 e•žŸ p 3¥}iuvw\xt p 56A?@•üq>@¡-yÔ?é'()z{z| p YZ34}~Ït••ü€• • e ž‡Ÿ ¡¢£i¤¥¦§¨©iG!¤ª«¬iGœ2Mœ- ¡¢op£¤@•€ p {9‚ƒq„û´…-†!…-‡ˆk‰t•=•Š • ®¯vb‡ˆ°±²³´µ*¶·¸¹º»¼½¾¿ À<Œ‡ˆ·ÁÂÃb‡ˆºÄÅ¿ÀÆ<·Çd • 1Ih‡ˆ•fºÈÉX¸{ʽËÌÍÇd ‹#›
33. Thank you 联系方式:zhimingqian@tencent.com

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.3. UTC+08:00, 2024-11-25 04:55
浙ICP备14020137号-1 $访客地图$