图像与文本表示的预训练方法探索与实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. 图像与文本表示的预训练方法探索与实践信息平台与服务线/内容业务部钱智明

2. 主要内容 • Data as fuel——大规模预训练数据的获取与赋能 • 预训练模型的典型构建方法与评估方式 • 信息流业务中图像预训练方法探索与实践 • 信息流业务中多模态预训练方法探索与实践 • 讨论与小结

3. 主要内容 • Data as fuel——大规模预训练数据的获取与赋能 • 预训练模型的典型构建方法与评估方式 • 信息流业务中图像预训练方法探索与实践 • 信息流业务中多模态预训练方法探索与实践 • 讨论与小结

4. Data as fuel——大规模预训练数据的获取与赋能 !"#$#%&'()*+%,-*%./0 12345 ! "#$%&'()*+,-./0123245678 ! 9:;<=>?@A>56BCBD !"#$%&'“ Pre-Trained Models: Past, Present and Future”()*+,(-.-/ ‹#›

5. Data as fuel——大规模预训练数据的获取与赋能 6789:;5 p E9FGH56 • !"#$%&%'(()*+,-./0012/3*!45'#$6#".73*-%48%4'19 p IJKL56 • :;<=>?#@6AB*,9C.D0013EFGH'I.8#?'@I45FI4FJ!, p MNOP56 • !"#$%&%'7)*KLKL*M-G3 ‹#›

6. 主要内容 • Data as fuel——大规模预训练数据的获取与赋能 • 预训练模型的典型构建方法与评估方式 • 信息流业务中图像预训练方法探索与实践 • 信息流业务中多模态预训练方法探索与实践 • 讨论与小结

7. 预训练模型的典型构建方法与评估方式 #$%& ''()*+ !" !"# !$% &# ''' ,-%& ''./01 颜色与几何的不变性同一类别的相似性 MLM 上下文内容的相关性 ALBEF VLMo ... MFM MIM 多模态的一致性 GAN ‹#›

8. 对比学习方法 <=>?@ABCD p QRSBT-URSBV p WXY5 p Z[\]R^_QURS • NOPQR「ST<UVWXYZ<*[S<UV\]\<[S」 • ^_`abacd ‹#›

9. 对比学习方法 12EF<=>?@GHIB<5 !"#$%&'“ A Survey on Contrastive Self-Supervised Learning”, University of Texas at Arlington, 2021 “Momentum Contrast for Unsupervised Visual Representation Learning ”, FAIR, 2020 ‹#›

10. 对比学习方法 <=>?@JDKLM p '()OPAMNOPB`abcdef p 56ghi'()OPjklmnop p URSqrRsklt^quv p 567wxdyzt^q{|} p ~•€q>?@•‚ƒ„…†‡• p ˆ‰04Š‹ Œ•Ž2••>k‘a-’“”•–—˜™2˜56š›i”œ56•ž p ‰04Š‹ŸŒ•Ž2•>a- ¡¢’£¤¥|¦Œ ‹#›

11. 数据重构方法 NEOPQRSTUVWXYZ@J[\]5 p § –‹04Ÿ.ŸŠ0¨¨—4ŸŠ˜2042©Ÿ.Ÿª—Ÿ¨—4Ÿ«¨ª2˜¬40¨ª- ®¯¯ ¦•Š‹0˜ªŸ°2±¨/0¨ p ²³´µ¶·q¸¹B`‡º»_{|} p t•v¼½¾´¿µ¶·B`‡ÀÁÂÃÄÅ-Ær¤ÇÈÉKÊËÌµ¶ ()*+,-.“ SimMIM: A Simple Framework for Masked Image Modeling”, MSA, 2021 ‹#›

12. 数据重构方法 NEOP p ²³´ˆ\Íµ-ËÌµ¶ÎÏËÌ4—™2¨ • ef'Ig%4R3h@-ij%KI • efklR1Ghim@"1!1 BEiT, Microsoft Research, 2021 MAE, Facebook, 2021 ‹#›

13. 预训练模型的典型构建方法目标重构方法方法 MLM MIM MFM 对比学习 Decoder MoCoV3 Momentum Cluster ✓ ITM ✓ SWaV ✓ BEiT ✓ MAE ✓ ✓ ✓ ✓ ✓ CLIP 多模态预训练 Negative ✓ SimCLRV2 图像预训练其他 ✓ ALBEF ✓ ✓ ✓ ✓ ✓ VLMo ✓ ✓ ✓ ✓ ✓ Florence ✓ ✓ ✓ ✓ ✓ ✓ ‹#›

14. 预训练模型的评估方式 ^_O` p ÐÑÒÓÔÕÖ • ×Ø7A()7ÙÚÛx=ÜÐÑÒÓÔ-Ý•ÞÓÔßG p à‡ÕÖ • á^?@â5-zÐãäåãà‡ä-?@()æçÕÖÞ‡• p +,ÕÖ • åãOPä+,-Ý•?@â5+,æqMNOP‡• p è?éêë • zìí?éx=Üêë-Ýî“Íïð-“ðïÍñ ‹#›

15. 监督与自监督预训练模型的区别与联系 abKcabOP>@\]J[def@g5 p òóäqBô‡Ý•†-•t^qšõö÷ p Ðæóäøù‡•>-úû•üAOPB` !"#$%&' “ Do Self-Supervised and Supervised Methods Learn Similar Visual Representations?”, Apple, 2021 ‹#›

16. 主要内容 • Data as fuel——大规模预训练数据的获取与赋能 • 预训练模型的典型构建方法与评估方式 • 信息流业务中图像预训练方法探索与实践 • 信息流业务中多模态预训练方法探索与实践 • 讨论与小结

17. 信息流业务中图像预训练方法探索与实践 hijklmnSop p ýþÿ!DS†-"#$%P?@&'”-GHk‘È> p •(Ì)Íµq*¤úÚ-+,GHÈ • -. ´/0Ñ12Ô56-34”R-OP5Gìt6&789»_8 • 5G´:;ìík‘-<î=•>?Í/0Í@AÈºÍðB`‡ñ ‹#›

18. 图像预训练过程效果分析 q-r-stuvwKxDyz p BC¡ • nopqr I6 !"#$%&%'stpqr p ‰04Š‹ Œ•Ž2qDE 不同初始化的训练过程对比 p FÌ+,AG·×Ø • uvwx19jyz{|*}~{• ‹#›

19. 图像预训练开发框架 ALBEF Reconstructive Learning SimMIM BEiT … ‹#›

20. 业务效果验证 2345346789:; <= >?@ABCBD349:; 自监督预训练在下游业务数据中的指标提升 (Accuracy) 封面美观度图片清晰度图片内容打分图片低俗 ResNet-50 +4.92% +4.69% +1.32% +2.72% EfficientNet-B4 +3.18% +3.06% +1.51% +2.09% Swin-T +2.61% +1.76% +1.28% +1.09% 自监督预训练减少业务标注样本量封面美观度图片清晰度图片内容打分图片低俗 ResNet-50 -70% -80% -40% -80% EfficientNet-B4 -80% -90% -70% -80% Swin-T -30% -30% -40% -50% ‹#›

21. 图像预训练小结 {|TUstu@}~•€ p '()qbcAOP0ÞRSAÈ•` p ìíHIzúûã•š*‡-zOPã•JK‡ p 9LBô‡JJMN•‚OÃÔPBô‡ p •Q9:;HRˆMNOP•ST‡ p >?@()aklz ¡¢ãUVG,W p tQB`ÝX • /011234https://www.kaggle.com/5 • 607089:;70<;4 https://www.datafountain.cn/competitions 5 • == Scratch vs Pretrain, MAE, 2021 ‹#›

22. 主要内容 • Data as fuel——大规模预训练数据的获取与赋能 • 预训练模型的典型构建方法与评估方式 • 信息流业务中图像预训练方法探索与实践 • 信息流业务中多模态预训练方法探索与实践 • 讨论与小结

23. 信息流业务中多模态预训练方法探索与实践 •‚ƒ„…†B‡ˆ‰Š‹5 !"#$%&'()* p YZÏýÔ[\]^q_lHR p »`ÏýÔJ$q_lHR +,-./0 !"#$%&' ‹#›

24. 多模态预训练下游任务 „…oŒ•Ž•.• ‘ˆ‰’“ ‹#›

25. 多模态预训练方法 123456789: ‹#›

26. ;23<=6>: ‹#›

27. 信息流业务中多模态预训练方法探索与实践 12?;23@=A8B: ü 图像-文本对比学习来使图像特征和文本特征相一致。 ü 使用难样本挖掘进行图像文本匹配。 ü 将MLM应用于多模态编码。 ü 动量蒸馏法，使用动量模型为图像-文本对比学习和掩码语言建模生成伪目标。 ‹#›

28. 业务效果验证 ˆ”•–K=— p a7bc56Ade56 p ìí567qMNOPfg • AB€abac*[•AB€‚]ƒ„…† p ‰0Š™h—¨2ijkf • b‡ˆ‰Šc‹Œ‡ˆ*•fŽ•<‡ˆ•]{by† 模型 Flickr30K(1k test set) CC12M 9M CC3M 2.7M SBU 860K VG 769K Flickr8k 40.4K Flickr30k 145K COCO 567K AIC-ICC 1.2M 图文链路 9M 视频链路 20M MSCOCO(5K test set) TR(text-retrieval) IR(image-retrieval) TR(text-retrieval) IR(image-retrieval) R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10 ALBEF(vit)-CC4M 91.1 99.1 99.7 77.72 94.18 96.78 66.72 89 94.16 50.1 77 85.5 ALBEF(vit)-CC6M 92.2 98.8 99.6 79.1 94.3 96.5 71.58 91.34 95.82 53.77 80.13 87.84 ALBEF(vit)-CC14M 93.5 99.5 99.9 81.24 95.5 97.4 74.04 92.42 96.36 56.64 81.45 88.77 ALBEF-CC60M 94.3 99.6 99.9 81.8 95.7 97.62 75.7 92.98 96.36 57.3 82.2 89.4 swint-cc60m 90.7 98.8 99.4 76.1 93.1 96.5 67.3 88.4 94.02 50.36 77.2 85.6 ‹#›

29. 优化与效果对比 ˜™š›œ -.-/0012345(6789:;<<=>?@5ABC;DE9D>FGH Cover +Tag Cover +Title .0356 p数据扩充 %& ./ p模型升级 ()*+,* -./ .01.1 2 2 .0341 8+9:; -/ .01< .0154 .0637 .0336 .01=1 p策略微调 >?@+ABBCD EFGH@IJ -/ .016= .0111 .06< .033< .0147 > K,LCMNF OPQRSJ -/ .01=7 .01-- .0<<6 .0313 .03<7 .037 >TUVW 6./ .03 .01= .0<65 .034 .03- .07.6 >XYZ[>T U\] 6./ 2 2 2 2 .0751 2 • 增加辅助任务 • 模块增加，如r-drop Tag Title Cover All .075 !"#$%&'()*+, EFGHIJK LMN OPN ^_XY 4106.` 4<01.` abcdefXY 4-0-.` 4104.` gXhcdeXY 4105.` 4=0-.` ‹#›

30. 多模态预训练小结 {|‡ˆ‰stu@}~•€ p Ì)•lmq»n p ?@>@¡AÆÜ¡op-<îq22rŒr22ª p ÓäÓOPÌ)”?é'()st p tQB`ÝX • M‘GR’''?5“22%”#•–#@2—%˜28’#••%4$%528’#••%4$%.?#$%2™/02•%#š%6˜I#6š2((›™ • MKœR’''?5“22”@5H#•8I""I45%45%–8I"2•%#š%6˜I#6š • •• ‹#›

31. 主要内容 • Data as fuel——大规模预训练数据的获取与赋能 • 预训练模型的典型构建方法与评估方式 • 信息流业务中图像预训练方法探索与实践 • 信息流业务中多模态预训练方法探索与实践 • 讨论与小结

32. 讨论与小结 e•žŸ p 3¥}iuvw\xt p 56A?@•üq>@¡-yÃ”?é'()z{z| p YZ34}~Ït••ü€• • e ž‡Ÿ ¡¢£i¤¥¦§¨©iG!¤ª«¬iGœ2Mœ- ¡¢op£¤@•€ p {9‚ƒq„û´…-†!…-‡ˆk‰t•=•Š • ®¯vb‡ˆ°±²³´µ*¶·¸¹º»¼½¾¿ À<Œ‡ˆ·ÁÂÃb‡ˆºÄÅ¿ÀÆ<·Çd • 1Ih‡ˆ•fºÈÉX¸{Ê½ËÌÍÇd ‹#›

33. Thank you 联系方式：zhimingqian@tencent.com