图像与文本表示的预训练方法探索与实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 图像与文本表示的预训练方法探
索与实践
信息平台与服务线/内容业务部
钱智明
2. 主要内容
• Data as fuel——大规模预训练数据的获取与赋能
• 预训练模型的典型构建方法与评估方式
• 信息流业务中图像预训练方法探索与实践
• 信息流业务中多模态预训练方法探索与实践
• 讨论与小结
3. 主要内容
• Data as fuel——大规模预训练数据的获取与赋能
• 预训练模型的典型构建方法与评估方式
• 信息流业务中图像预训练方法探索与实践
• 信息流业务中多模态预训练方法探索与实践
• 讨论与小结
4. Data as fuel——大规模预训练数据的获取与赋能
!"#$#%&'()*+%,-*%./0 12345
! "#$%&'()*+,-./0123245678
! 9:;<=>?@A>56BCBD
!"#$%&'“ Pre-Trained Models: Past, Present and Future”()*+,(-.-/
‹#›
5. Data as fuel——大规模预训练数据的获取与赋能
6789:;5
p E9FGH56
• !"#$%&%'(()*+,-./0012/3*!45'#$6#".73*-%48%4'19
p IJKL56
• :;<=>?#@6AB*,9C.D0013EFGH'I.8#?'@I45FI4FJ!,
p MNOP56
• !"#$%&%'7)*KLKL*M-G3
‹#›
6. 主要内容
• Data as fuel——大规模预训练数据的获取与赋能
• 预训练模型的典型构建方法与评估方式
• 信息流业务中图像预训练方法探索与实践
• 信息流业务中多模态预训练方法探索与实践
• 讨论与小结
7. 预训练模型的典型构建方法与评估方式
#$%&
''()*+
!"
!"#
!$%
&#
'''
,-%&
''./01
颜色与几
何的不变
性
同一类别
的相似性
MLM
上下文内
容的相关
性
ALBEF
VLMo
...
MFM
MIM
多模态的
一致性
GAN
‹#›
8. 对比学习方法
<=>?@ABCD
p QRSBT-URSBV
p WXY5
p Z[\]R^_QURS
• NOPQR「ST<UVWXYZ<*[S<UV\]\<[S」
• ^_`abacd
‹#›
9. 对比学习方法
12EF<=>?@GHIB<5
!"#$%&'“ A Survey on Contrastive Self-Supervised Learning”, University of Texas at Arlington, 2021
“Momentum Contrast for Unsupervised Visual Representation Learning ”, FAIR, 2020
‹#›
10. 对比学习方法
<=>?@JDKLM
p '()OPAMNOPB`abcdef
p 56ghi'()OPjklmnop
p URSqrRsklt^quv
p 567wxdyzt^q{|}
p ~•€q>?@•‚ƒ„…†‡•
p ˆ‰04Š‹ Œ•Ž2••>k‘a-’“”•–—˜™2˜56š›i”œ56•ž
p ‰04Š‹ŸŒ•Ž2•>a-
¡¢’£¤¥|¦Œ
‹#›
11. 数据重构方法
NEOPQRSTUVWXYZ@J[\]5
p § –‹04Ÿ.ŸŠ0¨¨—4ŸŠ˜2042©Ÿ.Ÿª—Ÿ¨—4Ÿ«¨ª2˜¬40¨ª- ®¯¯ ¦•Š‹0˜ªŸ°2±¨/0¨
p ²³´µ¶·q¸¹B`‡º»_{|}
p t•v¼½¾´¿µ¶·B`‡ÀÁÂÃÄÅ-Ær¤ÇÈÉKÊË̵¶
()*+,-.“ SimMIM: A Simple Framework for Masked Image Modeling”, MSA, 2021
‹#›
12. 数据重构方法
NEOP
p ²³´ˆ\͵-Ë̵¶ÎÏËÌ4—™2¨
• ef'Ig%4R3h@-ij%KI
• efklR1Ghim@"1!1
BEiT, Microsoft Research, 2021
MAE, Facebook, 2021
‹#›
13. 预训练模型的典型构建方法
目标
重构方法
方法
MLM
MIM
MFM
对比学习
Decoder
MoCoV3
Momentum
Cluster
✓
ITM
✓
SWaV
✓
BEiT ✓
MAE ✓
✓
✓
✓
✓
CLIP
多模态
预训练
Negative
✓
SimCLRV2
图像
预训练
其他
✓
ALBEF ✓ ✓ ✓ ✓ ✓
VLMo ✓ ✓ ✓ ✓ ✓
Florence ✓ ✓ ✓ ✓
✓
✓
‹#›
14. 预训练模型的评估方式
^_O`
p ÐÑÒÓÔÕÖ
• ×Ø7A()7ÙÚÛx=ÜÐÑÒÓÔ-Ý•ÞÓÔßG
p à‡ÕÖ
• á^?@â5-zÐãäåãà‡ä-?@()æçÕÖÞ‡•
p +,ÕÖ
• åãOPä+,-Ý•?@â5+,æqMNOP‡•
p è?éêë
• zìí?éx=Üêë-Ýî“Íïð-“ðïÍñ
‹#›
15. 监督与自监督预训练模型的区别与联系
abKcabOP>@\]J[def@g5
p òóäqBô‡Ý•†-•t^qšõö÷
p Ðæóäøù‡•>-úû•üAOPB`
!"#$%&' “ Do Self-Supervised and Supervised Methods Learn Similar Visual Representations?”, Apple, 2021
‹#›
16. 主要内容
• Data as fuel——大规模预训练数据的获取与赋能
• 预训练模型的典型构建方法与评估方式
• 信息流业务中图像预训练方法探索与实践
• 信息流业务中多模态预训练方法探索与实践
• 讨论与小结
17. 信息流业务中图像预训练方法探索与实践
hijklmnSop
p ýþÿ!DS†-"#$%P?@&'”-GHk‘È>
p •(Ì)͵q*¤úÚ-+,GHÈ
• -. ´/0Ñ12Ô56-34”R-OP5Gìt6&789»_8
• 5G´:;ìík‘-<î=•>?Í/0Í@AȺÍðB`‡ñ
‹#›
18. 图像预训练过程效果分析
q-r-stuvwKxDyz
p BC¡
• nopqr I6 !"#$%&%'stpqr
p ‰04Š‹ Œ•Ž2qDE
不同初始化的训练过程对比
p FÌ+,AG·×Ø
• uvwx19jyz{|*}~{•
‹#›
19. 图像预训练开发框架
ALBEF
Reconstructive Learning
SimMIM
BEiT
…
‹#›
20. 业务效果验证
2345346789:; <= >?@ABCBD349:;
自监督预训练在下游业务数据中的指标提升 (Accuracy)
封面美观度 图片清晰度 图片内容打分 图片低俗
ResNet-50 +4.92% +4.69% +1.32% +2.72%
EfficientNet-B4 +3.18% +3.06% +1.51% +2.09%
Swin-T +2.61% +1.76% +1.28% +1.09%
自监督预训练减少业务标注样本量
封面美观度 图片清晰度 图片内容打分 图片低俗
ResNet-50 -70% -80% -40% -80%
EfficientNet-B4 -80% -90% -70% -80%
Swin-T -30% -30% -40% -50%
‹#›
21. 图像预训练小结
{|TUstu@}~•€
p '()qbcAOP0ÞRSAÈ•`
p ìíHIzúûã•š*‡-zOPã•JK‡
p 9LBô‡JJMN•‚OÃÔPBô‡
p •Q9:;HRˆMNOP•ST‡
p >?@()aklz
¡¢ãUVG,W
p tQB`ÝX
• /011234https://www.kaggle.com/5
• 607089:;70<;4 https://www.datafountain.cn/competitions 5
• ==
Scratch vs Pretrain, MAE, 2021
‹#›
22. 主要内容
• Data as fuel——大规模预训练数据的获取与赋能
• 预训练模型的典型构建方法与评估方式
• 信息流业务中图像预训练方法探索与实践
• 信息流业务中多模态预训练方法探索与实践
• 讨论与小结
23. 信息流业务中多模态预训练方法探索与实践
•‚ƒ„…†B‡ˆ‰Š‹5
!"#$%&'()*
p YZÏýÔ[\]^q_lHR
p »`ÏýÔJ$q_lHR
+,-./0
!"#$%&'
‹#›
24. 多模态预训练下游任务
„…oŒ•Ž•.•
‘ˆ‰’“
‹#›
25. 多模态预训练方法
123456789:
‹#›
26. ;23<=6>:
‹#›
27. 信息流业务中多模态预训练方法探索与实践
12?;23@=A8B:
ü 图像-文本对比学习来使图
像特征和文本特征相一致。
ü 使用难样本挖掘进行图像
文本匹配。
ü 将MLM应用于多模态编码。
ü 动量蒸馏法,使用动量模
型为图像-文本对比学习和
掩码语言建模生成伪目标。
‹#›
28. 业务效果验证
ˆ”•–K=—
p a7bc56Ade56
p ìí567qMNOPfg
•
AB€abac*[•AB€‚]ƒ„…†
p ‰0Š™h—¨2ijkf
•
b‡ˆ‰Šc‹Œ‡ˆ*•fŽ•<‡ˆ•]{by†
模型
Flickr30K(1k test set)
CC12M 9M
CC3M 2.7M
SBU 860K
VG 769K
Flickr8k 40.4K
Flickr30k 145K
COCO 567K
AIC-ICC 1.2M
图文链路 9M
视频链路 20M
MSCOCO(5K test set)
TR(text-retrieval)
IR(image-retrieval)
TR(text-retrieval)
IR(image-retrieval)
R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10
ALBEF(vit)-CC4M 91.1 99.1 99.7 77.72 94.18 96.78 66.72 89 94.16 50.1 77 85.5
ALBEF(vit)-CC6M 92.2 98.8 99.6 79.1 94.3 96.5 71.58 91.34 95.82 53.77 80.13 87.84
ALBEF(vit)-CC14M 93.5 99.5 99.9 81.24 95.5 97.4 74.04 92.42 96.36 56.64 81.45 88.77
ALBEF-CC60M 94.3 99.6 99.9 81.8 95.7 97.62 75.7 92.98 96.36 57.3 82.2 89.4
swint-cc60m 90.7 98.8 99.4 76.1 93.1 96.5 67.3 88.4 94.02 50.36 77.2 85.6
‹#›
29. 优化与效果对比
˜™š›œ
-.-/0012345(6789:;<<=>?@5ABC;DE9D>FGH
Cover
+Tag Cover
+Title
.0356
p数据扩充 %& ./ p模型升级 ()*+,* -./ .01.1 2 2 .0341 8+9:; -/ .01< .0154 .0637 .0336 .01=1
p策略微调 >?@+ABBCD
EFGH@IJ -/ .016= .0111 .06< .033< .0147
> K,LCMNF
OPQRSJ -/ .01=7 .01-- .0<<6 .0313 .03<7 .037
>TUVW 6./ .03 .01= .0<65 .034 .03- .07.6
>XYZ[>T
U\] 6./ 2 2 2 2 .0751 2
• 增加辅助任务
• 模块增加,如r-drop
Tag
Title Cover
All
.075
!"#$%&'()*+,
EFGHIJK LMN OPN
^_XY 4106.` 4<01.`
abcdefXY 4-0-.` 4104.`
gXhcdeXY 4105.` 4=0-.`
‹#›
30. 多模态预训练小结
{|‡ˆ‰stu@}~•€
p Ì)•lmq»n
p ?@>@¡AÆÜ¡op-<îq22rŒr22ª
p ÓäÓOPÌ)”?é'()st
p tQB`ÝX
• M‘GR’''?5“22%”#•–#@2—%˜28’#••%4$%528’#••%4$%.?#$%2™/02•%#š%6˜I#6š2((›™
• MKœR’''?5“22”@5H#•8I""I45%45%–8I"2•%#š%6˜I#6š
• ••
‹#›
31. 主要内容
• Data as fuel——大规模预训练数据的获取与赋能
• 预训练模型的典型构建方法与评估方式
• 信息流业务中图像预训练方法探索与实践
• 信息流业务中多模态预训练方法探索与实践
• 讨论与小结
32. 讨论与小结
e•žŸ
p 3¥}iuvw\xt
p 56A?@•üq>@¡-yÔ?é'()z{z|
p YZ34}~Ït••ü€•
•
e
ž‡Ÿ
¡¢£i¤¥¦§¨©iG!¤ª«¬iGœ2Mœ-
¡¢op£¤@•€
p {9‚ƒq„û´…-†!…-‡ˆk‰t•=•Š
•
®¯vb‡ˆ°±²³´µ*¶·¸¹º»¼½¾¿
À<Œ‡ˆ·ÁÂÃb‡ˆºÄÅ¿ÀÆ<·Çd
•
1Ih‡ˆ•fºÈÉX¸{ʽËÌÍÇd
‹#›
33. Thank you
联系方式:zhimingqian@tencent.com