腾讯ARC:算法实践的沃土
如果无法正常显示,请先停止浏览器的去广告插件。
1. 腾讯ARC: 算法实践的沃土
——深度学习在内容素材上复原、二次创作的研究应用
2.
3. 腾讯PCG简介(平台与内容事业群)
社交平台 内容平台 流量平台
带来引领潮流的独特社交体验 创造跨平台的数字内容消费体验 实现内容/产品最有效的用户触达
长视频
短视频
影业
资讯
体育
动漫
内 容 生 态
中 国 最 丰 富 的 内 容 布 局 , 最 具 能 量 的 I P 创 造 能 力
4. 内容多样性 X 算法需求的多样性
图文
视频
影视
内容的
多样性
广告
动漫
直播
大
数
据
分
析
和
洞
察
传播
再创作
应用端
推荐
搜索
画像
内容理解
审核
标准化
预处理
制作
5. 智能内容创作
丰富内容
视频
视频
分发 深度理解
后期处理
(音乐、filter) (视频结构与情绪)
编辑
(场景、clip) 再创作
视觉效果
呈现
用户
用户拍摄
检索
脚本
小想法
想法
精细的视频
内容增强、生成等…
跨模态
检索与推荐
平台服务
内容理解
数据结构与组织
比如:标签、聚类等
源素材
大量素材
6. 多模态理解与推理
7. 基于多项选择题的预训练借口任务(CVPR 2022 Oral)
传统双流视频-文本网络, e.g., CLIP
� text
Training objective,
e.g., contrastive loss
高效的下游视频-文本检索
� video
backward
Encoder
Encoder
缺乏细粒度的视频-文本信息交互
Text
Video
传统单流视频-文本网络, e.g., ViLT
� joint
Training objective,
e.g., video-text matching
loss
backward
Joint
Encoder
Text
Video
低效的下游视频-文本检索
细粒度的视频-文本信息交互
8. 基于多项选择题的预训练借口任务(CVPR 2022 Oral)
单塔与双塔模型的桥梁
预训练:
下游检索:
Training objectives,
i.e., contrastive loss + MCQ
loss
Encode
r
Text
高效的下游视频-文本检索,继承双塔优势
细粒度的视频-文本信息交互,继承单塔优势
Bridge
Forme
r
only for pretraining
dot product
Encode
r
Video
Text Video
9. 基于多项选择题的预训练借口任务(CVPR 2022 Oral)
如何构建多项选择题?
…
…
…
“A girl in shorts and a hat is dancing on the green grass”
noun
spatial local objects
verb
noun
temporal object motions spatial local objects
Noun question: “A girl in shorts and a hat is dancing on the [?]” Answer: “green grass”
Verb question: “A girl in shorts and a hat is [?] on the green grass” Answer: “dancing”
10. 基于多项选择题的预训练借口任务(CVPR 2022 Oral)
基于参数化BridgeFormer的多项选择题借口任务
MCQ
“dancing”
“laying”
“talking” Verb answer
�
BridgeFormer
�
“green grass”
“stage”
Noun answer “beach”
only for pre-training
�, �
TextFormer
• 七个公共数据集SOTA+,包括零样本、微调等评测基准
• 涵盖视频-文本检索、动作分类等视频-文本表征学习任务
• 超越CLIP@OpenAI预训练
� 1
� 2
Verb
Noun
“A question
girl in shorts and a hat question
is [?] on the [?] ”
VideoFormer
� �
11. 基于多项选择题的预训练借口任务(CVPR 2022 Oral)
可视化:BridgeFormer如何回答“名词”问题?
Q1
Q2
“An old couple/[?] (Q1) are drinking coffee, and
there is a plate of bread/[?] (Q2) on the table in
front of them.”
“A girl is walking with a dog/[?] (Q1) near a lake/[?]
(Q2), and there is a meadow on her left.”
“A woman wearing a pink dress/[?] (Q1) and carrying
a black handbag/[?] (Q2) is walking in the park.”
“Parents and kids are playing football/[?] (Q1) on
the countryside lawn/[?] (Q2).”
12. 基于多项选择题的预训练借口任务(CVPR 2022 Oral)
可视化:BridgeFormer如何回答“动词”问题?
Frame 1
Frame 2
Frame 3
“A hand is cutting/[?] (Q) the pizza on the wooden table.”
“A man standing on the lake shore is drinking/[?] (Q)
hot tea.”
13. 腾讯PCG产品中跨模态检索的应用(CVPR2022,ECCV2022)
查询:小狗在山顶看日出
跨模态检索
查询:绑着粉红色蝴蝶结的羊驼,一动不动的趴在售卖羊驼毛
绒玩具的门口,来回张望。
动牛人', '跑酷', '空翻', '体能训练
']
团身侧空翻,后空翻,后手翻,mc
跑酷,翻跟头,侧手翻,空翻,真好体
,开合跳,前手翻,年下男,训练模式
,唱功炸裂,国内,cf跑酷,那小子真
帅
真值: ['请勿模仿', '体育训练', '运
小
你
小
有
朋
们
孩
多
友
觉
子
好
的
得
的
玩
日
这
玩
呢
常 ,
个
具
?
这 样 扎 头 发 , 简
单 又 好 看 , 学 会
了 吗 ?
14. 视觉模型
15. 模型迭代: 基于兼容模型的检索系统热刷新升级 (ICLR 2022)
传统冷刷新模型升级
低效模型迭代: 图库离线回填后新模型
才可以上线, 数十亿图像回填需若干月.
热刷新模型升级
高效模型迭代: 新模型的即时上线,
和图库的在线回填,精度逐步爬升
16. 模型迭代: 基于兼容模型的检索系统热刷新升级 (ICLR 2022)
传统兼容模型的挑战 ——
热刷新模型升级中的模型退化问题
模型回归问题的本质因素 ——
负翻转
17. 模型迭代: 基于兼容模型的检索系统热刷新升级 (ICLR 2022)
我们提出的缓解模型退化的兼容训练
18. 模型迭代: 基于兼容模型的检索系统热刷新升级 (ICLR 2022)
Google Landmark v2:ResNet-50 ResNet-101 模型升级
19. 模型迭代: 通用场景下的兼容正则化(IJCAI 2022 Oral)
开放世界模型升级下的五种数据分布 & 通用兼容正则化
20. 腾讯PCG产品中模型兼容性的应用
ContentDNA: 用于版权识别的大规模索引系统
月流量
索引
视频
…
视频长度 (s)
特征量
•
冷刷新模型升级:
刷库慢
•
热刷新模型升级:
即时上线
库存视频
21. 模型预训练: 图像BERT预训练的多选离散化(ECCV 2022)
mc-BEiT: Multi-choice Discretization for Image BERT
Pre-training
Compared to BEiT (@Microsoft) and
iBOT (@Bytedance),
new state-of-the-arts on ImageNet
classification, ADE20k semantic
segmentation, COCO detection &
instance segmentation.
22. 底层视觉
——对内容素材的复原、增强与编辑
23. 基于生成人脸先验的人脸复原 GFPGAN (CVPR 2021)
真实世界的低清人脸输入:
模糊
噪声
GFPGAN 的复原结果:
压缩
24. 基于生成人脸先验的人脸复原 GFPGAN (CVPR 2021)
Pretrained GAN as prior
� 푠푝
� 푔푙표
�
Losses
latent codes �
MLP
Degradation Removal
� 푙 푒
�
푙
Channel-Split SFT
Adversarial Loss
푙
� 푒�푒
ROI
align
� 푒�푒 Facial Component
Loss
� 푚표
Spatial Feature
Transform (SFT)
� GAN
Restoration Loss
利用了生成网络 GAN 的先验知识
丰富的纹理和人脸细节
生动的色彩
� 푠푝
×
conv
푙
+
Face Recognition
Feature Extractor
ℎ
Identity
Preserving Loss
25. 基于生成人脸先验的人脸复原 GFPGAN (CVPR 2021)
我们的人脸复原
算法GFPGAN
PaperWithCode Top榜
我们的GFPGAN人脸
复原算法
GitHub Trending榜
26. 基于生成人脸先验的人脸复原 GFPGAN (CVPR 2021)
27. 基于向量量化和双解码器的人脸复原 VQFR (ECCV 2022 Oral)
Main Branch
� 푚
TWM
TWM
TWM
� �
�
Vector
Quantization
Vector Quantization
Texture Branch
Code Distance
� �
0
1
0 1 … N-1 N-2
0.4 0.1 … 0.6 0.9
N
-
1
N
-
2
Codebook
1
1
� � �
Texture Warp Module (TWM)
� � �
� �
offset
28. 人脸复原的应用 – 会动的老照片
李焕英年轻时旧照
落地
修复后
动起来!
29. Real-ESRGAN:实用图像复原
拍照
相机模糊 传感器噪声
实际的degradation过程是一个复杂
的组合过程
图像编辑
锐化瑕疵
JPEG压缩
上传至网络,比如社交媒体等
进一步的压缩和
不可预测的噪声与瑕疵
在互联网上多次传播,变得更
加严重
改进合成训练方式
高阶合成方式 + 设计合适的超参,来逼近
更加实际的degradation
30. Real-ESRGAN:实用图像复原
31. 真实场景可调节超分复原 – MM-RealSR (ECCV 2022)
score = 0
Blur
score = 0.5
score = 1
score = 0
Blur
score = 0.5
score = 1
32. 真实场景可调节超分复原 – MM-RealSR (ECCV 2022)
33. 动漫超分增强算法 AnimeSR
34. 动漫超分增强算法 AnimeSR
35. 动漫超分增强算法 AnimeSR (NeurIPS 2022)
在 degradation 合成阶段,我们提出了可学习的小网络作为基本算子
…
…
Basic Operators
Neural Networks
(a) Classic
(b)
e.g., blur, rescaling, noise, JPEG compression
Learning a large network to synthesize degradations
Basic Operators
(c) Learnable
Learning tiny networks as basic operators
传统经典算子,比如模糊,噪声 一个大神经网络 融合前两者
•
• • •
它们没有学习能力
不能很好地合成实际degradations
一个大网络很难学习到复杂的
degradation分布
•
小的可学习网络拥有学习实际
degradation能力
与经典的算子共同“张
成”degradation 空间
36. 动漫超分增强算法 AnimeSR (NeurIPS 2022)
…
Basic Operators
(c) Learnable
Learning tiny networks as basic operators
37. 动漫超分增强算法 AnimeSR
我们同时提出了高清的 AVC 动漫视频数据集
AVC-Train
AVC-RealLQ
海绵宝宝
爱冒险的朵拉
巴布工程师
38. 动漫超分增强算法 AnimeSR – 渲染类型的动漫 Demo
39. 探究盲超分网络原理 (NeurIPS 2021 Spotlight)
Input image
Network output
Mask 1% deblurring filters Mask 1% denoising filters
1 2 3 4
5 6 7 8
40. 探究盲超分网络原理 (NeurIPS 2021 Spotlight)
核心思想:对于相同的输入,网络输出的变化可以归咎于网络参数(即filters)的变化。
因此可以找到对网络功能贡献最大的filters
输出改变
41. 通用抠图
输入
抠图后输出
输入
抠图后输出
42. 视频物体实例分割(CVPR2022 Oral)
同一类物体可以区分不同实例并在视频内实现跟踪
43. 其它应用:人脸驱动
用户上传一张照片
一键生成唱歌视频
《照片会唱歌》
44. 三维视觉及图形学
45. 三维物体数字化与渲染
量化指标
ArcNeRF重建渲染框架
技术路线
数据处理
基于神经网络表示和神经渲染的重建
特征提取
特征匹配
建模
方式
模型构建
隐式体积模型
模
型
类
型
隐式表面模型
显式模型
表
示
方
式
资产提
取
与渲染
工具
与服务
资
产
类
型
神经网络 网格
神经网络
+ 网格 点云
基
础
算
法 神经渲染
基
础
几
何 相机 八叉树 Instant-ngp
光线 球 网格 CUDA
自定义实现 持续构建中…
体素
common
trainer
单元测试
notebook
NeuS
表面重建 材质
可视化
NeRF++
网格插值 纹理
实时
渲染器
32.54
重建渲染结果
NeRF
位姿变换 法向量
Reference PSNR
算法支持
立体匹配
渲
染
方
式
Ours PSNR
32.86
物体分割
光线求交 光照
工
具
粗糙点云估计
MVS多视角几何
网格
训练框架
基于Photogrammetry的重建
相机位姿估计
神经渲染建模
可视化工具
相机位姿&稀疏点云
VolSDF
MipNeRF
光线采样
体渲染 光栅化渲染
SDF渲染 混合渲染
CUDA
OpenGL
WebGL
服
务
网页平台
PaaS服务
体素求交和顶点插值
Web端实时渲染
46. 在线增量式场景重建与视角合成
问题定义
局部场景
表征
融合
全局重建结果
输入:RGB-D视频
算法流程
局部场景
表征
融合
可6DoF漫游渲
染的场景表示
iPhone数据重建结果
三维重建
新视角合成
输出
手持iPhone拍摄的
RGB-D视频
预览阶段的视角合成效果
最终的视角合成效果
47. 基于隐式表达和神经渲染的实时场景几何重建
输入:RGB视频
输出:精确的相机位姿+三维场景几何表达
单目相机、实时系统
通过引入几何先验,重
建更多几何细节
48. 360全景单目深度估计
融合全局context信息和
局部结构信息
精度更高、inference
更快
49. 论文与高校合作
部分代表性论文 (2022)
[ECCV 2022, Oral] VQFR: Blind Face Restoration with Vector-Quantized Dictionary and Parallel Decoder.
[CVPR 2022, Oral] BTS: A Bi-lingual Benchmark for Text Segmentation in the Wild.
[CVPR 2022, Oral] Bridging Video-text Retrieval with Multiple Choice Questions.
[CVPR 2022, Oral] Temporally Efficient Vision Transformer for Video Instance Segmentation.
[IJCAI 2022, Long oral] Towards Universal Backward-Compatible Representation Learning.
[NeurIPS 2022] AnimeSR: Learning Real-World Super-Resolution Models for Animation Videos.
[NeurIPS 2022] DeVRF: Fast Deformable Voxel Radiance Fields for Dynamic Scenes.
[ECCV 2022] Not All Models Are Equal: Predicting Model Transferability in a Self-challenging Fisher Space.
[ECCV 2022] mc-BEiT: Multi-choice Discretization for Image BERT Pre-training.
[ECCV 2022] Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval.
[ECCV 2022] MM-RealSR: Metric Learning based Interactive Modulation for Real-World Super-Resolution.
[ACMMM 2022] PC-Dance: Posture-controllable Music-driven Dance Synthesis.
[ACMMM 2022] RepSR: Training Efficient VGG-style Super-Resolution Networks with Structural Re-Parameterization and Batch Normalization.
[INTERSPEECH 2022] A Hierarchical Speaker Representation Framework for One-shot Singing Voice Conversion.
[CVPR 2022] UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection.
[CVPR 2022] Object-aware Video-language Pre-training for Retrieval.
[CVPR 2022] Active Learning for Open-set Annotation.
[ICASSP 2022] Audio-to-symbolic Arrangement via Cross-modal Music Representation Learning.
[ICLR 2022] Dynamic Token Normalization improves Vision Transformers.
[ICLR 2022] Hot-Refresh Model Upgrades with Regression-Free Compatible Training in Image Retrieval.
[ICLR 2022] Uncertainty Modeling for Out-of-Distribution Generalization.
合作高校
清华大学
中科院自动化
研究所
复旦大学
厦门大学
香港理工大学
中山大学
德克萨斯
A&M大学
香港大学
华中科技大学
新加坡国立大学
50. •
•
•
•
多模态理解与推理
视觉模型
底层视觉 (复原、增强、编辑)
三维视觉及图形学
51.
52. THANKS