腾讯ARC：算法实践的沃土

1. 腾讯ARC: 算法实践的沃土 ——深度学习在内容素材上复原、二次创作的研究应用

2.

3. 腾讯PCG简介(平台与内容事业群) 社交平台内容平台流量平台带来引领潮流的独特社交体验创造跨平台的数字内容消费体验实现内容/产品最有效的用户触达长视频短视频影业资讯体育动漫内容生态中国最丰富的内容布局，最具能量的 I P 创造能力

4. 内容多样性 X 算法需求的多样性图文视频影视内容的多样性广告动漫直播大数据分析和洞察传播再创作应用端推荐搜索画像内容理解审核标准化预处理制作

5. 智能内容创作丰富内容视频视频分发深度理解后期处理（音乐、filter）（视频结构与情绪）编辑 (场景、clip) 再创作视觉效果呈现用户用户拍摄检索脚本小想法想法精细的视频内容增强、生成等… 跨模态检索与推荐平台服务内容理解数据结构与组织比如:标签、聚类等源素材大量素材

6. 多模态理解与推理

7. 基于多项选择题的预训练借口任务（CVPR 2022 Oral）传统双流视频-文本网络, e.g., CLIP � text Training objective, e.g., contrastive loss 高效的下游视频-文本检索 � video backward Encoder Encoder 缺乏细粒度的视频-文本信息交互 Text Video 传统单流视频-文本网络, e.g., ViLT � joint Training objective, e.g., video-text matching loss backward Joint Encoder Text Video 低效的下游视频-文本检索细粒度的视频-文本信息交互

8. 基于多项选择题的预训练借口任务（CVPR 2022 Oral）单塔与双塔模型的桥梁预训练: 下游检索: Training objectives, i.e., contrastive loss + MCQ loss Encode r Text 高效的下游视频-文本检索，继承双塔优势细粒度的视频-文本信息交互，继承单塔优势 Bridge Forme r only for pretraining dot product Encode r Video Text Video

9. 基于多项选择题的预训练借口任务（CVPR 2022 Oral）如何构建多项选择题？ … … … “A girl in shorts and a hat is dancing on the green grass” noun spatial local objects verb noun temporal object motions spatial local objects Noun question: “A girl in shorts and a hat is dancing on the [?]” Answer: “green grass” Verb question: “A girl in shorts and a hat is [?] on the green grass” Answer: “dancing”

10. 基于多项选择题的预训练借口任务（CVPR 2022 Oral）基于参数化BridgeFormer的多项选择题借口任务 MCQ “dancing” “laying”  “talking”  Verb answer � BridgeFormer � “green grass”  “stage”  Noun answer “beach”  only for pre-training �, � TextFormer • 七个公共数据集SOTA+，包括零样本、微调等评测基准 • 涵盖视频-文本检索、动作分类等视频-文本表征学习任务 • 超越CLIP@OpenAI预训练 � 1 � 2 Verb Noun “A question girl in shorts and a hat question is [?] on the [?] ” VideoFormer � �

11. 基于多项选择题的预训练借口任务（CVPR 2022 Oral）可视化：BridgeFormer如何回答“名词”问题？ Q1 Q2 “An old couple/[?] (Q1) are drinking coffee, and there is a plate of bread/[?] (Q2) on the table in front of them.” “A girl is walking with a dog/[?] (Q1) near a lake/[?] (Q2), and there is a meadow on her left.” “A woman wearing a pink dress/[?] (Q1) and carrying a black handbag/[?] (Q2) is walking in the park.” “Parents and kids are playing football/[?] (Q1) on the countryside lawn/[?] (Q2).”

12. 基于多项选择题的预训练借口任务（CVPR 2022 Oral）可视化：BridgeFormer如何回答“动词”问题？ Frame 1 Frame 2 Frame 3 “A hand is cutting/[?] (Q) the pizza on the wooden table.” “A man standing on the lake shore is drinking/[?] (Q) hot tea.”

13. 腾讯PCG产品中跨模态检索的应用（CVPR2022，ECCV2022）查询：小狗在山顶看日出跨模态检索查询：绑着粉红色蝴蝶结的羊驼，一动不动的趴在售卖羊驼毛绒玩具的门口，来回张望。动牛人', '跑酷', '空翻', '体能训练 '] 团身侧空翻,后空翻,后手翻,mc 跑酷,翻跟头,侧手翻,空翻,真好体 ,开合跳,前手翻,年下男,训练模式 ,唱功炸裂,国内,cf跑酷,那小子真帅真值: ['请勿模仿', '体育训练', '运小你小有朋们孩多友觉子好的得的玩日这玩呢常，个具？这样扎头发，简单又好看，学会了吗？

14. 视觉模型

15. 模型迭代: 基于兼容模型的检索系统热刷新升级（ICLR 2022）传统冷刷新模型升级低效模型迭代: 图库离线回填后新模型才可以上线, 数十亿图像回填需若干月. 热刷新模型升级高效模型迭代: 新模型的即时上线，和图库的在线回填，精度逐步爬升

16. 模型迭代: 基于兼容模型的检索系统热刷新升级（ICLR 2022）传统兼容模型的挑战 —— 热刷新模型升级中的模型退化问题模型回归问题的本质因素 —— 负翻转

17. 模型迭代: 基于兼容模型的检索系统热刷新升级（ICLR 2022）我们提出的缓解模型退化的兼容训练

18. 模型迭代: 基于兼容模型的检索系统热刷新升级（ICLR 2022） Google Landmark v2：ResNet-50  ResNet-101 模型升级

19. 模型迭代: 通用场景下的兼容正则化（IJCAI 2022 Oral）开放世界模型升级下的五种数据分布 & 通用兼容正则化

20. 腾讯PCG产品中模型兼容性的应用 ContentDNA: 用于版权识别的大规模索引系统月流量索引视频 … 视频长度 (s) 特征量 • 冷刷新模型升级: 刷库慢 • 热刷新模型升级: 即时上线库存视频

21. 模型预训练: 图像BERT预训练的多选离散化（ECCV 2022） mc-BEiT: Multi-choice Discretization for Image BERT Pre-training Compared to BEiT (@Microsoft) and iBOT (@Bytedance), new state-of-the-arts on ImageNet classification, ADE20k semantic segmentation, COCO detection & instance segmentation.

22. 底层视觉 ——对内容素材的复原、增强与编辑

23. 基于生成人脸先验的人脸复原 GFPGAN (CVPR 2021) 真实世界的低清人脸输入：模糊噪声 GFPGAN 的复原结果：压缩

24. 基于生成人脸先验的人脸复原 GFPGAN (CVPR 2021) Pretrained GAN as prior � 푠푝 � 푔푙표 � Losses latent codes � MLP Degradation Removal � 푙 푒 � 푙 Channel-Split SFT Adversarial Loss 푙 � 푒�푒 ROI align � 푒�푒 Facial Component Loss � 푚표 Spatial Feature Transform (SFT) � GAN Restoration Loss 利用了生成网络 GAN 的先验知识丰富的纹理和人脸细节生动的色彩 � 푠푝 × conv 푙 + Face Recognition Feature Extractor ℎ Identity Preserving Loss

25. 基于生成人脸先验的人脸复原 GFPGAN (CVPR 2021) 我们的人脸复原算法GFPGAN PaperWithCode Top榜我们的GFPGAN人脸复原算法 GitHub Trending榜

26. 基于生成人脸先验的人脸复原 GFPGAN (CVPR 2021)

27. 基于向量量化和双解码器的人脸复原 VQFR (ECCV 2022 Oral) Main Branch � 푚 TWM TWM TWM � � � Vector Quantization Vector Quantization Texture Branch Code Distance � � 0 1 0 1 … N-1 N-2 0.4 0.1 … 0.6 0.9 N - 1 N - 2 Codebook 1 1 � � � Texture Warp Module (TWM) � � � � � offset

28. 人脸复原的应用 – 会动的老照片李焕英年轻时旧照落地修复后动起来!

29. Real-ESRGAN：实用图像复原拍照相机模糊传感器噪声实际的degradation过程是一个复杂的组合过程图像编辑锐化瑕疵 JPEG压缩上传至网络，比如社交媒体等进一步的压缩和不可预测的噪声与瑕疵在互联网上多次传播，变得更加严重改进合成训练方式高阶合成方式 + 设计合适的超参，来逼近更加实际的degradation

30. Real-ESRGAN：实用图像复原

31. 真实场景可调节超分复原 – MM-RealSR (ECCV 2022) score = 0 Blur score = 0.5 score = 1 score = 0 Blur score = 0.5 score = 1

32. 真实场景可调节超分复原 – MM-RealSR (ECCV 2022)

33. 动漫超分增强算法 AnimeSR

34. 动漫超分增强算法 AnimeSR

35. 动漫超分增强算法 AnimeSR (NeurIPS 2022) 在 degradation 合成阶段，我们提出了可学习的小网络作为基本算子 … … Basic Operators Neural Networks (a) Classic (b) e.g., blur, rescaling, noise, JPEG compression Learning a large network to synthesize degradations Basic Operators (c) Learnable Learning tiny networks as basic operators 传统经典算子，比如模糊，噪声一个大神经网络融合前两者 • • • • 它们没有学习能力不能很好地合成实际degradations 一个大网络很难学习到复杂的 degradation分布 • 小的可学习网络拥有学习实际 degradation能力与经典的算子共同“张成”degradation 空间

36. 动漫超分增强算法 AnimeSR (NeurIPS 2022) … Basic Operators (c) Learnable Learning tiny networks as basic operators

37. 动漫超分增强算法 AnimeSR 我们同时提出了高清的 AVC 动漫视频数据集 AVC-Train AVC-RealLQ 海绵宝宝爱冒险的朵拉巴布工程师

38. 动漫超分增强算法 AnimeSR – 渲染类型的动漫 Demo

39. 探究盲超分网络原理 (NeurIPS 2021 Spotlight) Input image Network output Mask 1% deblurring filters Mask 1% denoising filters 1 2 3 4 5 6 7 8

40. 探究盲超分网络原理 (NeurIPS 2021 Spotlight) 核心思想：对于相同的输入，网络输出的变化可以归咎于网络参数（即filters）的变化。因此可以找到对网络功能贡献最大的filters 输出改变

41. 通用抠图输入抠图后输出输入抠图后输出

42. 视频物体实例分割（CVPR2022 Oral）同一类物体可以区分不同实例并在视频内实现跟踪

43. 其它应用：人脸驱动用户上传一张照片一键生成唱歌视频《照片会唱歌》

44. 三维视觉及图形学

45. 三维物体数字化与渲染量化指标 ArcNeRF重建渲染框架技术路线数据处理基于神经网络表示和神经渲染的重建特征提取特征匹配建模方式模型构建隐式体积模型模型类型隐式表面模型显式模型表示方式资产提取与渲染工具与服务资产类型神经网络网格神经网络 + 网格点云基础算法神经渲染基础几何相机八叉树 Instant-ngp 光线球网格 CUDA 自定义实现持续构建中… 体素 common trainer 单元测试 notebook NeuS 表面重建材质可视化 NeRF++ 网格插值纹理实时渲染器 32.54 重建渲染结果 NeRF 位姿变换法向量 Reference PSNR 算法支持立体匹配渲染方式 Ours PSNR 32.86 物体分割光线求交光照工具粗糙点云估计 MVS多视角几何网格训练框架基于Photogrammetry的重建相机位姿估计神经渲染建模可视化工具相机位姿&稀疏点云 VolSDF MipNeRF 光线采样体渲染光栅化渲染 SDF渲染混合渲染 CUDA OpenGL WebGL 服务网页平台 PaaS服务体素求交和顶点插值 Web端实时渲染

46. 在线增量式场景重建与视角合成问题定义局部场景表征融合全局重建结果输入：RGB-D视频算法流程局部场景表征融合可6DoF漫游渲染的场景表示 iPhone数据重建结果三维重建新视角合成输出手持iPhone拍摄的 RGB-D视频预览阶段的视角合成效果最终的视角合成效果

47. 基于隐式表达和神经渲染的实时场景几何重建输入：RGB视频输出：精确的相机位姿+三维场景几何表达单目相机、实时系统通过引入几何先验，重建更多几何细节

48. 360全景单目深度估计融合全局context信息和局部结构信息精度更高、inference 更快

49. 论文与高校合作部分代表性论文 (2022) [ECCV 2022, Oral] VQFR: Blind Face Restoration with Vector-Quantized Dictionary and Parallel Decoder. [CVPR 2022, Oral] BTS: A Bi-lingual Benchmark for Text Segmentation in the Wild. [CVPR 2022, Oral] Bridging Video-text Retrieval with Multiple Choice Questions. [CVPR 2022, Oral] Temporally Efficient Vision Transformer for Video Instance Segmentation. [IJCAI 2022, Long oral] Towards Universal Backward-Compatible Representation Learning. [NeurIPS 2022] AnimeSR: Learning Real-World Super-Resolution Models for Animation Videos. [NeurIPS 2022] DeVRF: Fast Deformable Voxel Radiance Fields for Dynamic Scenes. [ECCV 2022] Not All Models Are Equal: Predicting Model Transferability in a Self-challenging Fisher Space. [ECCV 2022] mc-BEiT: Multi-choice Discretization for Image BERT Pre-training. [ECCV 2022] Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval. [ECCV 2022] MM-RealSR: Metric Learning based Interactive Modulation for Real-World Super-Resolution. [ACMMM 2022] PC-Dance: Posture-controllable Music-driven Dance Synthesis. [ACMMM 2022] RepSR: Training Efficient VGG-style Super-Resolution Networks with Structural Re-Parameterization and Batch Normalization. [INTERSPEECH 2022] A Hierarchical Speaker Representation Framework for One-shot Singing Voice Conversion. [CVPR 2022] UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection. [CVPR 2022] Object-aware Video-language Pre-training for Retrieval. [CVPR 2022] Active Learning for Open-set Annotation. [ICASSP 2022] Audio-to-symbolic Arrangement via Cross-modal Music Representation Learning. [ICLR 2022] Dynamic Token Normalization improves Vision Transformers. [ICLR 2022] Hot-Refresh Model Upgrades with Regression-Free Compatible Training in Image Retrieval. [ICLR 2022] Uncertainty Modeling for Out-of-Distribution Generalization. 合作高校清华大学中科院自动化研究所复旦大学厦门大学香港理工大学中山大学德克萨斯 A&M大学香港大学华中科技大学新加坡国立大学

50. • • • • 多模态理解与推理视觉模型底层视觉 (复原、增强、编辑) 三维视觉及图形学

51.

52. THANKS