腾讯ARC:算法实践的沃土

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 腾讯ARC: 算法实践的沃土 ——深度学习在内容素材上复原、二次创作的研究应用
2.
3. 腾讯PCG简介(平台与内容事业群) 社交平台 内容平台 流量平台 带来引领潮流的独特社交体验 创造跨平台的数字内容消费体验 实现内容/产品最有效的用户触达 长视频 短视频 影业 资讯 体育 动漫 内 容 生 态 中 国 最 丰 富 的 内 容 布 局 , 最 具 能 量 的 I P 创 造 能 力
4. 内容多样性 X 算法需求的多样性 图文 视频 影视 内容的 多样性 广告 动漫 直播 大 数 据 分 析 和 洞 察 传播 再创作 应用端 推荐 搜索 画像 内容理解 审核 标准化 预处理 制作
5. 智能内容创作 丰富内容 视频 视频 分发 深度理解 后期处理 (音乐、filter) (视频结构与情绪) 编辑 (场景、clip) 再创作 视觉效果 呈现 用户 用户拍摄 检索 脚本 小想法 想法 精细的视频 内容增强、生成等… 跨模态 检索与推荐 平台服务 内容理解 数据结构与组织 比如:标签、聚类等 源素材 大量素材
6. 多模态理解与推理
7. 基于多项选择题的预训练借口任务(CVPR 2022 Oral) 传统双流视频-文本网络, e.g., CLIP � text Training objective, e.g., contrastive loss 高效的下游视频-文本检索 � video backward Encoder Encoder 缺乏细粒度的视频-文本信息交互 Text Video 传统单流视频-文本网络, e.g., ViLT � joint Training objective, e.g., video-text matching loss backward Joint Encoder Text Video 低效的下游视频-文本检索 细粒度的视频-文本信息交互
8. 基于多项选择题的预训练借口任务(CVPR 2022 Oral) 单塔与双塔模型的桥梁 预训练: 下游检索: Training objectives, i.e., contrastive loss + MCQ loss Encode r Text 高效的下游视频-文本检索,继承双塔优势 细粒度的视频-文本信息交互,继承单塔优势 Bridge Forme r only for pretraining dot product Encode r Video Text Video
9. 基于多项选择题的预训练借口任务(CVPR 2022 Oral) 如何构建多项选择题? … … … “A girl in shorts and a hat is dancing on the green grass” noun spatial local objects verb noun temporal object motions spatial local objects Noun question: “A girl in shorts and a hat is dancing on the [?]” Answer: “green grass” Verb question: “A girl in shorts and a hat is [?] on the green grass” Answer: “dancing”
10. 基于多项选择题的预训练借口任务(CVPR 2022 Oral) 基于参数化BridgeFormer的多项选择题借口任务 MCQ “dancing” “laying”  “talking”  Verb answer � BridgeFormer � “green grass”  “stage”  Noun answer “beach”  only for pre-training �, � TextFormer • 七个公共数据集SOTA+,包括零样本、微调等评测基准 • 涵盖视频-文本检索、动作分类等视频-文本表征学习任务 • 超越CLIP@OpenAI预训练 � 1 � 2 Verb Noun “A question girl in shorts and a hat question is [?] on the [?] ” VideoFormer � �
11. 基于多项选择题的预训练借口任务(CVPR 2022 Oral) 可视化:BridgeFormer如何回答“名词”问题? Q1 Q2 “An old couple/[?] (Q1) are drinking coffee, and there is a plate of bread/[?] (Q2) on the table in front of them.” “A girl is walking with a dog/[?] (Q1) near a lake/[?] (Q2), and there is a meadow on her left.” “A woman wearing a pink dress/[?] (Q1) and carrying a black handbag/[?] (Q2) is walking in the park.” “Parents and kids are playing football/[?] (Q1) on the countryside lawn/[?] (Q2).”
12. 基于多项选择题的预训练借口任务(CVPR 2022 Oral) 可视化:BridgeFormer如何回答“动词”问题? Frame 1 Frame 2 Frame 3 “A hand is cutting/[?] (Q) the pizza on the wooden table.” “A man standing on the lake shore is drinking/[?] (Q) hot tea.”
13. 腾讯PCG产品中跨模态检索的应用(CVPR2022,ECCV2022) 查询:小狗在山顶看日出 跨模态检索 查询:绑着粉红色蝴蝶结的羊驼,一动不动的趴在售卖羊驼毛 绒玩具的门口,来回张望。 动牛人', '跑酷', '空翻', '体能训练 '] 团身侧空翻,后空翻,后手翻,mc 跑酷,翻跟头,侧手翻,空翻,真好体 ,开合跳,前手翻,年下男,训练模式 ,唱功炸裂,国内,cf跑酷,那小子真 帅 真值: ['请勿模仿', '体育训练', '运 小 你 小 有 朋 们 孩 多 友 觉 子 好 的 得 的 玩 日 这 玩 呢 常 , 个 具 ? 这 样 扎 头 发 , 简 单 又 好 看 , 学 会 了 吗 ?
14. 视觉模型
15. 模型迭代: 基于兼容模型的检索系统热刷新升级 (ICLR 2022) 传统冷刷新模型升级 低效模型迭代: 图库离线回填后新模型 才可以上线, 数十亿图像回填需若干月. 热刷新模型升级 高效模型迭代: 新模型的即时上线, 和图库的在线回填,精度逐步爬升
16. 模型迭代: 基于兼容模型的检索系统热刷新升级 (ICLR 2022) 传统兼容模型的挑战 —— 热刷新模型升级中的模型退化问题 模型回归问题的本质因素 —— 负翻转
17. 模型迭代: 基于兼容模型的检索系统热刷新升级 (ICLR 2022) 我们提出的缓解模型退化的兼容训练
18. 模型迭代: 基于兼容模型的检索系统热刷新升级 (ICLR 2022) Google Landmark v2:ResNet-50  ResNet-101 模型升级
19. 模型迭代: 通用场景下的兼容正则化(IJCAI 2022 Oral) 开放世界模型升级下的五种数据分布 & 通用兼容正则化
20. 腾讯PCG产品中模型兼容性的应用 ContentDNA: 用于版权识别的大规模索引系统 月流量 索引 视频 … 视频长度 (s) 特征量 • 冷刷新模型升级: 刷库慢 • 热刷新模型升级: 即时上线 库存视频
21. 模型预训练: 图像BERT预训练的多选离散化(ECCV 2022) mc-BEiT: Multi-choice Discretization for Image BERT Pre-training Compared to BEiT (@Microsoft) and iBOT (@Bytedance), new state-of-the-arts on ImageNet classification, ADE20k semantic segmentation, COCO detection & instance segmentation.
22. 底层视觉 ——对内容素材的复原、增强与编辑
23. 基于生成人脸先验的人脸复原 GFPGAN (CVPR 2021) 真实世界的低清人脸输入: 模糊 噪声 GFPGAN 的复原结果: 压缩
24. 基于生成人脸先验的人脸复原 GFPGAN (CVPR 2021) Pretrained GAN as prior � 푠푝 � 푔푙표 � Losses latent codes � MLP Degradation Removal � 푙 푒 � 푙 Channel-Split SFT Adversarial Loss 푙 � 푒�푒 ROI align � 푒�푒 Facial Component Loss � 푚표 Spatial Feature Transform (SFT) � GAN Restoration Loss 利用了生成网络 GAN 的先验知识 丰富的纹理和人脸细节 生动的色彩 � 푠푝 × conv 푙 + Face Recognition Feature Extractor ℎ Identity Preserving Loss
25. 基于生成人脸先验的人脸复原 GFPGAN (CVPR 2021) 我们的人脸复原 算法GFPGAN PaperWithCode Top榜 我们的GFPGAN人脸 复原算法 GitHub Trending榜
26. 基于生成人脸先验的人脸复原 GFPGAN (CVPR 2021)
27. 基于向量量化和双解码器的人脸复原 VQFR (ECCV 2022 Oral) Main Branch � 푚 TWM TWM TWM � � � Vector Quantization Vector Quantization Texture Branch Code Distance � � 0 1 0 1 … N-1 N-2 0.4 0.1 … 0.6 0.9 N - 1 N - 2 Codebook 1 1 � � � Texture Warp Module (TWM) � � � � � offset
28. 人脸复原的应用 – 会动的老照片 李焕英年轻时旧照 落地 修复后 动起来!
29. Real-ESRGAN:实用图像复原 拍照 相机模糊 传感器噪声 实际的degradation过程是一个复杂 的组合过程 图像编辑 锐化瑕疵 JPEG压缩 上传至网络,比如社交媒体等 进一步的压缩和 不可预测的噪声与瑕疵 在互联网上多次传播,变得更 加严重 改进合成训练方式 高阶合成方式 + 设计合适的超参,来逼近 更加实际的degradation
30. Real-ESRGAN:实用图像复原
31. 真实场景可调节超分复原 – MM-RealSR (ECCV 2022) score = 0 Blur score = 0.5 score = 1 score = 0 Blur score = 0.5 score = 1
32. 真实场景可调节超分复原 – MM-RealSR (ECCV 2022)
33. 动漫超分增强算法 AnimeSR
34. 动漫超分增强算法 AnimeSR
35. 动漫超分增强算法 AnimeSR (NeurIPS 2022) 在 degradation 合成阶段,我们提出了可学习的小网络作为基本算子 … … Basic Operators Neural Networks (a) Classic (b) e.g., blur, rescaling, noise, JPEG compression Learning a large network to synthesize degradations Basic Operators (c) Learnable Learning tiny networks as basic operators 传统经典算子,比如模糊,噪声 一个大神经网络 融合前两者 • • • • 它们没有学习能力 不能很好地合成实际degradations 一个大网络很难学习到复杂的 degradation分布 • 小的可学习网络拥有学习实际 degradation能力 与经典的算子共同“张 成”degradation 空间
36. 动漫超分增强算法 AnimeSR (NeurIPS 2022) … Basic Operators (c) Learnable Learning tiny networks as basic operators
37. 动漫超分增强算法 AnimeSR 我们同时提出了高清的 AVC 动漫视频数据集 AVC-Train AVC-RealLQ 海绵宝宝 爱冒险的朵拉 巴布工程师
38. 动漫超分增强算法 AnimeSR – 渲染类型的动漫 Demo
39. 探究盲超分网络原理 (NeurIPS 2021 Spotlight) Input image Network output Mask 1% deblurring filters Mask 1% denoising filters 1 2 3 4 5 6 7 8
40. 探究盲超分网络原理 (NeurIPS 2021 Spotlight) 核心思想:对于相同的输入,网络输出的变化可以归咎于网络参数(即filters)的变化。 因此可以找到对网络功能贡献最大的filters 输出改变
41. 通用抠图 输入 抠图后输出 输入 抠图后输出
42. 视频物体实例分割(CVPR2022 Oral) 同一类物体可以区分不同实例并在视频内实现跟踪
43. 其它应用:人脸驱动 用户上传一张照片 一键生成唱歌视频 《照片会唱歌》
44. 三维视觉及图形学
45. 三维物体数字化与渲染 量化指标 ArcNeRF重建渲染框架 技术路线 数据处理 基于神经网络表示和神经渲染的重建 特征提取 特征匹配 建模 方式 模型构建 隐式体积模型 模 型 类 型 隐式表面模型 显式模型 表 示 方 式 资产提 取 与渲染 工具 与服务 资 产 类 型 神经网络 网格 神经网络 + 网格 点云 基 础 算 法 神经渲染 基 础 几 何 相机 八叉树 Instant-ngp 光线 球 网格 CUDA 自定义实现 持续构建中… 体素 common trainer 单元测试 notebook NeuS 表面重建 材质 可视化 NeRF++ 网格插值 纹理 实时 渲染器 32.54 重建渲染结果 NeRF 位姿变换 法向量 Reference PSNR 算法支持 立体匹配 渲 染 方 式 Ours PSNR 32.86 物体分割 光线求交 光照 工 具 粗糙点云估计 MVS多视角几何 网格 训练框架 基于Photogrammetry的重建 相机位姿估计 神经渲染建模 可视化工具 相机位姿&稀疏点云 VolSDF MipNeRF 光线采样 体渲染 光栅化渲染 SDF渲染 混合渲染 CUDA OpenGL WebGL 服 务 网页平台 PaaS服务 体素求交和顶点插值 Web端实时渲染
46. 在线增量式场景重建与视角合成 问题定义 局部场景 表征 融合 全局重建结果 输入:RGB-D视频 算法流程 局部场景 表征 融合 可6DoF漫游渲 染的场景表示 iPhone数据重建结果 三维重建 新视角合成 输出 手持iPhone拍摄的 RGB-D视频 预览阶段的视角合成效果 最终的视角合成效果
47. 基于隐式表达和神经渲染的实时场景几何重建 输入:RGB视频 输出:精确的相机位姿+三维场景几何表达 单目相机、实时系统 通过引入几何先验,重 建更多几何细节
48. 360全景单目深度估计 融合全局context信息和 局部结构信息 精度更高、inference 更快
49. 论文与高校合作 部分代表性论文 (2022) [ECCV 2022, Oral] VQFR: Blind Face Restoration with Vector-Quantized Dictionary and Parallel Decoder. [CVPR 2022, Oral] BTS: A Bi-lingual Benchmark for Text Segmentation in the Wild. [CVPR 2022, Oral] Bridging Video-text Retrieval with Multiple Choice Questions. [CVPR 2022, Oral] Temporally Efficient Vision Transformer for Video Instance Segmentation. [IJCAI 2022, Long oral] Towards Universal Backward-Compatible Representation Learning. [NeurIPS 2022] AnimeSR: Learning Real-World Super-Resolution Models for Animation Videos. [NeurIPS 2022] DeVRF: Fast Deformable Voxel Radiance Fields for Dynamic Scenes. [ECCV 2022] Not All Models Are Equal: Predicting Model Transferability in a Self-challenging Fisher Space. [ECCV 2022] mc-BEiT: Multi-choice Discretization for Image BERT Pre-training. [ECCV 2022] Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval. [ECCV 2022] MM-RealSR: Metric Learning based Interactive Modulation for Real-World Super-Resolution. [ACMMM 2022] PC-Dance: Posture-controllable Music-driven Dance Synthesis. [ACMMM 2022] RepSR: Training Efficient VGG-style Super-Resolution Networks with Structural Re-Parameterization and Batch Normalization. [INTERSPEECH 2022] A Hierarchical Speaker Representation Framework for One-shot Singing Voice Conversion. [CVPR 2022] UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection. [CVPR 2022] Object-aware Video-language Pre-training for Retrieval. [CVPR 2022] Active Learning for Open-set Annotation. [ICASSP 2022] Audio-to-symbolic Arrangement via Cross-modal Music Representation Learning. [ICLR 2022] Dynamic Token Normalization improves Vision Transformers. [ICLR 2022] Hot-Refresh Model Upgrades with Regression-Free Compatible Training in Image Retrieval. [ICLR 2022] Uncertainty Modeling for Out-of-Distribution Generalization. 合作高校 清华大学 中科院自动化 研究所 复旦大学 厦门大学 香港理工大学 中山大学 德克萨斯 A&M大学 香港大学 华中科技大学 新加坡国立大学
50. • • • • 多模态理解与推理 视觉模型 底层视觉 (复原、增强、编辑) 三维视觉及图形学
51.
52. THANKS

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 05:55
浙ICP备14020137号-1 $Carte des visiteurs$