多模态内容理解技术在搜索中的应用

1. 多模态内容理解技术在搜索中的应用腾讯内容理解高级工程师杨宇鸿 1

2. 目录 CONTENTS • 通用搜索：内容理解体系 • 千亿规模大库的内容排序 • 细粒度图像语义向量的应用 • 多模内容质量评价 • 未来展望

3. 通用搜索：内容理解体系

4. 内容理解贯穿整个搜索系统 4

5. 理解体系 5

6. 图文理解 6

7. 视频理解 • 多粒度理解：关键帧级、镜头级、场景级、片段级 • 跨模态理解：台词搜索、图搜视频、剧情搜索、片段切分 7

8. 通用表示 8

9.

10. 结构理解 • Key Information Extraction (KIE)：时间提取、major-提取、广告位提取、特定要素提取 • Document Layout Analysis (DLA)：基于文档结构的解析（文本密度），基于视觉(DocBank&LayoutLM) • 强渲染：浏览器内核； • 基础渲染：css-only; • Image Embeddin • 2-D Position Embedding 10

11. 结构理解正文排版美观度： • 基于文本结构的序列模型建模 • 图片大小、清晰度、是否加粗 • 序列打分

12. 千亿规模大库的内容排序

13.

14. 内容Rank • 定义：多粒度（字、词、句子、段落、篇章）、跨模态（文本、图片、视频）的理解全网内容（⻚面），筛选内容质量优质、内容权威、高度原创的有价值内容，建立索引

15. 内容Rank：筛选TopN(数百亿) 作弊内容文不对题同质内容

16. 细粒度图像语义向量的应用

17.

18. 图搜：细粒度向量化 18

19. 图搜：细粒度向量化 19

20. 检索任务适配 20

21. 召回差异 • ImageNet分类粒度低，人不区分男人女人老人小孩，因此经常出现男人召回女人，小孩召回成人的情况 • ImageNet只对主体进行分类，不区分背景场景，召回结果场景差异大 ImageNet 多标签分类 ImageNet 多标签分类 21

22. 图文匹配 22

23. 多模态的内容质量识别技术

24.

25. 多模态质量评价建模图文混合排版、图文信息匹配增益点、文本内容深度 25

26. UNITER UNITER: UNiversal Image-TExt Representation Learning 26

27. UNITER 预训练 UNITER: UNiversal Image-TExt Representation Learning 27

28. 数据与消融实验 28

29. 文档领域权威性识别

30.

31. Query-Doc领域权威性背景：判断Query和账号发文的核心领域是否一致？难点1：双塔模型特征交互太晚，且无法共享参数？ ü 多阶段训练，引入领域预训练 Stage I Stage II Stage I Cross Entropy Loss Cross Entropy Loss + Cosine loss Cross Entropy Loss 损失层难点2：如何让模型更关注领域匹配，而非语义匹配？ ü 多任务学习，多个损失函数加权模型结构 • Query塔：TextCNN • 账号塔：Roberta + CNN + Attention MLP + Softmax query embedding author embedding MLP Attention + MLP 表示层 query feature 单塔独立预训练（Stage I） • 目的：将匹配向量映射到同一隐式领域空间 • 任务类型：显示领域分类任务双塔联合训练（Stage II） • 目的：学习匹配向量之间的领域匹配度 • 任务类型：多任务学习，回归 + 分类任务 MLP + Softmax TextCNN doc feature name feature Roberta + CNN …… 输入层 query Query Tower doc titles name Author Tower 31

32. 二阶段训练单塔独立预训练（Stage I） • 目的：将匹配向量映射到同一隐式领域空间 • 任务类型：显示领域分类任务损失层音乐，娱乐音乐，娱乐表示层 Query Tower Author Tower 双塔联合训练（Stage II） • 目的：学习匹配向量之间的领域匹配度 • 任务类型：多任务学习，回归 + 分类任务 2分 Query Tower 刘若英新专辑xxx 王菲唱歌的特点是什么 query 金曲奖揭晓xxx …… 王菲金曲推荐xxx doc titles Author Tower 刘若英新专辑xxx 全球华语歌曲王菲唱歌的特点是什么金曲奖揭晓xxx …… 王菲金曲推荐xxx name query doc titles 全球华语歌曲 name • Online hard negative mining : Embedding-based Retrieval in Facebook Search 输入层 + 音乐，娱乐 32

33. 多模态的重复识别技术

34.

35. 搜索场景的大规模数据重复控制方案一： • 索引检索：多路特征建立索引，进行多路召回，再进行综合判重，x百亿以上规模的内存索引，x千核以上 • 并行去重：逻辑复杂，存在队列内比对、样本库比对、队列删除、加入样本库等流方案二：分层解耦 • 近线：轻量级聚类ID生成 • 离线：触发式去重，重复组变化时触发重排 • 在线：实时校准 • 成本计算：内存（资源数*签名类别*拉链条数）x百G，在线y台物理机 • 并行去重：细粒度锁效果 • 展现重复率控制：x亿内容库，线上Top4展现重复x%以内 • 索引重复率控制：召回重复拉链减少x%，节省IR约x核 • 去重系统性能与成本：重复组生成xms内，重复组排序 xms内， x亿聚类ID，xG Cache + xG BDB, 整体x核程。 • 随着索引规模变大检索耗时线性变大重复组生成重复组排序触发退场/入场

36. 未来展望

37. 未来展望 Yann LeCun : 无监督学习技术如何促进多模态场景下不同领域之间知识的交互以提升性能 37

38. 非常感谢您的观看 THANK YOU 谢谢各位聆听