多模态内容理解技术在搜索中的应用
如果无法正常显示,请先停止浏览器的去广告插件。
1. 多模态内容理解技术
在搜索中的应用
腾讯 内容理解高级工程师 杨宇鸿
1
2. 目录
CONTENTS
• 通用搜索:内容理解体系
• 千亿规模大库的内容排序
• 细粒度图像语义向量的应用
• 多模内容质量评价
• 未来展望
3. 通用搜索:内容理解体系
4. 内容理解贯穿整个搜索系统
4
5. 理解体系
5
6. 图文理解
6
7. 视频理解
• 多粒度理解:关键帧级、镜头级、场景级、片段级
• 跨模态理解:台词搜索、图搜视频、剧情搜索、片段切分
7
8. 通用表示
8
9.
10. 结构理解
• Key Information Extraction (KIE):时间提取、major-提取、广告位提取、特定要素提取
• Document Layout Analysis (DLA):基于文档结构的解析(文本密度),基于视觉(DocBank&LayoutLM)
• 强渲染:浏览器内核;
• 基础渲染:css-only;
• Image Embeddin
• 2-D Position Embedding
10
11. 结构理解
正文排版美观度:
• 基于文本结构的序列模型建模
• 图片大小、清晰度、是否加粗
• 序列打分
12. 千亿规模大库的内容排序
13.
14. 内容Rank
• 定义:多粒度(字、词、句子、段落、篇章)、跨模态(文本、图片、视频)的理解全网内容(⻚
面),筛选内容质量优质、内容权威、高度原创的有价值内容,建立索引
15. 内容Rank: 筛选TopN(数百亿)
作弊内容
文不对题
同质内容
16. 细粒度图像语义向量的应用
17.
18. 图搜:细粒度向量化
18
19. 图搜:细粒度向量化
19
20. 检索任务适配
20
21. 召回差异
• ImageNet分类粒度低,人不区分男人女人老人小孩,因此经常出现男人召回女人,小孩召回成人的情况
• ImageNet只对主体进行分类,不区分背景场景,召回结果场景差异大
ImageNet
多标签分类
ImageNet
多标签分类
21
22. 图文匹配
22
23. 多模态的内容质量识别技术
24.
25. 多模态质量评价
建模图文混合排版、图文信息匹配增益点、文本内容深度
25
26. UNITER
UNITER: UNiversal Image-TExt Representation Learning
26
27. UNITER 预训练
UNITER: UNiversal Image-TExt Representation Learning
27
28. 数据与消融实验
28
29. 文档领域权威性识别
30.
31. Query-Doc领域权威性
背景:判断Query和账号发文的核心领域是否一致?
难点1:双塔模型特征交互太晚,且无法共享参数?
ü 多阶段训练,引入领域预训练
Stage I Stage II Stage I
Cross Entropy Loss Cross Entropy Loss
+
Cosine loss Cross Entropy Loss
损失层
难点2:如何让模型更关注领域匹配,而非语义匹配?
ü 多任务学习,多个损失函数加权
模型结构
• Query塔:TextCNN
• 账号塔:Roberta + CNN + Attention
MLP + Softmax
query embedding author embedding
MLP Attention + MLP
表示层
query feature
单塔独立预训练(Stage I)
• 目的:将匹配向量映射到同一隐式领域空间
• 任务类型:显示领域分类任务
双塔联合训练(Stage II)
• 目的:学习匹配向量之间的领域匹配度
• 任务类型:多任务学习,回归 + 分类任务
MLP + Softmax
TextCNN
doc feature
name feature
Roberta + CNN
……
输入层
query
Query Tower
doc titles
name
Author Tower
31
32. 二阶段训练
单塔独立预训练(Stage I)
• 目的:将匹配向量映射到同一隐式领域空间
• 任务类型:显示领域分类任务
损失层 音乐,娱乐 音乐,娱乐
表示层 Query Tower Author Tower
双塔联合训练(Stage II)
• 目的:学习匹配向量之间的领域匹配度
• 任务类型:多任务学习,回归 + 分类任务
2分
Query Tower
刘若英新专辑xxx
王菲唱歌的特点是什么
query
金曲奖揭晓xxx
……
王菲金曲推荐xxx
doc titles
Author Tower
刘若英新专辑xxx
全球华语歌曲 王菲唱歌的特点是什么 金曲奖揭晓xxx
……
王菲金曲推荐xxx
name query doc titles
全球华语歌曲
name
• Online hard negative mining :
Embedding-based Retrieval in Facebook Search
输入层
+ 音乐,娱乐
32
33. 多模态的重复识别技术
34.
35. 搜索场景的大规模数据重复控制
方案一:
• 索引检索:多路特征建立索引,进行多路
召回,再进行综合判重,x百亿以上规模的
内存索引,x千核以上
• 并行去重:逻辑复杂,存在队列内比对、
样本库比对、队列删除、加入样本库等流
方案二:分层解耦
• 近线:轻量级聚类ID生成
• 离线:触发式去重,重复组变化时触发重排
• 在线:实时校准
• 成本计算:内存(资源数*签名类别*拉链条
数)x百G,在线y台物理机
• 并行去重:细粒度锁
效果
• 展现重复率控制:x亿内容库,线上Top4展现重复x%以
内
• 索引重复率控制:召回重复拉链减少x%,节省IR约x核
• 去重系统性能与成本:重复组生成xms内,重复组排序
xms内, x亿聚类ID,xG Cache + xG BDB, 整体x核
程。
• 随着索引规模变大检索耗时线性变大
重复组生成
重复组排序
触发退场/入场
36. 未来展望
37. 未来展望
Yann LeCun :
无监督学习技术如何促进多模态场景下不同领域之间知识的交互以提升性能
37
38. 非常感谢您的观看
THANK YOU
谢谢各位聆听