视频显式语义理解与视频筛选应用
如果无法正常显示,请先停止浏览器的去广告插件。
1. | D a t a F u n Ta l k
视频显式语义理解
与视频筛选应用
王杰 高级研究员
2021
2. 目录
CONTENTS
01
03
背景
视频搜索的核心挑战
结构化解析
文本&多模融合理解
02 视频语义理解
04 视频产品应用
结构化语义解析方案
视频筛选&视频合集
| D a t a F u n Ta l k
3. 01
背景
建设视频语义理解
解决视频搜索核心痛点
视频搜索的核心挑战
| D a t a F u n Ta l k
4. 背景介绍-视频搜索
• 搜索技术架构示意图
图文详情
图文搜索
视频详情
视频搜索
VS
• 标题
• 正文
•
•
• 封面图
作者账号
用户行为
• 标题
• 视频&音频
•
•
• 封面图
作者账号
用户行为
与图文搜索不同,视频搜索极其依
赖视频理解能力来提供丰富的内容
信号。
| D a t a F u n Ta l k
5. 背景介绍-视频搜索的痛点
意图侧
泛意图query (对比资讯)
• 王者荣耀、和平精英、张大仙 …
• 游戏名占比45.7% (QQ看点垂搜)
• 用户搜索效率?
• 内容分发效率?
内容理解
基于短视频元数据(标题、账号)
• 视频语义理解
• 元数据难以全面表达视频内容
• 标题质量(标题精简、题文不符)
• 对于日益增长的UGC内容难以覆盖
| D a t a F u n Ta l k
6. 背景介绍-视频搜索核心挑战
• 视频搜索核心挑战:建设query与
视频跨模态语义空间对齐关系
Query
问题1: UGC视频文本域质
量参差不齐
问题2: 模态GAP,标题等
文本域信号与视频内容语
义不对齐
| D a t a F u n Ta l k
7. 背景介绍-跨模态检索通用框架
隐式语义空间
采用向量映射并对齐
!"#$%&
显式语义空间
视频分类标签并作为
文本域
✓
| D a t a F u n Ta l k
8. 02
视频语义理解
引入知识图谱结构信息
建设视频结构化语义解析
视频结构化语义解析
| D a t a F u n Ta l k
9. 视频语义理解-结构化语义解析
DIS: 领域(domain)、兴趣点(interest)、槽位(slot)
一种用于语义理解的schema
§ 领域(domain):业务垂直领域
§ 兴趣点(interest):细分用户需求
§ 槽位(slot):兴趣点语义对象分面
影视综、游戏、体育、美食 …
知识图谱
| D a t a F u n Ta l k
10. 视频语义理解-结构化语义解析
DIS: 领域 (domain)、兴趣点 (interest)、槽位 (slot)
一种用于视频结构化语义理解的schema
| D a t a F u n Ta l k
11. 03
结构化解析
文本&多模融合理解
基础文本标注
基于Prompt的预训练模型
多模态融合理解
| D a t a F u n Ta l k
12. 结构化解析-基础文本标注
基于规则模
板方法
短文本分类
方法发展
• 词匹配法
• 基于知识工程的
推理规则
TextCNN
Yoon Kim. Convolutional Neural Networks for
Sentence Classification. EMNLP-14.
经典统计学
习方法
• 文本特征工程
• 分词、词频
• 词袋、VSM
• 浅层分类模型
TextRNN
Zichao Yang. Hierarchical Attention Networks for
Document Classification. NAACL-16.
深度学习方法
•
•
•
•
词向量
TextCNN
TextRNN
BERT
BERT
Jacob Devlin. BERT: Pre-training of Deep Bidirectional
Transformers for Language Understanding. NAACL-19.
BERT模型大和推断时长如何解决?
| D a t a F u n Ta l k
13. 结 构 化 解 析 - BERT+ 蒸 馏
Geoffrey Hinton. Distilling the
Knowledge in a Neural Network.
NIPS-2014 DL Workshop.
Victor SANH, et al. DistilBERT, a distilled version
of BERT: smaller, faster, cheaper and lighter.
NIPS-19 Worshop.
Raphael Tang, et al. Distilling Task-Specific
Knowledge from BERT into Simple Neural
Networks. arXiv:1903.12136 (2019).
Xiaoqi Jiao, et al. Tinybert: Distilling Bert For
Natural Language Understanding.
arXiv:1909.10351 (2019).
| D a t a F u n Ta l k
14. 结 构 化 解 析 - BERT+ 蒸 馏
•
•
模型大小~14M,压缩7.5x
模型加速7.5x
| D a t a F u n Ta l k
15. 结 构 化 解 析 - BERT+ CRF
BiLSTM-CRF
Zhiheng Huang, et al. Bidirectional LSTM-
CRF Models for Sequence Tagging.
CoRR abs/1508.01991 (2015).
Gated-CNN-CRF
Lei Jiang, et al. An Experimental Study
of Hybrid Machine Learning Models for Extracting Named
Entities. EPiC Series in Language and Linguistics (2019).
BERT-BiLSTM-CRF
Jacob Devlin. BERT: Pre-training of Deep
Bidirectional Transformers for Language
Understanding. NAACL-19.
| D a t a F u n Ta l k
16. 结 构 化 解 析 - 基 于 prompt预 训 练 模 型
T5: Transfer Text-to-Text Transformer
采用Encoder-Decoder形成NLP问题统一解决框架
训练成本高:750GB C4语料、11B版本百亿级参数
山药炒木耳
山药
木耳
序列标注中类别与边
Flat VS Nested 界同时预测
山药炒木耳这样做更好吃,简单易学,不会做饭也
能做
NLP问题处理通用范式:
Pretrain+Finetune
•
•
Prompt-based Pretrain+Finetune
采用模版增强方式构建MLM任务,榨取预训练模型知识
减少所需训练样本
减少模型部署数量
• 如何充分利用预训练语言模型
• 如何实现一个模型解决多个问题
| D a t a F u n Ta l k
17. 结 构 化 解 析 - 基 于 prompt预 训 练 模 型
旧范式!
预训练+Finetune
新范式!
目标文本
输出
任务Prompt
任务样例
| D a t a F u n Ta l k
18. 结 构 化 解 析 - 基 于 prompt预 训 练 模 型
•
大规模预训练语言模型+Prompt,通过灵活构建prompt解决序列标注的两大核心难点
难点1: 槽位序列预测中的嵌套问题
我们提出的创新解法
难点2: 支持20+垂类的模型快速开发迭代
• 减少模型训练样本
• 减少推断模型数量
• 任务prompt与任务样例融合
• 文本生成改成边界预测
| D a t a F u n Ta l k
19. 结 构 化 解 析 - 基 于 prompt预 训 练 模 型
•
核心问题:如何构建适配各个垂类的Prompt
同一词汇在不同垂类语境下具有不同语义表示,如何构
建出代表垂类语境的prompt?
• 借鉴元学习思想,通过建设support set方式作为prompt,为目标垂类提供任
务紧密相关的上下文语境
• 对于每一垂类下标注语料,通过句子聚类并选出距离聚类中心最近Top10作
为support set
| D a t a F u n Ta l k
20. 结构化解析-词汇增强
大规模预训练语言模型+prompt,实现短文本槽位序列标注模型的快速迁移
•
•
中文中槽位标注通常基于字粒度优于词粒度
字粒度序列标注模型存在词汇语义与边界信息缺失
改进方案
词汇增强
• 词汇信息可以强化槽位边界
• 词汇语义信息有助于识别槽位类型
线上case
减肥又想吃蛋糕?就做个紫薯蛋糕
卷吧,超低热量,无负担放心吃!
z
Prompt-based模型抽取
结果:紫薯蛋糕
融入图谱中的
词表知识
| D a t a F u n Ta l k
21. 结构化解析-词汇增强
span相对
位置编码
head:头位置
tail:尾位置
Flat-Lattice结构
•
与通用预训练语言模型结构兼容
•
直接建模字符与所有匹配词汇的
交互,无信息损失
词汇embedding
•
预训练词汇embedding,
提升槽位分类能力
重构汉字格结构
相对位置编码
•
引入词汇span信息
•
建模相对位置,加强距离和方向感知
•
相对位置融入注意力计算,缓解匹配
冲突问题
| D a t a F u n Ta l k
22. 结构化解析-多模态融合理解
通过建设DIS schema实现query与视频在统一语
义空间对齐映射。
领域 (domain) --兴趣点 (interest)--槽位 (slot)
标题文本
视频多模
缺少对视频内容的多模态理解
| D a t a F u n Ta l k
23. 结构化解析-多模态融合理解
•
视频多模态理解的技术演进
•
基于Transformer视频理解范式
✓
| D a t a F u n Ta l k
24. 结构化解析-多模态融合理解
•
•
采用Transformer框架
Ø
Ø
统一文本&视觉语义表示方法
统一图片&视频语义表示方法
采用对比学习训练方法
Ø
Ø
弱监督学习,易采集更多有效数据 (~千万级视频
&文本pair对)
相比分类任务,可学习更细粒度信息
将图片patch化,通过位置编码接入Transformer
• 图片&视频Patch化
原始图片&视频
Patch化
序列化
位置编码
• 对比学习
| D a t a F u n Ta l k
25. 结构化解析-多模态融合理解
多模态预训练模型+模态间融合+Finetune 多阶段学习,实现模态间深度融合
• 通过图文&视文统一预训练模型获取文本和
视频模态的语义特征 阶段1—多模预训练: 双流网络+对比学习
• 采用Transformer模型实现文本&视频模态
间深度融合
阶段2—模态融合预训练: 双流网络freeze+单流
网络模态融合(视文匹配任务)
阶段3—垂类Finetune: 协作网络+垂类任务
finetune(DIS标签分类)
基于多模态预训练模型,下
游标注数据仅需千级别/标签
90%
| D a t a F u n Ta l k
26. 04
产品应用
基于结构化解析对视频再组织
建设视频筛选&合集新体验
视频筛选&视频合集
| D a t a F u n Ta l k
27. 产品应用-视频筛选
影视视频筛选
游戏视频筛选
体育视频筛选
| D a t a F u n Ta l k
28. 产品应用-视频合集
游戏视频合集
影视剧情合集
影视人物合集
| D a t a F u n Ta l k
29. | D a t a F u n Ta l k
THANKS!
欢迎关注:腾讯看点技术
Ending
2021