视频显式语义理解与视频筛选应用

如果无法正常显示，请先停止浏览器的去广告插件。

1. | D a t a F u n Ta l k 视频显式语义理解与视频筛选应用王杰高级研究员 2021

2. 目录 CONTENTS 01 03 背景视频搜索的核心挑战结构化解析文本&多模融合理解 02 视频语义理解 04 视频产品应用结构化语义解析方案视频筛选&视频合集 | D a t a F u n Ta l k

3. 01 背景建设视频语义理解解决视频搜索核心痛点视频搜索的核心挑战 | D a t a F u n Ta l k

4. 背景介绍-视频搜索 • 搜索技术架构示意图图文详情图文搜索视频详情视频搜索 VS • 标题 • 正文 • • • 封面图作者账号用户行为 • 标题 • 视频&音频 • • • 封面图作者账号用户行为与图文搜索不同，视频搜索极其依赖视频理解能力来提供丰富的内容信号。 | D a t a F u n Ta l k

5. 背景介绍-视频搜索的痛点意图侧泛意图query (对比资讯) • 王者荣耀、和平精英、张大仙 … • 游戏名占比45.7% （QQ看点垂搜） • 用户搜索效率？ • 内容分发效率？内容理解基于短视频元数据（标题、账号） • 视频语义理解 • 元数据难以全面表达视频内容 • 标题质量(标题精简、题文不符) • 对于日益增长的UGC内容难以覆盖 | D a t a F u n Ta l k

6. 背景介绍-视频搜索核心挑战 • 视频搜索核心挑战：建设query与视频跨模态语义空间对齐关系 Query 问题1: UGC视频文本域质量参差不齐问题2: 模态GAP，标题等文本域信号与视频内容语义不对齐 | D a t a F u n Ta l k

7. 背景介绍-跨模态检索通用框架隐式语义空间采用向量映射并对齐 !"#$%& 显式语义空间视频分类标签并作为文本域 ✓ | D a t a F u n Ta l k

8. 02 视频语义理解引入知识图谱结构信息建设视频结构化语义解析视频结构化语义解析 | D a t a F u n Ta l k

9. 视频语义理解-结构化语义解析 DIS: 领域(domain)、兴趣点(interest)、槽位(slot) 一种用于语义理解的schema § 领域(domain)：业务垂直领域 § 兴趣点(interest)：细分用户需求 § 槽位(slot)：兴趣点语义对象分面影视综、游戏、体育、美食 … 知识图谱 | D a t a F u n Ta l k

10. 视频语义理解-结构化语义解析 DIS: 领域 (domain)、兴趣点 (interest)、槽位 (slot) 一种用于视频结构化语义理解的schema | D a t a F u n Ta l k

11. 03 结构化解析文本&多模融合理解基础文本标注基于Prompt的预训练模型多模态融合理解 | D a t a F u n Ta l k

12. 结构化解析-基础文本标注基于规则模板方法短文本分类方法发展 • 词匹配法 • 基于知识工程的推理规则 TextCNN Yoon Kim. Convolutional Neural Networks for Sentence Classification. EMNLP-14. 经典统计学习方法 • 文本特征工程 • 分词、词频 • 词袋、VSM • 浅层分类模型 TextRNN Zichao Yang. Hierarchical Attention Networks for Document Classification. NAACL-16. 深度学习方法 • • • • 词向量 TextCNN TextRNN BERT BERT Jacob Devlin. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-19. BERT模型大和推断时长如何解决？ | D a t a F u n Ta l k

13. 结构化解析 - BERT+ 蒸馏 Geoffrey Hinton. Distilling the Knowledge in a Neural Network. NIPS-2014 DL Workshop. Victor SANH, et al. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. NIPS-19 Worshop. Raphael Tang, et al. Distilling Task-Specific Knowledge from BERT into Simple Neural Networks. arXiv:1903.12136 (2019). Xiaoqi Jiao, et al. Tinybert: Distilling Bert For Natural Language Understanding. arXiv:1909.10351 (2019). | D a t a F u n Ta l k

14. 结构化解析 - BERT+ 蒸馏 • • 模型大小～14M，压缩7.5x 模型加速7.5x | D a t a F u n Ta l k

15. 结构化解析 - BERT+ CRF BiLSTM-CRF Zhiheng Huang, et al. Bidirectional LSTM- CRF Models for Sequence Tagging. CoRR abs/1508.01991 (2015). Gated-CNN-CRF Lei Jiang, et al. An Experimental Study of Hybrid Machine Learning Models for Extracting Named Entities. EPiC Series in Language and Linguistics (2019). BERT-BiLSTM-CRF Jacob Devlin. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-19. | D a t a F u n Ta l k

16. 结构化解析 - 基于 prompt预训练模型 T5: Transfer Text-to-Text Transformer 采用Encoder-Decoder形成NLP问题统一解决框架训练成本高：750GB C4语料、11B版本百亿级参数山药炒木耳山药木耳序列标注中类别与边 Flat VS Nested 界同时预测山药炒木耳这样做更好吃，简单易学，不会做饭也能做 NLP问题处理通用范式： Pretrain+Finetune • • Prompt-based Pretrain+Finetune 采用模版增强方式构建MLM任务，榨取预训练模型知识减少所需训练样本减少模型部署数量 • 如何充分利用预训练语言模型 • 如何实现一个模型解决多个问题 | D a t a F u n Ta l k

17. 结构化解析 - 基于 prompt预训练模型旧范式！预训练+Finetune 新范式！目标文本输出任务Prompt 任务样例 | D a t a F u n Ta l k

18. 结构化解析 - 基于 prompt预训练模型 • 大规模预训练语言模型+Prompt，通过灵活构建prompt解决序列标注的两大核心难点难点1: 槽位序列预测中的嵌套问题我们提出的创新解法难点2: 支持20+垂类的模型快速开发迭代 • 减少模型训练样本 • 减少推断模型数量 • 任务prompt与任务样例融合 • 文本生成改成边界预测 | D a t a F u n Ta l k

19. 结构化解析 - 基于 prompt预训练模型 • 核心问题：如何构建适配各个垂类的Prompt 同一词汇在不同垂类语境下具有不同语义表示，如何构建出代表垂类语境的prompt？ • 借鉴元学习思想，通过建设support set方式作为prompt，为目标垂类提供任务紧密相关的上下文语境 • 对于每一垂类下标注语料，通过句子聚类并选出距离聚类中心最近Top10作为support set | D a t a F u n Ta l k

20. 结构化解析-词汇增强大规模预训练语言模型+prompt，实现短文本槽位序列标注模型的快速迁移 • • 中文中槽位标注通常基于字粒度优于词粒度字粒度序列标注模型存在词汇语义与边界信息缺失改进方案词汇增强 • 词汇信息可以强化槽位边界 • 词汇语义信息有助于识别槽位类型线上case 减肥又想吃蛋糕？就做个紫薯蛋糕卷吧,超低热量,无负担放心吃！ z Prompt-based模型抽取结果：紫薯蛋糕融入图谱中的词表知识 | D a t a F u n Ta l k

21. 结构化解析-词汇增强 span相对位置编码 head:头位置 tail:尾位置 Flat-Lattice结构 • 与通用预训练语言模型结构兼容 • 直接建模字符与所有匹配词汇的交互，无信息损失词汇embedding • 预训练词汇embedding，提升槽位分类能力重构汉字格结构相对位置编码 • 引入词汇span信息 • 建模相对位置，加强距离和方向感知 • 相对位置融入注意力计算，缓解匹配冲突问题 | D a t a F u n Ta l k

22. 结构化解析-多模态融合理解通过建设DIS schema实现query与视频在统一语义空间对齐映射。领域 (domain) --兴趣点 (interest)--槽位 (slot) 标题文本视频多模缺少对视频内容的多模态理解 | D a t a F u n Ta l k

23. 结构化解析-多模态融合理解 • 视频多模态理解的技术演进 • 基于Transformer视频理解范式 ✓ | D a t a F u n Ta l k

24. 结构化解析-多模态融合理解 • • 采用Transformer框架 Ø Ø 统一文本&视觉语义表示方法统一图片&视频语义表示方法采用对比学习训练方法 Ø Ø 弱监督学习，易采集更多有效数据 (～千万级视频 &文本pair对) 相比分类任务，可学习更细粒度信息将图片patch化，通过位置编码接入Transformer • 图片&视频Patch化原始图片&视频 Patch化序列化位置编码 • 对比学习 | D a t a F u n Ta l k

25. 结构化解析-多模态融合理解多模态预训练模型+模态间融合+Finetune 多阶段学习，实现模态间深度融合 • 通过图文&视文统一预训练模型获取文本和视频模态的语义特征阶段1—多模预训练: 双流网络+对比学习 • 采用Transformer模型实现文本&视频模态间深度融合阶段2—模态融合预训练: 双流网络freeze+单流网络模态融合（视文匹配任务）阶段3—垂类Finetune: 协作网络+垂类任务 finetune（DIS标签分类）基于多模态预训练模型，下游标注数据仅需千级别/标签 90% | D a t a F u n Ta l k

26. 04 产品应用基于结构化解析对视频再组织建设视频筛选&合集新体验视频筛选&视频合集 | D a t a F u n Ta l k

27. 产品应用-视频筛选影视视频筛选游戏视频筛选体育视频筛选 | D a t a F u n Ta l k

28. 产品应用-视频合集游戏视频合集影视剧情合集影视人物合集 | D a t a F u n Ta l k

29. | D a t a F u n Ta l k THANKS！欢迎关注：腾讯看点技术 Ending 2021