视频显式语义理解与视频筛选应用

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. | D a t a F u n Ta l k 视频显式语义理解 与视频筛选应用 王杰 高级研究员 2021
2. 目录 CONTENTS 01 03 背景 视频搜索的核心挑战 结构化解析 文本&多模融合理解 02 视频语义理解 04 视频产品应用 结构化语义解析方案 视频筛选&视频合集 | D a t a F u n Ta l k
3. 01 背景 建设视频语义理解 解决视频搜索核心痛点 视频搜索的核心挑战 | D a t a F u n Ta l k
4. 背景介绍-视频搜索 • 搜索技术架构示意图 图文详情 图文搜索 视频详情 视频搜索 VS • 标题 • 正文 • • • 封面图 作者账号 用户行为 • 标题 • 视频&音频 • • • 封面图 作者账号 用户行为 与图文搜索不同,视频搜索极其依 赖视频理解能力来提供丰富的内容 信号。 | D a t a F u n Ta l k
5. 背景介绍-视频搜索的痛点 意图侧 泛意图query (对比资讯) • 王者荣耀、和平精英、张大仙 … • 游戏名占比45.7% (QQ看点垂搜) • 用户搜索效率? • 内容分发效率? 内容理解 基于短视频元数据(标题、账号) • 视频语义理解 • 元数据难以全面表达视频内容 • 标题质量(标题精简、题文不符) • 对于日益增长的UGC内容难以覆盖 | D a t a F u n Ta l k
6. 背景介绍-视频搜索核心挑战 • 视频搜索核心挑战:建设query与 视频跨模态语义空间对齐关系 Query 问题1: UGC视频文本域质 量参差不齐 问题2: 模态GAP,标题等 文本域信号与视频内容语 义不对齐 | D a t a F u n Ta l k
7. 背景介绍-跨模态检索通用框架 隐式语义空间 采用向量映射并对齐 !"#$%& 显式语义空间 视频分类标签并作为 文本域 ✓ | D a t a F u n Ta l k
8. 02 视频语义理解 引入知识图谱结构信息 建设视频结构化语义解析 视频结构化语义解析 | D a t a F u n Ta l k
9. 视频语义理解-结构化语义解析 DIS: 领域(domain)、兴趣点(interest)、槽位(slot) 一种用于语义理解的schema § 领域(domain):业务垂直领域 § 兴趣点(interest):细分用户需求 § 槽位(slot):兴趣点语义对象分面 影视综、游戏、体育、美食 … 知识图谱 | D a t a F u n Ta l k
10. 视频语义理解-结构化语义解析 DIS: 领域 (domain)、兴趣点 (interest)、槽位 (slot) 一种用于视频结构化语义理解的schema | D a t a F u n Ta l k
11. 03 结构化解析 文本&多模融合理解 基础文本标注 基于Prompt的预训练模型 多模态融合理解 | D a t a F u n Ta l k
12. 结构化解析-基础文本标注 基于规则模 板方法 短文本分类 方法发展 • 词匹配法 • 基于知识工程的 推理规则 TextCNN Yoon Kim. Convolutional Neural Networks for Sentence Classification. EMNLP-14. 经典统计学 习方法 • 文本特征工程 • 分词、词频 • 词袋、VSM • 浅层分类模型 TextRNN Zichao Yang. Hierarchical Attention Networks for Document Classification. NAACL-16. 深度学习方法 • • • • 词向量 TextCNN TextRNN BERT BERT Jacob Devlin. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-19. BERT模型大和推断时长如何解决? | D a t a F u n Ta l k
13. 结 构 化 解 析 - BERT+ 蒸 馏 Geoffrey Hinton. Distilling the Knowledge in a Neural Network. NIPS-2014 DL Workshop. Victor SANH, et al. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. NIPS-19 Worshop. Raphael Tang, et al. Distilling Task-Specific Knowledge from BERT into Simple Neural Networks. arXiv:1903.12136 (2019). Xiaoqi Jiao, et al. Tinybert: Distilling Bert For Natural Language Understanding. arXiv:1909.10351 (2019). | D a t a F u n Ta l k
14. 结 构 化 解 析 - BERT+ 蒸 馏 • • 模型大小~14M,压缩7.5x 模型加速7.5x | D a t a F u n Ta l k
15. 结 构 化 解 析 - BERT+ CRF BiLSTM-CRF Zhiheng Huang, et al. Bidirectional LSTM- CRF Models for Sequence Tagging. CoRR abs/1508.01991 (2015). Gated-CNN-CRF Lei Jiang, et al. An Experimental Study of Hybrid Machine Learning Models for Extracting Named Entities. EPiC Series in Language and Linguistics (2019). BERT-BiLSTM-CRF Jacob Devlin. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-19. | D a t a F u n Ta l k
16. 结 构 化 解 析 - 基 于 prompt预 训 练 模 型 T5: Transfer Text-to-Text Transformer 采用Encoder-Decoder形成NLP问题统一解决框架 训练成本高:750GB C4语料、11B版本百亿级参数 山药炒木耳 山药 木耳 序列标注中类别与边 Flat VS Nested 界同时预测 山药炒木耳这样做更好吃,简单易学,不会做饭也 能做 NLP问题处理通用范式: Pretrain+Finetune • • Prompt-based Pretrain+Finetune 采用模版增强方式构建MLM任务,榨取预训练模型知识 减少所需训练样本 减少模型部署数量 • 如何充分利用预训练语言模型 • 如何实现一个模型解决多个问题 | D a t a F u n Ta l k
17. 结 构 化 解 析 - 基 于 prompt预 训 练 模 型 旧范式! 预训练+Finetune 新范式! 目标文本 输出 任务Prompt 任务样例 | D a t a F u n Ta l k
18. 结 构 化 解 析 - 基 于 prompt预 训 练 模 型 • 大规模预训练语言模型+Prompt,通过灵活构建prompt解决序列标注的两大核心难点 难点1: 槽位序列预测中的嵌套问题 我们提出的创新解法 难点2: 支持20+垂类的模型快速开发迭代 • 减少模型训练样本 • 减少推断模型数量 • 任务prompt与任务样例融合 • 文本生成改成边界预测 | D a t a F u n Ta l k
19. 结 构 化 解 析 - 基 于 prompt预 训 练 模 型 • 核心问题:如何构建适配各个垂类的Prompt 同一词汇在不同垂类语境下具有不同语义表示,如何构 建出代表垂类语境的prompt? • 借鉴元学习思想,通过建设support set方式作为prompt,为目标垂类提供任 务紧密相关的上下文语境 • 对于每一垂类下标注语料,通过句子聚类并选出距离聚类中心最近Top10作 为support set | D a t a F u n Ta l k
20. 结构化解析-词汇增强 大规模预训练语言模型+prompt,实现短文本槽位序列标注模型的快速迁移 • • 中文中槽位标注通常基于字粒度优于词粒度 字粒度序列标注模型存在词汇语义与边界信息缺失 改进方案 词汇增强 • 词汇信息可以强化槽位边界 • 词汇语义信息有助于识别槽位类型 线上case 减肥又想吃蛋糕?就做个紫薯蛋糕 卷吧,超低热量,无负担放心吃! z Prompt-based模型抽取 结果:紫薯蛋糕 融入图谱中的 词表知识 | D a t a F u n Ta l k
21. 结构化解析-词汇增强 span相对 位置编码 head:头位置 tail:尾位置 Flat-Lattice结构 • 与通用预训练语言模型结构兼容 • 直接建模字符与所有匹配词汇的 交互,无信息损失 词汇embedding • 预训练词汇embedding, 提升槽位分类能力 重构汉字格结构 相对位置编码 • 引入词汇span信息 • 建模相对位置,加强距离和方向感知 • 相对位置融入注意力计算,缓解匹配 冲突问题 | D a t a F u n Ta l k
22. 结构化解析-多模态融合理解 通过建设DIS schema实现query与视频在统一语 义空间对齐映射。 领域 (domain) --兴趣点 (interest)--槽位 (slot) 标题文本 视频多模 缺少对视频内容的多模态理解 | D a t a F u n Ta l k
23. 结构化解析-多模态融合理解 • 视频多模态理解的技术演进 • 基于Transformer视频理解范式 ✓ | D a t a F u n Ta l k
24. 结构化解析-多模态融合理解 • • 采用Transformer框架 Ø Ø 统一文本&视觉语义表示方法 统一图片&视频语义表示方法 采用对比学习训练方法 Ø Ø 弱监督学习,易采集更多有效数据 (~千万级视频 &文本pair对) 相比分类任务,可学习更细粒度信息 将图片patch化,通过位置编码接入Transformer • 图片&视频Patch化 原始图片&视频 Patch化 序列化 位置编码 • 对比学习 | D a t a F u n Ta l k
25. 结构化解析-多模态融合理解 多模态预训练模型+模态间融合+Finetune 多阶段学习,实现模态间深度融合 • 通过图文&视文统一预训练模型获取文本和 视频模态的语义特征 阶段1—多模预训练: 双流网络+对比学习 • 采用Transformer模型实现文本&视频模态 间深度融合 阶段2—模态融合预训练: 双流网络freeze+单流 网络模态融合(视文匹配任务) 阶段3—垂类Finetune: 协作网络+垂类任务 finetune(DIS标签分类) 基于多模态预训练模型,下 游标注数据仅需千级别/标签 90% | D a t a F u n Ta l k
26. 04 产品应用 基于结构化解析对视频再组织 建设视频筛选&合集新体验 视频筛选&视频合集 | D a t a F u n Ta l k
27. 产品应用-视频筛选 影视视频筛选 游戏视频筛选 体育视频筛选 | D a t a F u n Ta l k
28. 产品应用-视频合集 游戏视频合集 影视剧情合集 影视人物合集 | D a t a F u n Ta l k
29. | D a t a F u n Ta l k THANKS! 欢迎关注:腾讯看点技术 Ending 2021

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 21:08
浙ICP备14020137号-1 $Map of visitor$