AI多媒体技术在内容审核场景实践探索

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. AI多媒体技术在内容审核场景实践探索 马金龙 趣丸科技(TT语音)
2. 个人介绍 马金龙 多年媒体算法开发经验,涉及音视频图 像文本,负责过音频前后端处理,弱网优化,音 视频质量提升,智能内容安全审核“T网”,内容 理解“T悟”等大型项目。曾作为“灵声讯”创始 人,参与智能媒体技术自媒体运营和推广。
3. 01 内容审核目前现状与挑战 02 AI多媒体技术实践之路 03 智能内容审核平台案例 04 AIGC内容风控实践 05 未来展望
4. 1.内容审核目前现状与挑战 现状 • 政府监管越来越严 • 用户内容层出不穷 • 违规种类繁杂 • AIGC内容不可控 挑战 • 【实时性】需要紧跟政府管控要求 • 【准确性】对花样变体不漏杀不误杀 • 【多样性】违规种类需不同算法解决 • 【未知性】AIGC生成内容不确定且存在知识“幻觉”
5. 2. AI多媒体技术实践之路 自建 OR 第三方?
6. 2. AI多媒体技术实践之路 自建优势: 可管可控 极速响应 生态保障 高效定制 具备数据血源追踪、问题实时 监控、技术辅助运营等风控能 力 针对安全,时效等方面推出高 响应审核,让内容审核安全高 效 通过机审结果多样化处置、账 号违规处置等多种手段,保障 平台生态安全 推出特殊时期/突发事件的相 关定制化,快速响应国家政府 的紧急要求
7. 2. AI多媒体技术实践之路 T网 是一个通过人工智能的算法打造一站式内 2.1 语音识别 2.2 NLP文本审核 容安全机器审核的平台,帮助公司审核团队实 现语音,文本,图像,小视频等风险管控的能 力。 2.3 多模态识别 对于此项目的目的可总结如下: 2.4 音频事件检测 • 贯彻国家网信办有关网络内容安全的各项规 2.5 小语种识别 2.6 歌曲识别 2.7 声纹识别 2.8 违规图像识别 定 • 低成本高效率的加强内容风险管控 • 构建智能审核技术护城河,为公司内容生态 保驾护航 • 探索内容审核新方法,践行公司的社会责任
8. 2.1 ASR-技术方案 技术目标 用户产生的语音数据输入ASR模型,模型输出 该语音的文字内容,以供下一环节NLP检查是 否包含违规词,或违规内容。 模型总体逻辑 使用深度学习模型Transformer/Conformer (如 图中Shared Encoder) 提取输入音频中的特征 使用CTC解码得到若干候选文本。 图1. T网-ASR端对端方案
9. 2.1 ASR架构 Efficient Conformer • Convolution neural networks和transformers models组合 • Efficient Conformer设计 • 结合量化剪枝和蒸馏技术,压缩模型大小 • 提供CPU和GPU,支持高吞吐量识别 图2. T网-ASR支持的功能 图3. ASR中Efficient conformer技术方案
10. 2.1 ASR-效果 图4 T网-ASR优化后的推理速度 图5. ASR 测试报告 (CER)和模型大小
11. 2.2 NLP算法总体框架 NLP算法模型: • Bert 算法 • Prompt 算法 • Fasttext 算法 • AIGC 语料生成算法 • 文本表情复杂表示的多模态识别算法 • 关键词挖掘算法 图6. T网-NLP总体框架
12. 2.2 NLP内容审核的困难与挑战 纯文本审核面临的问题与挑战: • 变体关键词的多样化 • 文字与表情包的结合的复杂表达 我们的成功案例: • 构建变体关键词挖掘系统 • 构建文本表情字母多模态识别系统 • 文字与字母或字母缩写结合的复杂表达 • 特定场景语料不足与稀疏性 • AIGC语料生成系统 • 特定关键词词的隐晦表达 • 异常关键词大数据监测系统 • 正常词与关键词相同,但不同上下文上 • 多层次语义分析系统 语义不同
13. 2.2 NLP内容审核-效果呈现 图7. NLP关键词挖掘示意图 违规标签 精确率 辱骂 94.45% 色情 95.03% 涉政 91.31% 广告 90.96% 违禁 92.98% 图8. NLP文本审核效果
14. 2.2 文本未成年人识别 关键词匹配分析框架,支持多种匹配方式、多种过滤条件,并支持自定义特殊标记,及支持特定动作行 为,将未成年人识别实现模组化的流程分析。未成年识别精确率99%+; 图9. T网文本未成年人审核技术框架
15. 2.3 多模态算法原理 项目背景 • 单模态审核特征不全面,多模态结合语气和语义信息可提高处罚有效率。 • 人工审核量级大,需要对不同类型的违规进行灵活处置。 建模算法 • Transformer 跨模态多头注意力机制; • 随机森林; 模态α 模态β 图10. Transformer 跨模态多头注意力机制 图11.随机森林
16. 2.3 多模态高准召回 模型指标 • 多模态算法上线处罚有效率为99%+; • 如右图,每日占总机审违规样本约17%; 模型价值 • 提高对违规样本的召回,减少单模态的漏 召; • 提供高准标签运用在灵活处置: a. 提高处罚响应速度; b. 提升人工审核效率; 图12 .多模态辱骂命中数量及占比
17. 2.4 声音事件检测(Sound Event Detection) 检测的声音事件: • 审核类 • 娇喘,炸房,怒骂 • 普通标签 BRaSS • 背景音乐(BGM, B) • 说唱(Rap, Ra) • 说话(Speech, S) • 唱歌(Sing, S) 模型价值 • 完善对声音类违规的审核能力。 • 音频类型分流,降低后续模型成本。 • 语音直播趋势分析。 图13. 声音事件检测
18. 2.5 语种识别 项目背景: 线上特定语种管控 方案流程: 利用音频预训练hubert模型的特征解析功能,结合TT语音线上直播数据和部分开源 数据集进行模型fine-tune,从而针对特定语种等进行识别。 模型效果: 针对特定语种的测试精准率为97.58%。 图14. 语种识别
19. 2.6 歌曲识别 项目背景: 线上歌曲(如劣迹艺人作品等)管控 方案流程: 将原始劣迹歌曲处理得到的指纹信息存储于歌曲指纹库,用于进行输入歌曲片段的相似度比对,并 增添音频文件分析接口用于分析完整歌曲。 模型效果: 针对劣迹艺人歌曲的识别精准度为94.16%; 图15. 歌曲识别
20. 2.7 声纹识别 项目背景: 人物声纹识别,针对特定的人物可以做具体管控 方案流程: • VAD进行语音活性检测,提取人声部分; • ResNet34作为主干网络,利用线上业务数据和部分 开源数据进行微调训练; • 利用余弦相似度计算两个声纹之间的相似性。 模型效果和应用: 1. 特定人物声纹拦截精确率98%+; 图16. 声纹识别
21. 2.8 涉黄图像识别 项目背景 线上色情、性感类涉黄图像识别 模型效果和应用 • 在TT语音下,机审拦截内容识别准确率为 93.15%; • 应用于TT语音和AIGC图片场景; 方案流程 • 基于经典ResNet50预训练模型结构,利用线上 业务数据和部分开源数据进行微调训练; 输入 图片 分支任务1 违规粗粒度标签 分支任务2 违规细粒度标签 主干模型 • 同时考虑到标注成本和线上标签数据形态,结 合多任务图像识别算法更改模型结构进行学 习,从而实现较为精准地识别涉黄图像; 图17. 涉黄图像识别
22. 3. 智能内容审核平台案例-架构图 图18. T网架构图
23. 3.智能内容审核平台案例-流程图 图19. T网审核流程图
24. 3.智能内容审核平台-微服务架构 entrance scheduler scheduler asr rtp • • transcode nlp ... 共x种 T网架构处理能力 T网系统可靠性 • scheduler 自研任务编排系统(AI中台一部 分),统一算力管理和容灾 拆分算法服务,细粒度的算力伸 缩和统一调度 支持多可用区部署 • 最大并发语音流可线性扩展 • Pod个数 • 微服务 图20. T网微服务架构
25. 3.智能内容审核平台-多任务调度方案 目的:实现可动态配置的媒体算法加工流水线,满足任意租户的不同审核需求 TT 算法层 A-streaming sed asr 拉流 nlp transcode A-streaming-tt sed B-streaming-uki asr C-streaming- changya nlp UKI 调度层 唱鸭 B-streaming BRass ... asr nlp transcode 图21. T网多任务调度方案
26. 3.智能内容审核平台-T网管理后台 图22. T网-审核后台
27. 3.智能内容审核平台-BI报表 图23. T网-BI报表展示
28. 4. AIGC内容风控实践 图24. AIGC平台
29. 4. AIGC内容风控实践-文生文拦截 针对文生文场景,利用关键词+语义理解审核技术,对输入和输出进行审核 图25. AIGC-文生文审核
30. 4. AIGC内容风控实践-文生图审核 针对文生图场景,利用AI图像涉政&涉黄审核技术,降低风控风险 • 对涉黄类的裸露、行为、性感等进行拦截 • 对涉政内容进行拦截 不合规 图片 • 图26. AIGC文生图审核 存在的问题: 生成图不可控、不合理
31. 5. 未来展望 • 利用LLM能力强化语义理解,提升审核准确率和数据 收集速度 • 用户对抗下的精细化算法模型,强化多模态 复杂任务决策 • 审核平台的langchain+LLM工作流介入,打通舆情监 控到内审决策全链路 • AIGC内容用传统算法+AIGC方法做审核
32. 企业介绍 趣丸科技成立于2014年,是一家集兴趣社交及电子竞技等业务于一体的创新型科技企业,旗下有TT语音、 麦可及TTChat等多款兴趣社交产品。核心产品TT语音是国内领先的兴趣社交平台,累计注册用户已超2亿 ,并成为LPL、KPL、PEL等五大头部电竞职业赛事官方合作伙伴。趣丸科技利用多年聚焦兴趣社交领域的 深厚积累为核心优势,积极瞄准全球数字技术基础前沿领域和关键核心技术的研发和创新。
33. 趣丸科技的技术创新探索分享平台 与你一起用科技创造未来 AI多媒体技术在内容审核场景 实践探索 (扫码关注获得本场演讲PPT) (主讲微信二维码)
34.

Главная - Вики-сайт
Copyright © 2011-2024 iteam. Current version is 2.137.3. UTC+08:00, 2024-12-09 21:59
浙ICP备14020137号-1 $Гость$