从技术赋能到范式革新:快手安全大模型驱动内容审核智能化重朔

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 演讲人:刘梦怡
2. 01 内容安全业务背景与挑战 02 大模型时代的变革与机遇 03 快手安全大模型核心技术 04 未来技术与业务大图展望
3.
4. 01
5. 01 02 风险对抗强变异快 03 审核标准复杂多变 04 领域专家知识依赖
6. 02
7.
8.
9. 通用大模型 垂直大模型
10. 03
11.
12. Large Language Model (Decoder-only Transformer) Embedding Layer Vision-Language Connector (Linear/MLP) 01 视觉基座CLIP-ViT框架,多模态基座以MLP 为连接器,且冻结LLM全部参数;构造200M 开源+40M业务高质量图文数据进行预训练 Image/Video Encoder (CLIP ViT-L/336px) Transformer Encoder MLP Layer 02 Norm Layer 该训练阶段下冻结视觉编码器部分参数,仅 对视觉-文本连接器以及LLM部分参数层进行 微调,总数据量级约 2M(开源:业务=4:1) Multi-Head Attention Multi-Scale Encoder Layer Linear Projection of Flattened Patches 03 该训练阶段主要针对模型的推理过程的逻辑 合理性和上下文一致性进行修正,基于人工 偏序关系的标注进行优化 t1 t2 t3 t4 t5 tn Tokenizer Task-1:指令遵循 (Instruction following) 请描述这张图片中出现的人物、场景、动作等;忽略画面 上字幕等场景文字,要求简短叙述30-50字以内 Task-2:思维链 (Chain-of-Thought) 请描述这张图片中出现的人物、场景、动作等;判断是否 有***类型的风险,并说明具体理由和过程 Task-3:上下文学习 (In-Context-Learning) 关于***类型违规的规则条款如下:***;已知视频标题*** 请结合以上规则及视频画面、标题等内容信息;判断是否 有***类型的风险,并说明具体理由和过程
13. 01 视觉基座CLIP-ViT框架,多模态基座以MLP 为连接器,且冻结LLM全部参数;构造200M 开源+40M业务高质量图文数据进行预训练 02 该训练阶段下冻结视觉编码器部分参数,仅 对视觉-文本连接器以及LLM部分参数层进行 微调,总数据量级约 2M(开源:业务=4:1) 03 该训练阶段主要针对模型的推理过程的逻辑 合理性和上下文一致性进行修正,基于人工 偏序关系的标注进行优化
14. 01 视觉基座CLIP-ViT框架,多模态基座以MLP 为连接器,且冻结LLM全部参数;构造200M 开源+40M业务高质量图文数据进行预训练 02 该训练阶段下冻结视觉编码器部分参数,仅 对视觉-文本连接器以及LLM部分参数层进行 微调,总数据量级约 2M(开源:业务=4:1) 03 该训练阶段主要针对模型的推理过程的逻辑 合理性和上下文一致性进行修正,基于人工 偏序关系的标注进行优化
15. 01 视觉基座CLIP-ViT框架,多模态基座以MLP 为连接器,且冻结LLM全部参数;构造200M 开源+40M业务高质量图文数据进行预训练 02 该训练阶段下冻结视觉编码器部分参数,仅 对视觉-文本连接器以及LLM部分参数层进行 微调,总数据量级约 2M(开源:业务=4:1) 03 该训练阶段主要针对模型的推理过程的逻辑 合理性和上下文一致性进行修正,基于人工 偏序关系的标注进行优化
16. 1 Tasks 2 Raw data 3 Raw data In-context Tuning Prompt Prompt LLM In-context Learning KD SLM LLM Rationales SLM LLM Instructions SLM
17.
18. 03
19.
20. 01 基于视觉/多模态大模型对内容进行自动 化标注,获取基础图像与文本标签 02 • • 基于大模型的语义分析能力生成结构化 标签树并对数据标签进行清洗与确认 03 对大模型自动生成标签体系进行人工校 验,并与审核规则条款进行映射
21. Image Encoder phrase1 phrase2 phrase3 Alignment Encoder Cross Attention Layer 1 …… Patch Partition Linear Embedding Multi-Scale Transformer Block Patch Merging Multi-Scale Transformer Block Feed-Forward Layer 1 Cross Attention Layer 2 Feed-Forward Layer 2 One-Hot Text (Desc) Supervision <图像-文本描述> 对齐编码 <图像-文本标签> 对齐编码 Parsing(实体分词解析) tag1 tag2 tag3 Alignment Encoder Cross Attention Layer 1 Feed-Forward Layer 1 Cross Attention Layer 2 Feed-Forward Layer 2 Multi-Hot Tag Supervision ……
22.
23. 多维度联合感知:整合碎片化信息 长链推理关联:挖掘隐蔽风险信息 多模态Agent可同步解析文本、图像、视频、 语音中的风险要素(如涉政敏感词、暴力画 面、变音辱骂)避免单通道审核漏放 Agent 调用用户行为链工具(如历史发言、 社交图谱),识别恶意导流、私信交易等, 进行综合推理研判,挖掘隐藏的风险信息 信息归纳:压缩冗余内容定位核心风险 规则知识记忆:减少人工依赖与延迟 大模型识别重复举报、无意义字符等,过滤 冗余信息;并通过注意力机制量化内容风险 浓度,优先推送高威胁内容,提升审核效率 Agent通过知识库实时记忆数万条审核规则 (如监管专项要求与管控指令),支持自主 更新策略,减少人工记忆负担与响应延迟
24.
25.
26. 01 针对视频画面、文本(标题、ASR/OCR)、 用户反馈(评论、举报等)作者画像等内容 信息进行理解分析,获取原始要素 02 基于与审核规则的映射,构造违规推理证据 链,包括来自单维度信息源(如文字违规) 和多维度信息组合的违规证据 03 通过回溯内容信息与证据链进行正向(遗漏 补充)与反向(前后矛盾)校验,对逻辑合 理性和上下文一致性修正并做出最终决策
27. • • • •
28.
29.
30. 04
31.
32.
33.

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-10-19 13:51
浙ICP备14020137号-1 $访客地图$