AI大模型技术在知乎搜索等场景的应用
如果无法正常显示,请先停止浏览器的去广告插件。
1. logo
AI大模型技术在知乎搜索
等场景的应用
张亚峰
知乎
算法负责人
DataFunCon # 2024
2. Contents
目录
知乎大模型能力建设
基于大模型的内容/用户理解
AI搜索
AI Embedding 应用于搜索召回排序
3. 01知乎大模型能力建设
4. 知乎大模型基建-「知海图 AI」大模型
•
模型基础能力评估:知海图 AI 大模型与 GPT3.5 对比评估,评估结果显示知海图 AI 大模型整体达到 GPT3.5 模型 93.49%的能力,在知
识问答方面知海图 AI 大模型表现优于 GPT3.5,达到其 102.93% 的水平,在推理能力上,知海图 AI 大模型也达到 GPT3.5 90.80% 的
水平。
•
通过网信办大模型牌照备案:知海图 AI 大模型在 2023 年 11 月初正式通过国家互联网信息办公室深度合成服务算法备案,具备正式上线
和对外提供服务资格。
5. 知乎大模型基建-多模态大模型
多模态大模型:知乎&面壁共同开发的 MiniCPM-V 多模态大模型,以 2.8B 参数量,能够逼近甚至超越其他主流 7B 大模型
Clip 模型(对比 ChineseClip):
base 模型(参数量 82M+60M vs CnClip86M+102M):分类准确率 +15.1% (48.3% → 55.6%),检索召回 +10.7% (78.2% → 86.6%)
huge 模型(参数量 602M+338M vs CnClip632M+326M):分类准确率 +10.7% (59.6% → 66.0%),检索召回 +10.0% (80.8% → 88.9%)
6. 知乎大模型基建-极致「以小博大+高性能低成本」
MiniCPM-V 2.0 是第一个通过多模态
RLHF 对齐的端侧多模态大模型
该模型在多个主流评测基准上性能超
过了更大参数规模(例如 17-34B)
的主流模型,场景文字理解能力接近
Gemini Pro,在 Object HalBench
达到和 GPT-4V 相仿的性能。
可以在移动手机上部署
7. 知乎大模型基建-极致「以小博大+高性能低成本」
MiniCPM-V 2.0 是第一个通过多模态
RLHF 对齐的端侧多模态大模型
该模型在多个主流评测基准上性能超
过了更大参数规模(例如 17-34B)
的主流模型,场景文字理解能力接近
Gemini Pro,在 Object HalBench
达到和 GPT-4V 相仿的性能。
可以在移动手机上部署
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies. 2024.
8. 知乎大模型基建-极致「以小博大+高性能低成本」
MiniCPM-2B-128k: 一个小于 3B 的 128k
模型
性能与先进的 7B 参数的模型(如 LWM-
Text-128k 和 Yi-6B-200k) 在综合长文
本评测集 InfiniteBench 上相媲美
9. 知乎大模型基建-极致「以小博大+高性能低成本」
ui-sans-serif
每隔8个月
知识密度翻倍
同等知识量的模型参数量减半
10. 知乎大模型基建-极致「以小博大+高性能低成本」
训练方法的改进是实现「以小博大的」
关键之一
对于不同规模的模型, 最优训练超参
数体现出明显差异性
合适的Learning Rate, 不但会让训
练得更快,而且还会影响loss最终收
敛的位置
11. 知乎大模型基建-极致「以小博大+高性能低成本」
Learning Rate Scheduler
WSD scheduler
Warmup-Stable-Decay
Cosine LSR
要持续保持最低学习率,而WSD LSR
可以在退火前持续使用最大学习率训
练,能够学习得更快
WSD LRS在学习率恒定的Stable阶段
表现差于cosine,但是在最后的退火
阶段会快速下降loss,达到或超越
Cosine LRS的效果
12. 知乎大模型基建-大模型能力平台建设
平台目标:
▪ 降低大模型应用门槛:搭建面向业务、算法的
全流程大模型应用平台( AI 能力平台),实现从数
据管理、模型训练、模型预测、模型部署上线等
全生命周期服务, 实现批量承接业务需求;
▪ 算法工程师技术能力复用:沉淀算法能力到基
础算子,如多模态分类模型、海量标签分类、统
一文本生成模型等,实现算法方案的复用与迁移,
低沉本满足业务需求。
平台能力:
▪ 数据处理:支持分类/生成数据,涵盖标签数据、
训练数据、预测数据、回溯数据等多种类型
▪ 模型支持:CPM 2b、CPM 10b、CPM 20b、
CPM 7b、CPM 80b、VisCPM(自研多模态大
模型)等多个大模型,提供一站式自助服务
▪ 模型回溯:支持对大规模数据进行数据回溯
13. 知乎大模型基建-大模型能力平台建设
提效收益:
▪ 全生命周期零代码能力:建立完善的零代码数
据处理、训练、评估与上线机制,算法工程师单
任务承接时间降低 80% ,目前已占据算法工程
师 90%+ 的任务;
▪ 算法提效:完成数据处理任务 7000+ 个,完
成训练任务 1700+ 个,推理任务 2800+ 个;
▪ 服务提效:上线至今已自助接入 300+ 个项目,
零代码上线 70+ 个服务;
14. 02 AI搜索
15. 「知乎直答」-AI搜索
工具需求
知识需求
商品推荐
出行需求
16. 「知乎直答」-AI搜索
「发现·AI 搜索」:构建融合大模型和 RAG 的知识获取新范式,满足知乎用户碎片化需求,提升用户用户体验,最终
提升用户消费与留存
• RAG 召回+生成方案,直接给用户展现结果,降低检索准确知识的门槛
• 多轮追问能力, 更好的理解用户意图
• function call 能力满足用户多样化需求
17. 03基于大模型的内容/用户理解
18. AI 大模型/多模态大模型构建知乎内容/用户标签体系
背景:
内容用户标签体系
内容模型迭代更新周期长、识别质量提升已进入瓶颈
期
目标:
建立完备内容用户画像标签体系
缩短内容模型迭代周期、提升打标准确率
技术方案:
构建基于大模型的海量标签打标系统,精准理解用户
和内容,构建完备用户、内容标签体系,并基于大模
型内化知识,支持 zero-shot 动态扩展标签体系,提
升迭代效率
19. 基于大模型的海量标签打标系统
标签召回模型:给定输入文本,模型可以从海量候选标签中快速、准确地召回一批语
义相关的候选标签。
大模型生成技术:在召回模型获得标签后,可依据大模型的生成能力,来选择更加符
合文本语义的标签,从而最终形成『召回模型』+『生成模型』的大模型处理思路。
20. AI 大模型/多模态大模型构建知乎内容/用户标签体系-收益
基于标签召回+大模型生成的技术方案,实现迭代速度提升 5 倍
版本迭代算法人效节省 90%
标签的标注资源节省超过 90%,可实现零样本支持新标签打标;
内容标签模型准确率大幅提升,回答/文章标签准确率升 25%
应用收益:在推荐、教育、增长、知+、搜索等超过 30+ 个业务场
景中取得了显著正向收益
21. 04 AI Embedding 应用于搜索召回排序
22. AI Embedding 应用于搜索召回排序
公司内部存在大量基于相似能力的需求,例如:
• 内容抄袭检测
• 搜索 Query 改写扩召回
• 相似推荐打散
• 相关性过滤/增强
• 内容打标
我们基于 AI Embedding模型、Clip 模型、多模态大模型、
Simhash等构建了一套功能完备的统一相似平台,功能涵盖
基于embedding 能力的索引搜索、相似度计算以及聚类功
能。
平台上线后,累计接入业务 80+
平均每个业务的接入人效: 2.5p/d -> 0.5p/d
23. 知乎大模型AI Embedding 应用于搜索召回排序
基于搜索召回场景特点,深度定制AI Embedding 模型,
在通用搜索业务上取得了显著业务收益:
• APP 端人均搜索时长 +0.6%
• APP 端广义CTR +1.6%
• APP 端点击比 +1.67%
24. AI 生成智能标题-提升用户创作体验
知乎「想法」智能标题生成过程
25. Thanks
欢迎来知乎创作