AI大模型技术在知乎搜索等场景的应用

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #知乎

1. logo AI大模型技术在知乎搜索等场景的应用张亚峰知乎算法负责人 DataFunCon # 2024

2. Contents 目录知乎大模型能力建设基于大模型的内容/用户理解 AI搜索 AI Embedding 应用于搜索召回排序

3. 01知乎大模型能力建设

4. 知乎大模型基建-「知海图 AI」大模型 • 模型基础能力评估：知海图 AI 大模型与 GPT3.5 对比评估，评估结果显示知海图 AI 大模型整体达到 GPT3.5 模型 93.49%的能力，在知识问答方面知海图 AI 大模型表现优于 GPT3.5，达到其 102.93% 的水平，在推理能力上，知海图 AI 大模型也达到 GPT3.5 90.80% 的水平。 • 通过网信办大模型牌照备案：知海图 AI 大模型在 2023 年 11 月初正式通过国家互联网信息办公室深度合成服务算法备案，具备正式上线和对外提供服务资格。

5. 知乎大模型基建-多模态大模型多模态大模型：知乎&面壁共同开发的 MiniCPM-V 多模态大模型，以 2.8B 参数量，能够逼近甚至超越其他主流 7B 大模型 Clip 模型（对比 ChineseClip）： base 模型（参数量 82M+60M vs CnClip86M+102M）：分类准确率 +15.1% (48.3% → 55.6%)，检索召回 +10.7% (78.2% → 86.6%) huge 模型（参数量 602M+338M vs CnClip632M+326M）：分类准确率 +10.7% (59.6% → 66.0%)，检索召回 +10.0% (80.8% → 88.9%)

6. 知乎大模型基建-极致「以小博大+高性能低成本」 MiniCPM-V 2.0 是第一个通过多模态 RLHF 对齐的端侧多模态大模型该模型在多个主流评测基准上性能超过了更大参数规模（例如 17-34B）的主流模型，场景文字理解能力接近 Gemini Pro，在 Object HalBench 达到和 GPT-4V 相仿的性能。可以在移动手机上部署

7. 知乎大模型基建-极致「以小博大+高性能低成本」 MiniCPM-V 2.0 是第一个通过多模态 RLHF 对齐的端侧多模态大模型该模型在多个主流评测基准上性能超过了更大参数规模（例如 17-34B）的主流模型，场景文字理解能力接近 Gemini Pro，在 Object HalBench 达到和 GPT-4V 相仿的性能。可以在移动手机上部署 MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies. 2024.

8. 知乎大模型基建-极致「以小博大+高性能低成本」 MiniCPM-2B-128k: 一个小于 3B 的 128k 模型性能与先进的 7B 参数的模型（如 LWM- Text-128k 和 Yi-6B-200k）在综合长文本评测集 InfiniteBench 上相媲美

9. 知乎大模型基建-极致「以小博大+高性能低成本」 ui-sans-serif 每隔8个月知识密度翻倍同等知识量的模型参数量减半

10. 知乎大模型基建-极致「以小博大+高性能低成本」训练方法的改进是实现「以小博大的」关键之一对于不同规模的模型，最优训练超参数体现出明显差异性合适的Learning Rate，不但会让训练得更快，而且还会影响loss最终收敛的位置

11. 知乎大模型基建-极致「以小博大+高性能低成本」 Learning Rate Scheduler WSD scheduler Warmup-Stable-Decay Cosine LSR 要持续保持最低学习率，而WSD LSR 可以在退火前持续使用最大学习率训练，能够学习得更快 WSD LRS在学习率恒定的Stable阶段表现差于cosine，但是在最后的退火阶段会快速下降loss，达到或超越 Cosine LRS的效果

12. 知乎大模型基建-大模型能力平台建设平台目标： ▪ 降低大模型应用门槛：搭建面向业务、算法的全流程大模型应用平台( AI 能力平台)，实现从数据管理、模型训练、模型预测、模型部署上线等全生命周期服务，实现批量承接业务需求； ▪ 算法工程师技术能力复用：沉淀算法能力到基础算子，如多模态分类模型、海量标签分类、统一文本生成模型等，实现算法方案的复用与迁移，低沉本满足业务需求。平台能力： ▪ 数据处理：支持分类/生成数据，涵盖标签数据、训练数据、预测数据、回溯数据等多种类型 ▪ 模型支持：CPM 2b、CPM 10b、CPM 20b、 CPM 7b、CPM 80b、VisCPM（自研多模态大模型）等多个大模型，提供一站式自助服务 ▪ 模型回溯：支持对大规模数据进行数据回溯

13. 知乎大模型基建-大模型能力平台建设提效收益： ▪ 全生命周期零代码能力：建立完善的零代码数据处理、训练、评估与上线机制，算法工程师单任务承接时间降低 80% ，目前已占据算法工程师 90%+ 的任务； ▪ 算法提效：完成数据处理任务 7000+ 个，完成训练任务 1700+ 个，推理任务 2800+ 个； ▪ 服务提效：上线至今已自助接入 300+ 个项目，零代码上线 70+ 个服务；

14. 02 AI搜索

15. 「知乎直答」-AI搜索工具需求知识需求商品推荐出行需求

16. 「知乎直答」-AI搜索「发现·AI 搜索」：构建融合大模型和 RAG 的知识获取新范式，满足知乎用户碎片化需求，提升用户用户体验，最终提升用户消费与留存 • RAG 召回+生成方案，直接给用户展现结果，降低检索准确知识的门槛 • 多轮追问能力，更好的理解用户意图 • function call 能力满足用户多样化需求

17. 03基于大模型的内容/用户理解

18. AI 大模型/多模态大模型构建知乎内容/用户标签体系背景：内容用户标签体系内容模型迭代更新周期长、识别质量提升已进入瓶颈期目标：建立完备内容用户画像标签体系缩短内容模型迭代周期、提升打标准确率技术方案：构建基于大模型的海量标签打标系统，精准理解用户和内容，构建完备用户、内容标签体系，并基于大模型内化知识，支持 zero-shot 动态扩展标签体系，提升迭代效率

19. 基于大模型的海量标签打标系统标签召回模型：给定输入文本，模型可以从海量候选标签中快速、准确地召回一批语义相关的候选标签。大模型生成技术：在召回模型获得标签后，可依据大模型的生成能力，来选择更加符合文本语义的标签，从而最终形成『召回模型』+『生成模型』的大模型处理思路。

20. AI 大模型/多模态大模型构建知乎内容/用户标签体系-收益基于标签召回+大模型生成的技术方案，实现迭代速度提升 5 倍版本迭代算法人效节省 90% 标签的标注资源节省超过 90%，可实现零样本支持新标签打标；内容标签模型准确率大幅提升，回答/文章标签准确率升 25% 应用收益：在推荐、教育、增长、知+、搜索等超过 30+ 个业务场景中取得了显著正向收益

21. 04 AI Embedding 应用于搜索召回排序

22. AI Embedding 应用于搜索召回排序公司内部存在大量基于相似能力的需求，例如： • 内容抄袭检测 • 搜索 Query 改写扩召回 • 相似推荐打散 • 相关性过滤/增强 • 内容打标我们基于 AI Embedding模型、Clip 模型、多模态大模型、 Simhash等构建了一套功能完备的统一相似平台，功能涵盖基于embedding 能力的索引搜索、相似度计算以及聚类功能。平台上线后，累计接入业务 80+ 平均每个业务的接入人效： 2.5p/d -> 0.5p/d

23. 知乎大模型AI Embedding 应用于搜索召回排序基于搜索召回场景特点，深度定制AI Embedding 模型，在通用搜索业务上取得了显著业务收益： • APP 端人均搜索时长 +0.6% • APP 端广义CTR +1.6% • APP 端点击比 +1.67%

24. AI 生成智能标题-提升用户创作体验知乎「想法」智能标题生成过程

25. Thanks 欢迎来知乎创作