AI大模型技术在知乎搜索等场景的应用

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. logo AI大模型技术在知乎搜索 等场景的应用 张亚峰 知乎 算法负责人 DataFunCon # 2024
2. Contents 目录 知乎大模型能力建设 基于大模型的内容/用户理解 AI搜索 AI Embedding 应用于搜索召回排序
3. 01知乎大模型能力建设
4. 知乎大模型基建-「知海图 AI」大模型 • 模型基础能力评估:知海图 AI 大模型与 GPT3.5 对比评估,评估结果显示知海图 AI 大模型整体达到 GPT3.5 模型 93.49%的能力,在知 识问答方面知海图 AI 大模型表现优于 GPT3.5,达到其 102.93% 的水平,在推理能力上,知海图 AI 大模型也达到 GPT3.5 90.80% 的 水平。 • 通过网信办大模型牌照备案:知海图 AI 大模型在 2023 年 11 月初正式通过国家互联网信息办公室深度合成服务算法备案,具备正式上线 和对外提供服务资格。
5. 知乎大模型基建-多模态大模型 多模态大模型:知乎&面壁共同开发的 MiniCPM-V 多模态大模型,以 2.8B 参数量,能够逼近甚至超越其他主流 7B 大模型 Clip 模型(对比 ChineseClip): base 模型(参数量 82M+60M vs CnClip86M+102M):分类准确率 +15.1% (48.3% → 55.6%),检索召回 +10.7% (78.2% → 86.6%) huge 模型(参数量 602M+338M vs CnClip632M+326M):分类准确率 +10.7% (59.6% → 66.0%),检索召回 +10.0% (80.8% → 88.9%)
6. 知乎大模型基建-极致「以小博大+高性能低成本」 MiniCPM-V 2.0 是第一个通过多模态 RLHF 对齐的端侧多模态大模型 该模型在多个主流评测基准上性能超 过了更大参数规模(例如 17-34B) 的主流模型,场景文字理解能力接近 Gemini Pro,在 Object HalBench 达到和 GPT-4V 相仿的性能。 可以在移动手机上部署
7. 知乎大模型基建-极致「以小博大+高性能低成本」 MiniCPM-V 2.0 是第一个通过多模态 RLHF 对齐的端侧多模态大模型 该模型在多个主流评测基准上性能超 过了更大参数规模(例如 17-34B) 的主流模型,场景文字理解能力接近 Gemini Pro,在 Object HalBench 达到和 GPT-4V 相仿的性能。 可以在移动手机上部署 MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies. 2024.
8. 知乎大模型基建-极致「以小博大+高性能低成本」 MiniCPM-2B-128k: 一个小于 3B 的 128k 模型 性能与先进的 7B 参数的模型(如 LWM- Text-128k 和 Yi-6B-200k) 在综合长文 本评测集 InfiniteBench 上相媲美
9. 知乎大模型基建-极致「以小博大+高性能低成本」 ui-sans-serif 每隔8个月 知识密度翻倍 同等知识量的模型参数量减半
10. 知乎大模型基建-极致「以小博大+高性能低成本」 训练方法的改进是实现「以小博大的」 关键之一 对于不同规模的模型, 最优训练超参 数体现出明显差异性 合适的Learning Rate, 不但会让训 练得更快,而且还会影响loss最终收 敛的位置
11. 知乎大模型基建-极致「以小博大+高性能低成本」 Learning Rate Scheduler WSD scheduler Warmup-Stable-Decay Cosine LSR 要持续保持最低学习率,而WSD LSR 可以在退火前持续使用最大学习率训 练,能够学习得更快 WSD LRS在学习率恒定的Stable阶段 表现差于cosine,但是在最后的退火 阶段会快速下降loss,达到或超越 Cosine LRS的效果
12. 知乎大模型基建-大模型能力平台建设 平台目标: ▪ 降低大模型应用门槛:搭建面向业务、算法的 全流程大模型应用平台( AI 能力平台),实现从数 据管理、模型训练、模型预测、模型部署上线等 全生命周期服务, 实现批量承接业务需求; ▪ 算法工程师技术能力复用:沉淀算法能力到基 础算子,如多模态分类模型、海量标签分类、统 一文本生成模型等,实现算法方案的复用与迁移, 低沉本满足业务需求。 平台能力: ▪ 数据处理:支持分类/生成数据,涵盖标签数据、 训练数据、预测数据、回溯数据等多种类型 ▪ 模型支持:CPM 2b、CPM 10b、CPM 20b、 CPM 7b、CPM 80b、VisCPM(自研多模态大 模型)等多个大模型,提供一站式自助服务 ▪ 模型回溯:支持对大规模数据进行数据回溯
13. 知乎大模型基建-大模型能力平台建设 提效收益: ▪ 全生命周期零代码能力:建立完善的零代码数 据处理、训练、评估与上线机制,算法工程师单 任务承接时间降低 80% ,目前已占据算法工程 师 90%+ 的任务; ▪ 算法提效:完成数据处理任务 7000+ 个,完 成训练任务 1700+ 个,推理任务 2800+ 个; ▪ 服务提效:上线至今已自助接入 300+ 个项目, 零代码上线 70+ 个服务;
14. 02 AI搜索
15. 「知乎直答」-AI搜索 工具需求 知识需求 商品推荐 出行需求
16. 「知乎直答」-AI搜索 「发现·AI 搜索」:构建融合大模型和 RAG 的知识获取新范式,满足知乎用户碎片化需求,提升用户用户体验,最终 提升用户消费与留存 • RAG 召回+生成方案,直接给用户展现结果,降低检索准确知识的门槛 • 多轮追问能力, 更好的理解用户意图 • function call 能力满足用户多样化需求
17. 03基于大模型的内容/用户理解
18. AI 大模型/多模态大模型构建知乎内容/用户标签体系 背景: 内容用户标签体系 内容模型迭代更新周期长、识别质量提升已进入瓶颈 期 目标: 建立完备内容用户画像标签体系 缩短内容模型迭代周期、提升打标准确率 技术方案: 构建基于大模型的海量标签打标系统,精准理解用户 和内容,构建完备用户、内容标签体系,并基于大模 型内化知识,支持 zero-shot 动态扩展标签体系,提 升迭代效率
19. 基于大模型的海量标签打标系统 标签召回模型:给定输入文本,模型可以从海量候选标签中快速、准确地召回一批语 义相关的候选标签。 大模型生成技术:在召回模型获得标签后,可依据大模型的生成能力,来选择更加符 合文本语义的标签,从而最终形成『召回模型』+『生成模型』的大模型处理思路。
20. AI 大模型/多模态大模型构建知乎内容/用户标签体系-收益 基于标签召回+大模型生成的技术方案,实现迭代速度提升 5 倍 版本迭代算法人效节省 90% 标签的标注资源节省超过 90%,可实现零样本支持新标签打标; 内容标签模型准确率大幅提升,回答/文章标签准确率升 25% 应用收益:在推荐、教育、增长、知+、搜索等超过 30+ 个业务场 景中取得了显著正向收益
21. 04 AI Embedding 应用于搜索召回排序
22. AI Embedding 应用于搜索召回排序 公司内部存在大量基于相似能力的需求,例如: • 内容抄袭检测 • 搜索 Query 改写扩召回 • 相似推荐打散 • 相关性过滤/增强 • 内容打标 我们基于 AI Embedding模型、Clip 模型、多模态大模型、 Simhash等构建了一套功能完备的统一相似平台,功能涵盖 基于embedding 能力的索引搜索、相似度计算以及聚类功 能。 平台上线后,累计接入业务 80+ 平均每个业务的接入人效: 2.5p/d -> 0.5p/d
23. 知乎大模型AI Embedding 应用于搜索召回排序 基于搜索召回场景特点,深度定制AI Embedding 模型, 在通用搜索业务上取得了显著业务收益: • APP 端人均搜索时长 +0.6% • APP 端广义CTR +1.6% • APP 端点击比 +1.67%
24. AI 生成智能标题-提升用户创作体验 知乎「想法」智能标题生成过程
25. Thanks 欢迎来知乎创作

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.138.0. UTC+08:00, 2024-12-22 01:46
浙ICP备14020137号-1 $Map of visitor$