vivo 一站式 AI 智能体构建平台演进实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. vivo一站式AI智能
体平台的演进实践
vivo互联网产品平台架构团队负责人 / 张硕
2.
3. 行业PPT模板http://www.1ppt.com/hangye/
行业PPT模板http://www.1ppt.com/hangye/
CONTENTS
02
技术方案
从RAG到Agent
背景
01
03 应用落地
4. 行业PPT模板http://www.1ppt.com/hangye/
BACKGROUND
行业PPT模板http://www.1ppt.com/hangye/
背景
background
B
5. 行业PPT模板http://www.1ppt.com/hangye/
BACKGROUND
行业PPT模板http://www.1ppt.com/hangye/
6. -
商业价值?
如何创造务实价值?
应用门槛高
学习成本、合规、LLM幻觉等问题,对业务
系统不够友好,劝退概率大
-
无法满足垂类业务
LLM虽然压缩了大量的人类知识库,但对垂类
领域知识存在明显短板,无法满足用户需求。
更多场景需要专业化服务、解决特定问题
-
配套能力不足
比如 系统间集成通信、数据管理、非结构化
文本解析、测试度量、运营管理等等能力
-
难以发挥集中、规模优势
各业务孤立摸索,资产无法沉淀、低水平重
复建设。对公司来说ROI低,不够高效。
7. 如何解决?
挑战
l 不舒适区: 整体技术生态处于发展早期,
平台化演进
把一类诉求抽象归纳、系
统化,满足一系列需求,
并持续沉淀为资产,能够
对各部门、对公司持续提
供稳定服务。
一站式开箱即用
降低技术难度、减少沟通
成本、屏蔽使用复杂度,
配套较完备的在线业务使
用能力。
垂类私域数据
基于平台构建各个方向垂类bots应用,管理数据集,
并对这些应用进行迭代运营
不确定性高,有较高试错成本,需要大量
的学习探索。如何高效带领团队达成目标?
l 资源依赖: 算力日渐昂贵,使用量级增
长还要不停追加算力投入。ROI如何保障?
l 业务应用: 对生成式人工智能的期望过
高,有需求但是不知道如何高ROI应用。如
何助力各个业务创造可量化的价值?
8. 新的起点,如何带领团队高效学习,敏捷落地?
创造性、突破式场景,躬身入局、以身作则是务实领导力的关键
为什么?
我做了什么?
领跑,深入关键环节,决策才能及时、有效
团队
思考&学习
ü “照我做的做”效果会好于“照我说的做” • 明确方向
ü 才能领跑赋能,带团队指明方向、解决难题、 •
扫除障碍,承担使命与压力,最终拿到结果。
ü 面对挑战,求责于己,身教胜于言传
ü 及时反馈,及时say Yes\NO
技术实现
• 核心方案
竞品调研 • 技术评审
• roadmap • 疑难攻关
• 大量学习
(60+论文、
国内外竞品分析、
开源技术方案……)
蓝心九问
公司
ü 避免务虚,聚焦创造价值本身。
ü 增效降本
体验&测试
• 功能点检、体验交互
• 复杂测试方案
接入&合作
• 业务落地接入
• 交流合作
9. 行业PPT模板http://www.1ppt.com/hangye/
技术方案
technical
从RAG到Agent
T
10. 技术选择 RAG vs SFT ?
类别 RAG SFT
外部知识源 ✓ ✘
✘ ✓
减少幻觉 ✓ ✘
训练数据集 ✘ ✓
动态数据更新 ✓ ✘
可解释性 ✓ ✘
改变模型行为
《Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs》
https://arxiv.org/abs/2312.05934
《RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASE STUDY ON AGRICULTURE 》
https://arxiv.org/pdf/2401.08406
以RAG为主的技术路线
11. RAG的演进 Naive RAG
• 幻觉明显减少,回答更加可靠
• 为不同领域提供专业的知识支持,
保证信息的及时性、有效性
• 可解释,可追溯问题并迭代改善
• 安全性和隐私管理方面,实现了数
据的权限控制、安全管理等
《Retrieval-Augmented Generation for Large Language Models: A Survey》
https://arxiv.org/abs/2312.10997
12. Naive RAG 荆棘丛生
01
1、 Unstructured IO
2、表格+图片解析 3、语意 + 规则 Chunk
Retrieval准确率提升
02
1、混合检索(Sparse + Dense) 2、Auto Merge Retrieval
3、Query transformation(Rewrite)……
03
1、图文并茂输出 2、参考文档来源展示 3、幻觉控制
04
1、RAG Evaluation 2、Retrieval 过程可视化
13. RAG的演进 Advanced RAG
•
•
•
•
•
•
Fine-grained Data Clean
Query Transfmation
HyDE
Q2Q、Q2P
Hybrid Search + Rerank
Small2Big
14. RAG的演进
Advanced RAG
• Fine-grained Data Clean
• UnStructured Data
• Query Transfmation
• HyDE
• Q2Q
• Hybrid Search + Rerank
• Small2Big
• Metadatafilter
……
《Precise Zero-Shot Dense Retrieval without Relevance Label》
《Large Language Models are Strong Zero-Shot Retriever》
《Generative and Pseudo-Relevant Feedback for Sparse, Dense and Learned
Sparse Retrieval》
《 GRM: Generative Relevance Modeling Using Relevance-Aware Sample
Estimation for Document Retrieval》
……
15. Chunking
• 固定大小+常见符号的分块方式
• 简单意图的分块方式(句分割\递归分割)
“……天气很好,我们一起” | “去郊外游玩……”
必要语境词语遗失,如
X Flip
产品颜色
菱紫,绸金,钻黑
物理规格
高度: 166.42mm(展开) 86.40mm(折叠)
宽度: 75.25mm
厚度: 菱紫:8.19mm(展开)、17.56(折叠) 钻黑:7.75mm(展
开)、16.62(折叠) 绸金:7.84mm(展开)、16.80(折叠)
重量: 菱紫、钻黑:198g 绸金:199g
• 递归分割:通过分治的方法,用递归切分到最小单元的一种方式;
• 特殊分割:还有很多不常见的,用于特殊场景,这里就不提了。
上市价格
全网通(V2256A):
(12GB+256GB):5999.00元
(12GB+512GB):6699.00元……
chunk示意图
16. Chunking
• 基于元素的分割
Ø
Ø
Ø
Ø
结构化处理
按结构合并
新增chunk规则(超token或者某元素变动)
主动合并过小chunk,多合一
17. hybrid search+metadata filter
• metadata
来源:如url、文件名、组织、上传人……
类型:tag、fileType、作者……
日期:年月日……
• 混合检索
语义检索的局限性
如:
对拼写错误、同义词和措辞差异
不太敏感。
精确的、短小内容匹配
搜索机型、名称、
缩写短语
(例如 vivoX100 pro、SWTO、蓝心LLM-pro-1.0)
18. hybrid search+metadata filter
效果显著
高质量块的查询百分比
不同数据集类型提升明显
19. Small to Big Retrieval
20. Small to Big Retrieval
21. RAG Evaluation——从人工到自动化
检索和生成模块
• 上下文相关性(Context Relevance)
• 答案真实性(Answer Faithfulness)
• 答案相关性(Answer Relevance)
ground_truths(GPT4 Q2A)
• 上下文召回(context Recall)
• 上下文精准度(Context Precision)
• 答案正确性(Answer Correctness)
三元组相互牵制
问题: vivo的总部在哪里?它的主要是做什么的?
答案A: vivo 总部位于广东省东莞市。( low Relevance )
答案B : vivo 总部位于广东省东莞市,它是一家全球领先的智能终端和智能服务提
供商… ( high Relevance )
Benchmarking Large Language Models in Retrieval-Augmented Generation
https://arxiv.org/pdf/2309.01431.pdf
RAGAS: Automated Evaluation of Retrieval Augmented Generation
https://arxiv.org/pdf/2309.15217
22. RAG Evaluation——从人工到自动化
1. 问答对生成
2. 自动化运行
3. 效果评估分析
23. RAG还不够——Agent
RAG聚焦 “知识的精确性相关问题”
比如: “请给我总结下有关xxx的文章核心内容” (topk ?)
比如:
“对比下A、B两个项目的人员数量?”
“近6年某部门人力投入变化,柱状图表示出
来”(复杂)
Agent方式
任务拆解,按顺序排列执行, Agent分头执行等
(独立与LLM交互,执行工具、RAG等等)
24. Agent 概述
代理(Agent)这个词来源于拉丁语“agere”,意为“行动”。
各个领域能够独立思考和行动的概念。 感知环境,自主采取行动以实现目标,并可以通过学习或获取知识来提高其性能 。
•
•
•
Preception
ü Context 听觉、视觉等知觉
Brain
ü knowledge\reasoning 记忆、决策
Action(基于知觉、决策的反应)
ü output txt\image(Tools ) 具身化
The rise and potential of large language model based agents: A
survey. arXiv preprint arXiv:2309.07864.
lilianweng.github.io/posts/2023-06-23-agent
•
•
•
•
任务拆分:把一个复杂的问题分解成更小的问题
工具使用:选择要使用的外部工具 + 提出调用工具的参数
计划:计划出一组任务
存储:存储以前完成的任务相关信息
组件化理解
25. Agent 演进方向
自动化
•从日常任务、重复劳动中解脱出来,
减轻工作压力,提高效率。
•规避人工低级指令,一定程度的自主
半自主性 分析、规划、达成目标
创造性
•具备足够自主性,思考规划能力,自
主完成创新性的、探索性的复杂工作
26. Agent Tools
业务应用类
• 业务系统工具
• OA流程类
• devOps工具……
内容生成类
• 热点新闻
• 文本翻译……
常用工具类
• Google搜索
• OCR文本识别
• 数学工具……
生产力工具
• 办公日程
• 短链工具……
图片视频
• 图片理解
• AI绘画
• 抠图工具……
插件集市-我的插件-插件-工具-API或函数
27. Agent Workflow
Ø 节点元素:
ü
ü
ü
ü
ü
ü
大模型
代码执行器
知识库
选择器
插件
工作流
Ø 四种模式:
ü
ü
ü
ü
Reflection
Tool Use
Planning
Multiagent
Collaboration
28. Agent Multiple Agents
将复杂任务分解为一组简单Agent,Agent之间通过消息的方式进行通信
29. 应用落地
CRM聊天总结(800+人天)
30. 应用落地
测试报告总结(600+人天)
31. 应用落地
硬件指令生成等(1000+人天)
32. 应用落地
知识客服场景(200+Bots)
33.
34.
35.