蚂蚁 DeepInsight 智能分析 Agent 在业务场景的落地实践
如果无法正常显示,请先停止浏览器的去广告插件。
相关话题:
#AI Agent
1. 演讲主题
蚂蚁 DeepInsight 智能分析 Agent
在业务场景的落地实践
姓名:余志鹏(百恼)
Title: 级技术专家
2. 1
ChatBI六 难题及解决
评测集构建
程任务探索
案
3.
4. 个 简介
余志鹏,蚂蚁集团
级技术专家,在性能优化、架构
设计、数据分析以及 AI + BI 等
向,有着深厚的专业
积累和实践经验。
2018 年加
蚂蚁集团,深耕
数据领域 7 年,
责蚂蚁数据分析平台 DeepInsight ,带领产品进
智能化时代。此前,在阿
巴巴
前负
到
作 5 年,负责
Aliexpress 营销平台,积累了丰富的平台运营与管理
经验。
5. 01
业务背景介绍
6. 模型在分析领域解决两 难题:
槛
7. AI的演进路径:
主完成
8. DeepInsight从2023年开启智能化
性能
脑
数据量下性能
化解决 案
看数
报表/ 助分析/知数据
4个Copilot全 开放,
6
批通过信通院测
评。
户
案建站平台
站式数据分析应
代码搭建平台
低
DeepInsigh商品化
GroupInsight 增
分析
数据驱动业务增
据分析产品
的数
取数Copilot上线
动优
基于LLM的数据分析
智能助理 次应 落
地
正式对外输出,上架数
DI 智能化持续升
科售卖商品
级,打造 业竞争
(进 中)
深度智能化,底层模型
和产品体验优化, 流
业竞争 。
9. 当前DeepInsight重点建设智能问答ChatBI &
10. 02
ChatBI六 难题及解决 案
11. 可能有
新意
12. ChatBI要落地,
临以下6 挑战
特领域下的知识,以及个 习惯问法, 模型如何识别
NL2Code的正确率取决于使 的程序语 ,Metric>Python>SQL>DSL,但是Python 法处理 数据量,SQL转化为可配置图表有较
Metric覆盖低,且泛化能 差
不是所有需求通过 然语 描述的效率都更 ,协同产品交互更有性价 ,那么 然语 和产品交互两种模态如何协同
模型 成的结果, 户如何验证是否正确。
模型 成错误后, 户应该如何继续操作。
模型响应时间和性能如何进 权衡,模型越 ,正确率越 ,但是响应时间也越 。
的限制,
Self-Re ne
最近7天取数Agent
的访问UV
AI校验
NL2DSL
可配置图表
指标是业务场景
落地的控制器
反问澄清
知识召回
路由Agent
NL2Metric
代码纠错
执
代码
取数Agent:
agent类型=“取数Agent”
「取数Agent」的 径
是什么
(不能配置)
召回成功
取数Agent:
agent类型=“取数Agent”
补充知识
普通表格
NL2SQL
13. 、知识是“燃料”,构建知识体系,才能实现在具体的领域场景进
落地
14. 数据治理会成为AGI落地的关键,基于
15. 通过反问澄清规范
产品展示
时间范围定义
业务习惯定义
16. 、如何提升NL2Code的正确率,不同
成转化为召回,正确
率可控
正确率取决于指标的覆盖
率, 法 泛使 。
17. 多路由
18. 如何提升NL2DSL(在蚂蚁是NL2DAL)的正确率
Context
Prompt
Self-Re ne
RAG
2025年~
程改写
19. SFT, 场漫
成
20. 我们的案例:通过原
最近7天 杭州市 各区
时间筛选 维值筛选 维度
交易
度量
结构化的
额
式组装NL2DAL的语料
正排
排序
把取数提问结构化,并拆解成原 结构,类似于搭积 的 式拼接成 标语料
21. 合成语料,语料模式单
Loss值迅速跌0
,导致模型训练过拟合
22. 增加语料的种类和多样性,对SFT有
语料类型
合成语料
常显著的效果
CoT语料
函数
档
训练效果
https://arxiv.org/pdf/2305.11206
通过多种语料混合,增加语料的多样性,提升语料的质量,可以提升模型训练效果
23. 在推理阶段,通过Self-Re ne提升NL2DAL准确率,正确的反馈可以帮助模型修正结果
Meta Store
查询元数据获取
Execution Sandbox
DAX
DAL
SQL
24. 三、如何对
模型
成的结果进
校验
Self-Re ne
最近7天取数Agent
的访问UV
AI校验
NL2DSL
反问澄清
知识召回
NL2Measure
路由Agent
代码纠错
可配置图表
执
代码
取数Agent:
agent类型=“取数Agent”
「取数Agent」的 径
是什么
普通表格
(不能配置)
召回成功
取数Agent:
agent类型=“取数Agent”
补充知识
NL2SQL
25. 三种校验
式,帮助
SQL
户判断
模型 成的结果是否可信
校验
通过代码逻辑可以直接判断结果 普通
是不是OK
优点
需要
缺点
为校验,需要较
度
产品配置
AI校验
户就可以根据这个校验结果 普通
判断是否可
的专业
会出现误判
校验
户可以通过配置来判断和
预期是否 致
覆盖率不
(复杂查询难以还还
成配置)
最终这三种 式都会提供给 户, 户根据实际情况进 选择,多 校验能保证结果更准确。
26. AI校验,
27. 四、当
28. 当前有三种情况,都会导致 户
作
29. 将
成
30. 03
评测集构建
31. 构建评测集,正确
漫
的路,需要 时间的积累
分析领域的评测集
分析评测集
取数评测集
报告评测集
32. 完善的评测集可以实现Agent的快速
33. 业界的评测集
34. 评测集问题
35. 评测集在各
模型的跑分结果,考虑模型的发展,评测结果整体偏难
模型名称
正确率
DeepSeek-R1 45.2%
o1 43.0%
o3mini 42.2%
Claude-3.7-sonnet-Thinking 41.0%
GPT4.1 40.2%
Claude-3.7-sonnet 40.0%
qwen3-coder-480b-a35b-instruct 37.0%
Gemini2.5-Pro 36.8%
Gemini2.5-Pro-Reasoning 34.8%
Llama 3.3-70B 24.0%
GPT-4o 23.4%
DeepSeek-R1-Distill-Qwen-32B 23.4%
qwen3-32B 20.2%
36. 评测集及评测框架已经开源,
家可以进
评测
评测体系构建及应
对外
开源
•
•
域外:500道题(已开源)
对内
应
域内:226道题(待开源)
•
•
DeepInsight各Copilot智能体评测
端到端的评测产品化构建
产出2篇专利
•
•
《 种基于SQL计算特征和语义表达特征的标注 法》
《 种基于SQL计算特征和语义表达特征的评测集 成
案》
开源建设
论 《Falcon: A Chinese Text-to-SQL Benchmark for Enterprise-Grade Evaluation with SQL- and Semantics-Aware Annotations》
(待发表)
蚂蚁评测集使 说明 档:https://www.yuque.com/alanchen-nd2og/kbfv26/olmdxmoe7s6uogcg?singleDoc#
•
开源地址:https://github.com/eosphoros-ai/Falcon
•
•
37. 04
程任务探索
38. 具体场景中,
39. DeepInsight端到端数据分析Agent产品——DataSage
产品定位:新
代数据分析Agent,你身边的数据分析专家。
• Data(数据)+Sage(智者、专家、古希腊智慧 神雅典娜别称)
• 直接传递“数据领域的智慧专家”形象
全新产品
• 寓意产品能像“智者” 样提供洞
DataSage
项
• 产品提供端到端数据分析能 ,需求执 全流程AI 主,就像你身边的可靠数据分析专家
实 战
蚂蚁集团商业智能BI团队+DeepInsight团队联合共建
BI + DataSage
从最需要BI智能化的场景出发,解决最迫切、最
Transforming Data into Intelligent Insights
痛点问题,从实战中淬炼产品
频的BI
40. 程任务的技术实现:Planner + MCP + A2A协议
要落地,ReAct更好还是Workflow更好?
41. 案例:如何通过任务拆解实现
识
执
规
具
分析报告
具
42. DataSage以产品+业务共建
具
43. 在AI+BI这套新的范式下,需要
44.
45. Q & A
有兴趣可以微信交流