蚂蚁 DeepInsight 智能分析 Agent 在业务场景的落地实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
相关话题: #AI Agent
1. 演讲主题 蚂蚁 DeepInsight 智能分析 Agent 在业务场景的落地实践 姓名:余志鹏(百恼) Title: 级技术专家
2. 1 ChatBI六 难题及解决 评测集构建 程任务探索 案
3.
4. 个 简介 余志鹏,蚂蚁集团 级技术专家,在性能优化、架构 设计、数据分析以及 AI + BI 等 向,有着深厚的专业 积累和实践经验。 2018 年加 蚂蚁集团,深耕 数据领域 7 年, 责蚂蚁数据分析平台 DeepInsight ,带领产品进 智能化时代。此前,在阿 巴巴 前负 到 作 5 年,负责 Aliexpress 营销平台,积累了丰富的平台运营与管理 经验。
5. 01 业务背景介绍
6. 模型在分析领域解决两 难题: 槛
7. AI的演进路径: 主完成
8. DeepInsight从2023年开启智能化 性能 脑 数据量下性能 化解决 案 看数 报表/ 助分析/知数据 4个Copilot全 开放, 6 批通过信通院测 评。 户 案建站平台 站式数据分析应 代码搭建平台 低 DeepInsigh商品化 GroupInsight 增 分析 数据驱动业务增 据分析产品 的数 取数Copilot上线 动优 基于LLM的数据分析 智能助理 次应 落 地 正式对外输出,上架数 DI 智能化持续升 科售卖商品 级,打造 业竞争 (进 中) 深度智能化,底层模型 和产品体验优化, 流 业竞争 。
9. 当前DeepInsight重点建设智能问答ChatBI &
10. 02 ChatBI六 难题及解决 案
11. 可能有 新意
12. ChatBI要落地, 临以下6 挑战 特领域下的知识,以及个 习惯问法, 模型如何识别 NL2Code的正确率取决于使 的程序语 ,Metric>Python>SQL>DSL,但是Python 法处理 数据量,SQL转化为可配置图表有较 Metric覆盖低,且泛化能 差 不是所有需求通过 然语 描述的效率都更 ,协同产品交互更有性价 ,那么 然语 和产品交互两种模态如何协同 模型 成的结果, 户如何验证是否正确。 模型 成错误后, 户应该如何继续操作。 模型响应时间和性能如何进 权衡,模型越 ,正确率越 ,但是响应时间也越 。 的限制, Self-Re ne 最近7天取数Agent 的访问UV AI校验 NL2DSL 可配置图表 指标是业务场景 落地的控制器 反问澄清 知识召回 路由Agent NL2Metric 代码纠错 执 代码 取数Agent: agent类型=“取数Agent” 「取数Agent」的 径 是什么 (不能配置) 召回成功 取数Agent: agent类型=“取数Agent” 补充知识 普通表格 NL2SQL
13. 、知识是“燃料”,构建知识体系,才能实现在具体的领域场景进 落地
14. 数据治理会成为AGI落地的关键,基于
15. 通过反问澄清规范 产品展示 时间范围定义 业务习惯定义
16. 、如何提升NL2Code的正确率,不同 成转化为召回,正确 率可控 正确率取决于指标的覆盖 率, 法 泛使 。
17. 多路由
18. 如何提升NL2DSL(在蚂蚁是NL2DAL)的正确率 Context Prompt Self-Re ne RAG 2025年~ 程改写
19. SFT, 场漫 成
20. 我们的案例:通过原 最近7天 杭州市 各区 时间筛选 维值筛选 维度 交易 度量 结构化的 额 式组装NL2DAL的语料 正排 排序 把取数提问结构化,并拆解成原 结构,类似于搭积 的 式拼接成 标语料
21. 合成语料,语料模式单 Loss值迅速跌0 ,导致模型训练过拟合
22. 增加语料的种类和多样性,对SFT有 语料类型 合成语料 常显著的效果 CoT语料 函数 档 训练效果 https://arxiv.org/pdf/2305.11206 通过多种语料混合,增加语料的多样性,提升语料的质量,可以提升模型训练效果
23. 在推理阶段,通过Self-Re ne提升NL2DAL准确率,正确的反馈可以帮助模型修正结果 Meta Store 查询元数据获取 Execution Sandbox DAX DAL SQL
24. 三、如何对 模型 成的结果进 校验 Self-Re ne 最近7天取数Agent 的访问UV AI校验 NL2DSL 反问澄清 知识召回 NL2Measure 路由Agent 代码纠错 可配置图表 执 代码 取数Agent: agent类型=“取数Agent” 「取数Agent」的 径 是什么 普通表格 (不能配置) 召回成功 取数Agent: agent类型=“取数Agent” 补充知识 NL2SQL
25. 三种校验 式,帮助 SQL 户判断 模型 成的结果是否可信 校验 通过代码逻辑可以直接判断结果 普通 是不是OK 优点 需要 缺点 为校验,需要较 度 产品配置 AI校验 户就可以根据这个校验结果 普通 判断是否可 的专业 会出现误判 校验 户可以通过配置来判断和 预期是否 致 覆盖率不 (复杂查询难以还还 成配置) 最终这三种 式都会提供给 户, 户根据实际情况进 选择,多 校验能保证结果更准确。
26. AI校验,
27. 四、当
28. 当前有三种情况,都会导致 户 作
29. 将 成
30. 03 评测集构建
31. 构建评测集,正确 漫 的路,需要 时间的积累 分析领域的评测集 分析评测集 取数评测集 报告评测集
32. 完善的评测集可以实现Agent的快速
33. 业界的评测集
34. 评测集问题
35. 评测集在各 模型的跑分结果,考虑模型的发展,评测结果整体偏难 模型名称 正确率 DeepSeek-R1 45.2% o1 43.0% o3mini 42.2% Claude-3.7-sonnet-Thinking 41.0% GPT4.1 40.2% Claude-3.7-sonnet 40.0% qwen3-coder-480b-a35b-instruct 37.0% Gemini2.5-Pro 36.8% Gemini2.5-Pro-Reasoning 34.8% Llama 3.3-70B 24.0% GPT-4o 23.4% DeepSeek-R1-Distill-Qwen-32B 23.4% qwen3-32B 20.2%
36. 评测集及评测框架已经开源, 家可以进 评测 评测体系构建及应 对外 开源 • • 域外:500道题(已开源) 对内 应 域内:226道题(待开源) • • DeepInsight各Copilot智能体评测 端到端的评测产品化构建 产出2篇专利 • • 《 种基于SQL计算特征和语义表达特征的标注 法》 《 种基于SQL计算特征和语义表达特征的评测集 成 案》 开源建设 论 《Falcon: A Chinese Text-to-SQL Benchmark for Enterprise-Grade Evaluation with SQL- and Semantics-Aware Annotations》 (待发表) 蚂蚁评测集使 说明 档:https://www.yuque.com/alanchen-nd2og/kbfv26/olmdxmoe7s6uogcg?singleDoc# • 开源地址:https://github.com/eosphoros-ai/Falcon • •
37. 04 程任务探索
38. 具体场景中,
39. DeepInsight端到端数据分析Agent产品——DataSage 产品定位:新 代数据分析Agent,你身边的数据分析专家。 • Data(数据)+Sage(智者、专家、古希腊智慧 神雅典娜别称) • 直接传递“数据领域的智慧专家”形象 全新产品 • 寓意产品能像“智者” 样提供洞 DataSage 项 • 产品提供端到端数据分析能 ,需求执 全流程AI 主,就像你身边的可靠数据分析专家 实 战 蚂蚁集团商业智能BI团队+DeepInsight团队联合共建 BI + DataSage 从最需要BI智能化的场景出发,解决最迫切、最 Transforming Data into Intelligent Insights 痛点问题,从实战中淬炼产品 频的BI
40. 程任务的技术实现:Planner + MCP + A2A协议 要落地,ReAct更好还是Workflow更好?
41. 案例:如何通过任务拆解实现 识 执 规 具 分析报告 具
42. DataSage以产品+业务共建 具
43. 在AI+BI这套新的范式下,需要
44.
45. Q & A 有兴趣可以微信交流

Home - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-02 22:59
浙ICP备14020137号-1 $Map of visitor$