多智能体驱动的企业级ChatBI 落地实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
相关话题: #AI Agent
1. 多智能体驱动的企业级 ChatBI 落地实践 陈叶超
2. 目录 01 喜马 ChatBI 背景和挑战 02 喜马 ChatBI 产品与架构 03 构建可持续进化 ChatBI 04 未来展望和规划
3.
4. 01 喜马 ChatBI 背景和挑战
5. ChatBI 研发背景 用数门槛高:找数难、取 数难、不会写 SQL 数据不平权:业务团队排 队等需求,需求响应慢、 依赖数据产品和自助取数 业务痛点 数据消费效率低、数据价 值得不到释放 人力成本高、交付压力大 需求被动、数据需求投诉 后才知道 重复取数,成就感低 数据团队痛点 大模型和智能体技术发展 迭代快,能力进度显著 自然语言是最高效、最直 接、最有价值需求表达和 反馈 传统 BI 加速向 BI+AI 转型 Data+AI 发展趋势 我们的观点
6. 为什么要自研 喜马 ChatBI 与 ChatBI 商业化产品的核心差异 项目 开源 & 商业化产品 自研喜马 ChatBI 准确度 测试下来没有符合预期产品 数百列 + 多表:至少 85% 以上,且能持续进步 数据安全 无法继承原有数据权限、不支持加密、脱敏 安全合规存在挑战 复用现有数据权限、支持敏感加密、脱敏 安全合规 智能选择数据 & 多表关联 智能选择数据集基本不支持 多表关联基本不支持、效果比较差 自然语言提问情况下自动选择数据集 支持多表关联 多轮问答 /追问 有限支持 支持 开放、兼容 开放性差 模型、数据源、 BI产品绑定 自身智能体扩展开放 向公司 Agent 应用开放 复用兼容当前 Lakehouse 架构 能力可进化 全链路追踪 & 反馈 有限预设支持 多数依赖模型微调、周期长效果差 N/A 可调优、可介入、且快速、实时 查询速度、资源消耗、多维度的准确率分析等
7. ChatBI 研发挑战 P 表召回难 准确率挑战大 十万级别表,无法精准识别召回 ChatBI 实际准确率较低 A ChatBI 四大核心挑战 模型幻觉 D 评测难 大模型幻觉不可避免、无中生有 准确率评测难、无标准 SQL 答案 C
8. 02 喜马 ChatBI 产品与架构
9. ChatBI 产品形态 示例数据
10. ChatBI 产品架构 产品形态 产品能力 智能体能力 Tools Context 增强 ChatBI 桌面+ 移动端 智能问数 智能选数据集 意图识别 agent RAG 表/字段/值 单表问答 智能选数据集 agent DB 查询 业务知识 专业词汇 模型接入管理 Data Infra Milvus 联表查询 智能改写 agent Memory 模型接入 ChatBI MCP ChatBI 办公工作台 Embedding 语法检查 时间规则 模型 StarRocks 多轮问答 SQL agent 权限校验 指标知识 文本模型 Lakehouse Server ChatBI OpenAPI 取数解释 智能绘图 智能问数 agent 智能推荐 智能评测 agent 反馈& 日志追踪 数据下载 样例学习 数据集管理 用户理解 agent 取数过程查询 SQL 方言学习 数据标注 个性化Memory ... OneMeta DataOps 平台
11. ChatBI 产品演示视频
12. 03 构建可持续进化的 ChatBI
13. ChatBI 全生命周期
14. 构建可持续进化的ChatBI ChatBI 四大要素 评测反馈机制 高质量数据集 评测先行 自动化可衡量的评测机制 AI/人工标注 按照业务域设计的高质量数据集 精挑细选经过数据治理过的数据表 精心维护的知识、规则、指标、语法等 多 Agent 协同 按照核心职责拆分 Agent Agent 少而精,每个Agent 做到极致 选择合适的LLM ,且持续迭代 个性化 Memory 和用户理解 短记忆: 会员上下文理解,追问等 长期记忆: 历史用户提供的知识、用户偏好推 荐、个性化,冷启动/个性化推荐更精准 用户理解和需求引擎
15. 评测难:无法衡量,就无法改进 1 2 3 4 5 评测的重要性 如何评测? 点赞/点踩 无标准测试方法 SQL 无标准答案 点赞和点踩行不行? 评测 SQL 行不行? 点赞和点踩互动低 更多反映对产品偏好 关联准确率不置信 标准测试集和企业知识 以及数据实际不匹配 同一个问题 不同SQL 都是对的 准确率低,用户易流 如何知道做的好不好 无法衡量,就无法改进
16. 评测先行:无法衡量,就无法改进
17. 评测先行:无法衡量,就无法改进
18. 海量表召回的挑战 1 2 3 4 5 上下文受限 表信息不完善 选择难 质量差 表 Join 问题 十万级表, 超模型 tokens 消上下文耗大 无注释 字段注释不完善 枚举不明确 如果直接使用,会导致 SQL 生成准确率低 表字段接近,比如专辑 id、声音id、播放等信 息,难以判断哪个表可 以使用 召回多个表,虽然生成 SQL 也是正确的,但是 表数据质量差无法使 用,比如测试表、临时 表、断更表等 大模型容易根据自己理 解,随意join表字段, 实际只有特定的表字段 可以相互join
19. 海量表召回的挑战 1 2 3 4 5 上下文受限 表信息不完善 选择难 质量差 表 Join 问题 十万级表, 超模型 tokens 消上下文耗大 无注释 字段注释不完善 枚举不明确 如果直接使用,会导致 SQL 生成准确率低 表字段接近,比如专辑 id、声音id、播放等信 息,难以判断哪个表可 以使用 召回多个表,虽然生成 SQL 也是正确的,但是 表数据质量差无法使 用,比如测试表、临时 表、断更表等 大模型容易根据自己理 解,随意join表字段, 实际只有特定的表字段 可以相互join
20. 高质量数据集:解决召回难题 高质量数据集:对表、知识、规则等核心 Context 的抽象封装 表信息 表信息 字段信息 字段枚举 数据时间 是否维度… 知识 企业知识 黑话/术语 业务说明 指标口径 词汇说明… 规则 语法规则 时间规则 安全规则 Join规则… 其他 权限信息 预设推荐问题 样例 添加标题 添加标题 添加标题
21. 高质量数据集:最佳实践 处理数据集而不是表 数据集是 ChatBI 处理 Context 工程最核心单位。 召回数据集而不是表;基于数据集结构化信息生成 SQL 、处理权限 大而全不如少而精 按业务域建设高质量数据集 业务域名负责人梳理核心业务表和知识库 看板和自助取数重要性和访问量作为建设数据集重要参考 基于数据集优化知识 软件工程概念仍然适用 全局相关知识和单数据集相关知识 对数据集知识进行高度数据治理和优化 ,经过评测以后再上线 数据集结构化处理,而不仅仅是向量化 数据建模、关联度高的表打宽、OLAP 加速查询 用好工具,比如复用数据集的权限、 SQL 语法校验
22. 高质量数据集:数据集实例 业务域 数据集 核心表 核心企业知识 经典用户场景 公司经营域 收入和利润 整体经营收入 业务线专业词汇、黑话 今年会员业务收入趋势如何 业务线收入等 业务线之间关系、指标口径 内容运营域 专辑综合分析集 专辑宽表、播放、 标签分类、赛道、频道、版权等 最近一个月最热门专辑top 100,同环比如何 互动、流量归因等 声音综合分析集 声音基本信息、播放、 帮我圈100个热门科技财经类播客专辑 标签、是否上架、付费等枚举 最近一周评论互动率最高的声音top10 用户/设备宽表、专辑 人群分类 今年DAU 7日留存日均趋势 维度、画像等 互动、播放、留存指标口径、 top10的资源位 互动指标等 用户域 用户综合分析 黑话、资源位信息等 创作者域 主播分析 创作者基本信息 创作者专辑、声音、 直播统计信息 收入统计信息等 主播分级分类、赛道 最近半年订阅订阅增长最多的创作者
23. 高质量数据集:数据集实例 业务域 数据集 核心表 广告域 广告资源位分析 广告位 /资源位、 点击曝光转化、 业务线、 收入等信息 核心企业知识 经典用户场景 广告相关术语 /黑话等 开机大图广告位,近一周广告 收入趋势 推搜域 推搜多维扫描 资源位 点击、曝光、转化 /播放等表 客服域 客服数据集 VOC 、用户工单等 数据治理 OneMeta 表 数据治理表 数据增长表等 表业务分域 负责人等 最近半年存储增长最快的 top 10 个表 各数据产品运营表 数据任务配置、日志表 告警、监控信息表 ChatBI 全链路 Trace 表等 技术产品词汇、 成本组成 技术口径等 最近 6 个月 AI用户理解大模型消 耗情况 每月 ChatBI 访问 UV 、PV 情况 … … … 技术平台域 Data+AI 各垂直业务域 … 平台 资源位信息, 推搜相关内部知识库 VOC 内部术语等
24. 多智能体协同:Agent 架构 https://lilianweng.github.io/posts/2023-06-23-agent/
25. 多智能体协同:各司其职,协同优化 1 2 数据集 Agent 改写 Agent 只干一件事情, 负责包 括处理数据集Context (表信息、多表关联信 息、知识库、上下文 Context 等)以及智能 选择数据集 ⚫ 主要是时间改写 Agent ,负责处理易 错的周期、同环 比、数据时间等时 间语义改写,改写 是为了明确问题, 提升准确性。 3 SQL Agent ⚫ SQL 生成、解释、 纠错、优化等,专 注于将SQL 生成的 准确度做到极致, 同时会反思和校验 语法等 ⚫ 4 5 用户理解 Agent 评测 Agent 用户和需求理解, 包括个性化 Memory 、行为偏 好、用户问题推 荐、需求理解,如 个性化问题推荐、 问而未得去构建高 质量数据集,是构 建数据- 用户- 系统 持续进化的关键。 ⚫ 准确性评测,从多 维度评测ChatBI , 评测Agent 可以评 测端到端的 Query ,也可以单 独评测数据集召 回。每次变更,包 括模型、数据、 Context 等迭代都会 触发评测Agent
26. 工具:Agent 手和脚 好的工具:安全、高效、便捷、可复用 1 2 取数 Tool 权限 Tool 多数据源 多计算引擎 SQL 取数 ⚫ ⚫ 复用原有数据权限 系统,兼容原有权 限系统 授权、加密、脱敏 4 3 Memory & RAG 向量存储、检索、增强 记忆存储、管理、检索 长期记忆、短期记忆、 追问会话 MCP 5 Tool ChatBI 作为通用的 Tools ,MCP 和API 对 Agent 平台暴露,比如 Dify 等 全链路 Trace ⚫ ⚫ ⚫ 反馈和追踪整体链 路 数据标注等 Agent 每一步的输 入、输出、报错、 大模型消耗、性能 统计等
27. 多智能体协同:全流程拆解 一个例子:本周小说频道的专辑DAU趋势如何?环比?
28. ChatBI 智能异动分析 ChatBI MCP x Dify 构建人货场异动分析
29. 落地效果 准确率 覆盖率 ⚫ 单数据集 9 个表,单表 200+ 列,准确 率 ~85% ,人工复盘(非点赞 /点踩) ⚫ 核心指标覆盖超 85% ,2 万+ 智能问数 ⚫ 运营岗覆盖率~ 85% ⚫ 产研、算法岗覆盖率~ 70% ChatBI 效率提升 数据价值释放、反哺数据建设 ⚫ 数据平权,数据分放和消费效率显著提升 ⚫ 人对数据的消费:取数效率百倍提升,从找 数半天找不到 →随时随地想问就问 ⚫ AI 对数据的消费: ChatBI 通过 MCP 和API 提供给Agent 平台调用,支持自然语言接 入,Agent 消费数据门槛大幅降低 ⚫ 运营更爱用数了,聊着天就把活干了 ⚫ 自然语言驱动需求精准识别和及时响 应,拉近与业务方距离 ⚫ 反哺数据治理:发现解决大量数据不规 范问题
30. 可持续进化的ChatBI Data 用户理解 高质量数据集 高质量数据集 高质量上下文 自然语言驱动用户、需求理解 交互&个性化Memory形成数据飞轮 Agents ChatBI 飞轮 多 Agent 迭代协同 Memory 评测反馈 LLM、Agent 越来越智能, 多、快、好、省的Tool 持续沉淀 指引 Agent 优化升级 Eval
31. 04 未来展望和规划
32. 未来展望和规划 准确度提升 企业知识库持续治理和升级 基于私有知识库和数据标注模型微调 人找数到数找人 支持订阅推送 主动数据巡检、主动推送数据异动 数据深度洞察分析 Deep Data Research ,自规划深度数据洞察分析
33.
34. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-03 23:48
浙ICP备14020137号-1 $访客地图$