AI 引领的企业级智能分析架构演进与行业实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 李飞
2.
3. 数势科技为企业提供基于大模型增强的数据分析 AI Agent,提升企业的数字化决策能力,推动企业数字
化升级。
公司概况
• 2020年,由原京东技术副总
裁黎科峰博士创立
• 行业首个商业化落地的数据
分析智能体SwiftAgent
• 在金融、零售、先进制造领
域有深度技术和业务know-
how
部分代表客户
投资机构
4. 目录
5.
6. 企业数字化建设进度不一,大致分为以下三类
数据仓库
现状:
1.少部分企业仍处在数仓建设阶段,主要原因是数据之殇。
2.BI和看板已在大部分的企业落地,ROI仍有待估算。
3.部分企业基于业务场景搭建企业级指标平台。
BI系统
指标平台
疑问:
企业应该基于哪一层建立大模型数据分析?
7. 原始数据(Raw Data)
现状:
1.每个技能都分布在不同的角色或平台系统上;
2.分析结论需要经过很多环节。
分析结论
疑问:
如何做分析能力的整合,以及沉睡技能的唤醒?
8.
9. 信息茧房
内容的偏好推荐
搜索
推荐
LLM
内容的检索过滤
打破信息茧房
人工过滤信息
内容
决策和思考的信息
来源
01
02
TOOL
推动物理环境变化的
手段
10. 通过自然语言快速满足业务需求,但是仅仅有
自然语言
可描述性的数据查询提效不明显。
通过图形化设计和拖拉拽操作满足业务需求,
图形化
但是为了满足灵活的需求,设计及其复杂。
通过SQL或python代码编写进行数据分析和
硬编码
洞察,但是需要研发角色和需求响应时长。
代码分析到低代码的BI演进是因为“10”倍门槛的降低和“10”倍效率的提升,
如果BI到LLM分析没有“10”倍的差距,就毫无意义
11. 依赖情感、记忆和经
验迅速作出判断,它
见闻广博,使我们能
够迅速对眼前的情况
作出反应
思考的”快”
思考的”慢”
通过调动注意力来
分析和解决问题,
并作出决定,它比
较慢,不容易出错
12. 利用大模型Agent能力,显著降本增效
传统数据分析路径长,存在明显人力瓶颈
(人力瓶颈) (产出缓慢)
老板任务 数据+BI 工程开发 数据查询
运营任务 数据+BI 人工绘制 数据报表
产品任务 数据+BI 人工梳理 异动分析
临时需求 数据+BI 人工总结 数据报告
数据源
提出任务
数据Agent
(大模型)
系统执行
数据查询
数据报表
异动分析
数据报告
给出行动
(秒级响应)
门槛高 商业分析,需借助研发与BI协助 门槛低 简单交互,人人都是数据分析师
效率低 需求响应数小时,决策不及时 效率高 数据查询,报告分析任务秒级响应
能力薄 只能查数,分析需要人工 能力厚 归因分析、异动分析、报告总结
交互性强 多轮追问、歧义反问,有理有据
交互性弱
以数据查询与看板展示为主
13. 1.编排和固定工作流的划分,让稳的更稳,创新的更创新;
2.工具的多样性是核心;
3.针对数据分析结果的反思需要建立一套专属评估标准。
14.
15. 用户请求
预处理 检索生成
数据对象 对象召回
逻辑对象
描述
口径
关系
对象编排
LLM
DSL生成 后处理
多步思考 错误修改
解码策略 一致性检查
投票策略 重排序
1.数据模型和业务场景相关,降低大模型关联的错误性。
2.字段冗余存储,降低选择的错误性
3.减少文本生成长度,降低时间复杂度和错误传递。
4.查询语句提前优化,减少慢SQL生成的概率
16. 在企业实际落地中,我们认为广义语义层要包括数据语义,加速语义和权限语义的定义
1 2 3
对象语义 加速语义 权限语义
17. 示例:
数据对象语义
逻辑对象语义
帮我看一下上个月的GMV,按照
不同城市进行排序
数据对象语义:作为一个对象,
在代码执行时会根据定义去查
询,不需要翻译条件和表达式,
减少出错的机会;
逻辑表达语义:依靠SQL进行逻
辑翻译,避免API开发带来的不灵
活和效率低下;
18. • 查询加速:基于ROI优化OLAP引擎的查询路径,提
升查询计算性能;
• 自适应性:用户无感知,并基于用户提问智能识别出
需要迭代加速的场景
• 实现效果:在跨底层模型join多指标查询时,查询速
度比原始sql提升1-2个数量级,对比标准SQL查询速
度,提升5-20倍,实现亚秒级查询体验
19. 01 02 03
角色记忆 会话记忆 轮次记忆
用户的个人标签记忆,例如角 会话记忆考虑用户的所有对 轮次记忆中的每轮对话都是独
色,行业,业务目标和关注场 话,生成可捕获更广泛跨会话 立增强的,重点关注各个轮次
景等。 的整体记忆。 的细粒度内容
20. 非结构化记忆
结构化记忆
{”卖了多少“:”销售
额”,”上分”:”上海分
行”,”质量问题””发热,
易碎”}
......
实体链接
会话偏好记忆:“用户查销售金额时
候,喜欢使用饼状图进行对比。用户
想要查的公司一般指上海银行。用户
做比较的时候,也喜欢把北京分公司
的对比加上”。
用户输入:2024年6月份,我的公司
公募基金销售金额与5月相比下
降?”}
......
• 时效性:避免重复识别,提高计算效率;
• 准确性:提高识别的效果和稳定性;
相关相似检索
记忆状态:增删改处理
记忆权重:加权平均,时间平滑
21. Research是Agent最好的落地场景,符合“慢思考”和“10”倍提效。
模板
报告实例
大纲生成 任务生成 任务执行
迭代式 任务下钻 Agent执行
总结式 Agent池 状态传递
修订 信息召回 消息传递
记忆
汇总
反思
22. 支持多种生成报告形式,如用户上传分析模板后,
由大模型进行outline提取
1.支持模板上传/报告实例进行outline解析
2.用户也可以自由输入报告需求由大模型生成
3.用户通过专家模板库自动推荐合适的模板进行报告生成
(开发中)
思考过程与大纲,大纲内容支持编辑
23. 什么时候适合用推理模型,什么时候更适合用非推理模型,
从数据洞察的金字塔讲起
更适合由推理模型辅助完成(结合COT的“慢思考”)
01
02
03
04
Data-Driven Action Plan:核心指标整体复盘与建议输出
Wisdom
Knowledge
Insight
Ex. “帮我对今年10月份XX分行的业绩做个复盘“
Data Reasoning:洞察归因分析、异常分析、趋势分析
Ex. “帮我看下今年9月到10月的余额变化情况,并做个归因分析“
Data Discovery:数据统计分析(如同环比、占比、对比等)
Ex. “帮我看下今年10月不同分行的余额以及月环比增速,并对增速进
行降序排序“
Facts
Ask Data:数据查询、数据检索、事务型查询
Ex.“帮我看下今年10月底余额”、“帮我查看下XX分行的总资
产”
更适合由非推理模型快速进行意图识别和语义解析完成(“快思考”)
24.
25. x50
数据需求
满足效率
90%+
客户痛点
行领导分析
需求满足度
100%
指标语义
理解准确率
应用的核心产品能力
行内领导可以通过自然语言形式
快速获取每日所需经营数据,并
支持智能生成可视化图表
数据查询效率低:数据需求无
限,开发资源有限,需求排队严
重;
从询问到
结果
使用场景
净收入分析
1200+
上线一周领导主动
问询数量
使用部门
项目一期服务重点
总行领导
自然语言数据查询
贷款情况分析
根据行内常用分析维度与指标的
因子关系,进行自动化归因分析
与建议生成,帮助行领导快速发
现数据异动的原因,形成业务闭
环。
指标归因慢:主要依赖分析师人
工在BI工具或Excel中进行维度与
因子下钻,手工挖掘洞见
归因分析
数据解读靠人工:领导每次对
于大量表格表示看不过来,想
直接知道结论和哪些指标出了
问题
<6秒
基于明细数据自动进行趋势分
析、占比分析、排序分析和异常
值分析等工作,并将生成的结果
以清晰易懂的报告形式进行展现
报告生成
存款情况分析
分支行领导
项目二期服务重点
业务分析师
同业负债分析
26. 痛点1:数据需求无限,开发资源有限,需求排队严重
数
据
① 需
求
管理团队
…
需
② 求
排
队
信贷团队
财富管理团队
信用卡团队
代发团队
痛点2:指标口径不一致,定义黑盒,无法高效复用
指标口径不一致:各部门指标的数据来源不同、指标口径定义也不同,
拉齐业务口径沟通成本高、技术口径难梳理,下游应用五花八门,分析
决策难
数据资产是个黑盒子:数仓模型与指标无清晰映射,指标定义全靠开发
人员文档记录,上游指标变更影响哪些下游应用,追溯过程复杂难回答
…
• 烟囱林立
• 指标口径不统一
数据应用
开
④ 发
完
成
…
结果表
数
③ 据
开
发
数仓
杂乱数据源
数据工程师
IT部门
指标加工
黑盒子
• 指标定义黑盒子
• 无法高效复用
27. 以该金融机构的数据应用场景为例,通过自然语言指标取数,系统能够快速准确地获取相关数据;智能归因分析则帮助找出业务发展中的关键因素和问题
所在;自动报告生成则以直观的方式呈现分析结果,为银行的决策制定、风险管理、业务优化等提供有力支持。这些场景展示了在银行业中运用自然语言
处理和数据分析技术的重要性和实用性,有助于提高银行的运营效率和决策科学性。
03
客户行为分析
02
理财产品销售分析
理财经理需要了解上个月理财产品
01
的销售情况,询问“上个月哪几款理
财产品销售额最高”,系统通过自然
语言指标取数,帮助理财经理了解
市场需求,优化产品推荐策略
信用卡业务分析
常见问题如:“信用卡逾期率最高的客户群体
是哪些”,系统通过自然语言交互形式,从信
用记录、消费行为、收入情况等多维度数
据,找出逾期率最高的客户群体特征,以便
银行采取针对性的措施降低风险
04
分支行业绩对比
运营团队提出“客户流失率与哪些因 领导想要比较各分行的贷款业务总
素相关”,系统进行智能归因分析, 量,询问“A分行和B分行今年的贷
找出导致客户流失的关键因素,如 款业务总量对比如何”,系统通过自
服务质量不佳、产品缺乏竞争力
然语言取数与报告生成,为总行领
等,为银行改进服务提供依据。
导提供业务指导提供参考。
05
风险评估
在评估贷款风险时,询问“近期贷款违
约主要集中在哪些行业”,利用智能归
因分析,找出贷款违约集中的行业领
域,为信贷部门调整信贷政策、加强
风险管理提供重要依据。
06
财务分析
财务部门经常询问“各项业务对利润的贡献
比例是怎样的”,系统通过智能归因和自动
报告生成,综合考虑各项业务的收入、成
本、风险等因素,计算出各项业务对利润的
贡献比例,并以图表和报告的形式展示,帮
助财务部门进行成本控制和利润优化
28. 关心的问题?
1 指标异动推送
2 多维度分析
异
动
预
警
【对公贷款余额】出现指标异动,通知领导
进行关注
多
维
分
析
我行今年每个月按分支行和客户类型的对公
贷款余额如何?趋势是怎样?
3
归因分析
哪个分行下降的最多,哪些客户类型下降
了
银行领导
4
归
因
分
析
结论输出
帮我对上面数据形成一个总结报告吧
扫码体验
数
据
解
读
29. “准确”
1. 连接数据语言与业务语
言的NL2Semantics技术
“友好”
2. 用户友好的交互式
反问与引导
让大模型及时反问与追问,引导业
务人员一步步成为专业分析师
通过构筑企业的标准化指标语义层,
让大模型完美解析用户需求,实现精
准取数
“敏捷”
3. 基于Agent架构的
强大规划能力
大模型的思维链与ReAct架构辅
助高效拆解复杂问题,并精准
回复
“安全”
4. 严格的数据
安全保障
精细到指标行列权限的管控机
制满足金融机构数据安全要求
30.
31. 未来每一个企业拥有若干个数据应用相关的“数字员工”
32. Claude偏重代码
GPT偏重推理
Gemini偏重
多模态
33. “Click”不会消失,切勿舍本逐末
34. 大胆选择,匍匐前进
35.
36. 大模型正在重新定义软件
Large Language Model Is Redefining The Software