大模型趋势下的企业数据体系思考
如果无法正常显示,请先停止浏览器的去广告插件。
1. 大模型趋势下的企业数据体系思考
何昌华 —— 数巅科技 CEO
2. 数巅科技:让数据智能像水电一样简单
2022 - 数巅科技CEO
2017 - 国家级人才计划
蚂蚁集团
2017 -
计算存储首席架构师
Google搜索引擎
2015 -
架构核心技术负责人
2005 - 斯坦福大学博士
3. 当 LLMs 遇到企业应用:需要与企业数据协同
信息抽取
微调大模型
SaaS API
向量嵌入
开源大模型
大语言模型(LLMs)
数仓、数据湖、数据中台
智能写作
图片生成
智能咨询
智能运营
互动问答
归因分析
……
更新文件 每日交易数据
视频监控 行为日志
存档文件 历史日志
规章制度 过往交易
非结构化数据 结构化数据
4. 大模型在企业落地对数据体系的关键需求
数据加载和接入
需求
统一数据资产
• 多模态数据需要多种加载、转换方法
• 需要管理及沉淀优质资产
需求
编排框架
自动化工具(包括常用模型)
• 自动编排执行任务需要各种插件工具和
模型算法自动化驱动
频繁数据交互链路
需求
高效计算能力
自动链路中数据频繁交互带来计算量倍增
——世界顶流科技投行a16z 2023年6月发布最新大模型应用一般流程
5. 如何解决:智能数据虚拟化技术
统一
将异构数据源虚拟化,沉淀统一语义的数据资产
业
务
数
据
资
产
业务逻辑模型
逻辑模型 B
逻辑模型 A
逻辑模型 C
虚拟表
虚拟表 C
自动
根据业务语义实现资产即刻自动扩充,驱动自动化
工具
高效
智能加速实现数量级性能提升
数
据
虚
拟
化
引
擎
虚拟表 A
物化视图
源表连接
物化视图
物化视图
物化视图
物化视图
数据连接层
源表连接
源表连接
源表连接
物
理
引
擎
虚拟表 B
源表连接
源表连接
全量数据源
6. 数据虚拟化引擎全面实现三大需求
数据虚拟化引擎
统一数据资产
自动化工具
高效计算能力
7. 实现需求一:统一数据资产
更多数据治理方案请关注7月22日【智能化数据治理】分论坛
数据接入 虚拟表批量映射,内置多模态存储加速
逻辑建模
业务虚拟宽表
业务虚拟表
数据虚拟化层
贴源虚拟表
快速灵活业务建模
贴源虚拟表
自动血缘
K-V存储格式
图存储格式
向量存储格式
列存储格式
资产治理
Col1
Table
Col1
Col2
Col3
Col4
Table2
外部数据接入
自动构建字段级血缘
Table1
Col2
Col_C
Table3
Col3
TableC
Col_C
虚拟中间表
虚拟中间表
自动合并等价SQL
避免资产二义性
8. 实现需求二:数据驱动的自动化工具
大模型依据已有【日均交易金额】字段推荐特征加工逻辑
自动化模型工具
?
因果推断
LLM推荐特征
请帮我圈选一
个高效做信用
卡营销的人群
重点关注日均交
易金额分层、年
龄、职业、是否
有房贷4个特征
特征宽表缺少
日均交易金额
分层这个特征
改写特征宽表
生成新的虚拟表
并优化执行
贪心下钻
回归分析
输入特征
调用业务模型圈选客群
模型计算出客群
9. 实现需求三:高效计算能力
智能加速
智能物化+SQL优化
逻辑模型、指标
先进计算存储底盘
逻辑模型
虚拟宽表
流批一体
虚拟层
内置多格式高速存储
KV、Table、TS,Graph。性能10倍于主流KV存储。
物化视图
计算性能优化
公共路径A
公共路径B
Join性能做到极致,2倍于主流引擎。
兼容BSP、MPP、Streaming等业界通用引擎。
物理数据
DWD
DWD
DWD
DWD
10. 自我迭代的企业大模型应用框架
可视化工具
数据分析工具
资产治理工具
常用模型工具
框架循环
迭代
评估数据
回收
大模型接入
微调样本
虚拟化引擎
自
动
化
工
具
……
RLHF
统一数据资产
数据驱动自动化工具
高效计算能力
11. 数巅科技,让大模型和企业数据协同起来,实现广泛业务场景下的智能决策
You need both LLMs and data systems; Harness their synergy
12. 感谢聆听
公众号请扫码:
官方网站
https://www.dipeak.com
邮箱
biz@dipeak.com
微信公众号
数巅科技