大模型时代下的DataOps和DataFabric
如果无法正常显示,请先停止浏览器的去广告插件。
1. 大模型时代下的DataOps和DataFabric
白鲸开源 CEO
Apache Software Foundation Member
郭炜
2. 郭炜
白鲸开源 CEO
Apache 基金会成员, Apache 孵化器导师
Apache DolphinScheduler PMC,
Apache SeaTunnel 导师, ClickHouse 华人社区创始人
郭炜先生毕业于北京大学,现任中国通信学会开源技术委员会委员,中国
计算协会开源发展委员会委员,中国软件行业协会智能应用服务分会副主
任委员,全球中小企业创业联合会副会长,TGO鲲鹏会北京分会会长,
ApacheCon Asia DataOps论坛主席,波兰DataOps峰会、北美Big Data
Day演讲嘉宾,虎啸十年 杰出数字技术人物,中国开源社区最佳33人,中
国2021年开源杰出人物
郭炜先生现任白鲸开源CEO,曾任易观CTO,联想研究院大数据总监,
万达电商数据部总经理,先后在中金、IBM、Teradata任大数据方重要职
位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,
Presto, Alluxio,Hbase等,是国内开源社区领军人物。
3.
4. 现代程序员编程模式
4
5. 大模型已经在产研各个领域产生作用
大模型辅助已经在开发整体流程中产生了更大的变化作用,熟练大模型的开发者可以“以一当十”。
需求设计
产品文档撰写
UI
研发
产品宣讲
Marketing
客服
Emailmagic AI
wir
k
MidJourney
OpenArt
WhaleGPT
选自郭大侠《AIGC产研工具全景图》
5
6. 何时用人何时用大模型编程?
优点
人
Co-Pilot
ChatGPT
私有化AIGC
缺点
逻辑复杂缜密,可以 写代码效率低
完成比较复杂的开发 成本高
任务
场景
复杂业务逻辑,
核心引擎
整合在开发工具中, 准确率不高,生成代 辅助编程,复用代码
码段比较短,逻辑简
快速复用/书写类似
代码
单
可以编写较复杂的业 需要code-review,
有类似场景代码,自
务代码,特别是有类 错误隐藏的更深,缺 动生成新场景代码
似案例的情况下
乏创造性
数据更安全,更懂你 准确率和模型正相关, Txt2SQL,运维脚本
的业务
目前在70%左右
6
7. 大模型编程示例——Apache SeaTunnel
让大模型帮助你对接各种复杂SaaS而不需要重新开发:《SeaTunnel 2.3.1 重磅发布!AI compatible 特性引发关注》
▪ SeaTunnel发布AI Compatible版本2.3.1,为ChatGPT重构适合AI开发的程序接口和程序架构,可以让GPT自动生成对接SaaS的接口,
生成代码可以直接运行,与人类开发代码99%相似,开发接口速度从80小时变为1小时
▪ SeaTunnel利用开源代码+SaaS开放接口+GPT强大优势碾压Airbyte/FiveTran数百SaaS接口优势
▪ 挑战:Code-Review
给出参考和要求
可自动生成接口
且生成代码
可直接运行
7
8. 大模型让更专业的人做专业的事情,体力活交由大模型来做
Apache SeaTunnel
Zeta核心,
全职人编写,
社区辅助
启动Connector
全职人员编写
外部数据Connector
社区贡献
SaaS Connector
GPT Coder
8
9.
10. DataOps x 大模型 让大模型可以进入千家万户
企业使用大模型存在门槛:
•
•
•
•
从0构建大模型
专业人才?
训练过程复杂
GPU资源?
数据供给?
重新训练模型
微调开源模型
高
门
槛
重新训练模型
微调开源模型
多模态 Prompting
多模态 Prompting
动态
动态
Prompting
Prompting
Zero-shot
Zero-shot
Prompting
Prompting
Few-shot
Few-shot
Prompting
Prompting
Prompting 工程
个人、小型企业/团队用SaaS
微调现有模型
微调现有模型
Langchain
适配/微调
中型企业/团队使用模型
重新构建
低
门
槛
超大型企业/团队
自建模型
10
11. 私有化大模型距离我们有多远?——一杯星巴克的距离
利用开源大模型DataOps生态,降低大模型FineTune门槛
11
12. 利用开源DataOps生态,快速训练自己的私有化模型
Chat with Internet
GPT
原创大模型训练
互联网数据
SeaTunnel
WhaleGPT
ChatLLM
Chat with your Data
企业数据训练的
私有化大模型
帮助开源大模型,利用大模型
模板,快速提高模型迭代效率
连接企业内部数据
支持150+种数据源
12
13. 举例:专业私有化大模型如何训练?
以WhaleLLM模型为例:
基础数据知识
A100*4
基础元数据大模型
企业专有模型
根据大量不同领域数据库Schema构建数据
利用通用领域元数据数据训练模型
领域专有模型
企业大模型模型
利用专属数据训练模型
特定业务+技术数据数据
V100
4090*4
特定数据库Schema构建数据
特定企业业务领域知识
企业历史SQL数据构建增强数据
开源模型
13
14.
15. 数据驱动和快速业务迭代给数据管理提出了更多的挑战,DataFabric提上日程
新兴数据源与快速敏捷开发过程给数据治理/管理部门提出更多的挑战:
敏捷开发让应用/交易数据快速扩张,数据管理部门无法快速处理和及时响应,
传统的数据治理流程产生巨大挑战
新兴数据源,多云、混合云、SaaS模块变化 “暗数据”越来越多,数据孤岛越来越多,
68%数据没有被分析,82%企业出现数据孤岛。
业务部门数据驱动理念深入,多个数据集市分别单独管理,数据指标爆炸增长,数据治理工
作量越做越多,范围却越管越少
庞大的数据体系让数据越来越难找,数据范围已经从DataOps扩大到DevOps流程。,分析
师80%时间都在找数据和验证数据
15
16. DataFabric是什么?
Data Fabric是以一种智能和安全的并且是自服务的方式,动态地协调分布式的数据源,跨数据平
台地提供集成和可信赖的数据,支持广泛的不同应用的分析和使用场景。其专注于对数据集成、
转换、准备、策展、安全、治理和编排的自动化,从而实现了快速的数据分析和洞察,帮助业
务获得成功
——Forrester
Data Fabric是一种新兴的数据管理设计理念,可实现跨异构数据源的增强数据集成和共享,通过
对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署
和使用,从而实现灵活的数据交付。通过散落各处的数据孤岛都能被统一发现和使用,并基于
主动元数据进行建设和持续分析,认为数据编织的真正价值在于它能够通过内置的分析技术动
态改进数据的使用,同时通过将自动化能力添加到整体数据管理中,使数据管理工作量减少
70% 并加快价值实现速度。
——Gartner
Data Fabric是一套新兴的数据管理自服务方式,通过智能化手段对企业的整体数据资源、元数据、
业务规则等实现自发现、自分类、自关联,并提供手段可以快速异构同步/查询的方式快速完成
数据获取和分析,从而实现企业数据资产全覆盖和高效的数据洞察。
——郭大侠
16
17. 大模型的出现让DataFabric成为了可能
根据Gartner给出的DataFabric成熟度图形,大模型正好解决了传统知识图谱的技术短板。
• 传统元数据,只有技术元数据
• 业务元数据获取方式大部分采取
人工方式(不自动化)
• 知识图谱,传统用户画像过时
• 大模型可以阅读文档,训练给出
业务理解,还可以增强SQL
• 数据目录型态,从树状,变为网
状,大模型对话形式细化搜索
• 数据虚拟化,何时自动迁移,何
时查询?如何不影响OLTP环境?
• 需要多种快速了解全部元数据
• DataOps是基础(代码,需求,
测试,ETL,数据质量,链路血缘)
+数据源定义、数据库技术元数据
17
18. 大模型在自然语言和知识库体系出现了颠覆式创新
学生分数在哪张表里? 学生分数在哪张表里?
“学生” “分数” “在” “哪张表” 向量化
主语
介词
宾语
[0.001767348474591444,
-0.016549955833298362,
0.009669921232251705,
-0.024465152668289573,
-0.04928377577655549,
...]
语义:“学生分数” - 表 关系
知识库查询(图数据库)
向量数据库
大
模
型
结果排序:
学生分数 Enrollments 表
学生分数 字段名 Student Score
…
学生分数信息存储在Enrollments里
18
19. 大模型技术重构了DataFabric技术框架
Data Goverance& Standard
Data Delivery
Knowledge Engine
Connected Data Catalog
Data Sources
within a Knowledge Graph
Enrichment
& Connection of Metadata
IBM DataFabric 技术框架
Data Goverance& Standard
Data Mesh
LLM
Data Catalog Vector
Data Sources
In Vector DB
Enrichment
& Connection of Metadata
大模型体系下的DataFabric技术框架
19
20. 大模型驱动企业DataFabric,高效连接事务和分析数据实现自主分析
应用开发
OLTP
测试
部署
业务知识
数据信息
数据治理
数据开发
OLAP
开发
Dev
Ops
数据
测试
ETL开发
大模型
X Data Fabric
新需求
运维
数据湖
跨云存储
数据查询
Data
Ops
新需求
可观测
20
21. 现阶段大模型能做到什么程度?
21
22.
23. 超级个体的涌现
24. 数据研发迭代速度
从周到天到小时
25. 分析理念和业务为王
26. 每一个领域都值得用大模型再做一遍,
大模型会重新定义DataOps & DataFabric
26