大模型时代下的DataOps和DataFabric

如果无法正常显示，请先停止浏览器的去广告插件。

1. 大模型时代下的DataOps和DataFabric 白鲸开源 CEO Apache Software Foundation Member 郭炜

2. 郭炜白鲸开源 CEO Apache 基金会成员, Apache 孵化器导师 Apache DolphinScheduler PMC， Apache SeaTunnel 导师， ClickHouse 华人社区创始人郭炜先生毕业于北京大学，现任中国通信学会开源技术委员会委员，中国计算协会开源发展委员会委员，中国软件行业协会智能应用服务分会副主任委员，全球中小企业创业联合会副会长，TGO鲲鹏会北京分会会长， ApacheCon Asia DataOps论坛主席，波兰DataOps峰会、北美Big Data Day演讲嘉宾，虎啸十年杰出数字技术人物，中国开源社区最佳33人，中国2021年开源杰出人物郭炜先生现任白鲸开源CEO，曾任易观CTO，联想研究院大数据总监，万达电商数据部总经理，先后在中金、IBM、Teradata任大数据方重要职位，对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作， Presto, Alluxio,Hbase等，是国内开源社区领军人物。

4. 现代程序员编程模式 4

5. 大模型已经在产研各个领域产生作用大模型辅助已经在开发整体流程中产生了更大的变化作用，熟练大模型的开发者可以“以一当十”。需求设计产品文档撰写 UI 研发产品宣讲 Marketing 客服 Emailmagic AI wir k MidJourney OpenArt WhaleGPT 选自郭大侠《AIGC产研工具全景图》 5

6. 何时用人何时用大模型编程？优点人 Co-Pilot ChatGPT 私有化AIGC 缺点逻辑复杂缜密，可以写代码效率低完成比较复杂的开发成本高任务场景复杂业务逻辑，核心引擎整合在开发工具中，准确率不高，生成代辅助编程，复用代码码段比较短，逻辑简快速复用/书写类似代码单可以编写较复杂的业需要code-review，有类似场景代码，自务代码，特别是有类错误隐藏的更深，缺动生成新场景代码似案例的情况下乏创造性数据更安全，更懂你准确率和模型正相关， Txt2SQL，运维脚本的业务目前在70%左右 6

7. 大模型编程示例——Apache SeaTunnel 让大模型帮助你对接各种复杂SaaS而不需要重新开发：《SeaTunnel 2.3.1 重磅发布！AI compatible 特性引发关注》 ▪ SeaTunnel发布AI Compatible版本2.3.1，为ChatGPT重构适合AI开发的程序接口和程序架构，可以让GPT自动生成对接SaaS的接口，生成代码可以直接运行，与人类开发代码99%相似，开发接口速度从80小时变为1小时 ▪ SeaTunnel利用开源代码+SaaS开放接口+GPT强大优势碾压Airbyte/FiveTran数百SaaS接口优势 ▪ 挑战：Code-Review 给出参考和要求可自动生成接口且生成代码可直接运行 7

8. 大模型让更专业的人做专业的事情，体力活交由大模型来做 Apache SeaTunnel Zeta核心，全职人编写，社区辅助启动Connector 全职人员编写外部数据Connector 社区贡献 SaaS Connector GPT Coder 8

10. DataOps x 大模型让大模型可以进入千家万户企业使用大模型存在门槛： • • • • 从0构建大模型专业人才？训练过程复杂 GPU资源？数据供给？重新训练模型微调开源模型高门槛重新训练模型微调开源模型多模态 Prompting 多模态 Prompting 动态动态 Prompting Prompting Zero-shot Zero-shot Prompting Prompting Few-shot Few-shot Prompting Prompting Prompting 工程个人、小型企业/团队用SaaS 微调现有模型微调现有模型 Langchain 适配/微调中型企业/团队使用模型重新构建低门槛超大型企业/团队自建模型 10

11. 私有化大模型距离我们有多远？——一杯星巴克的距离利用开源大模型DataOps生态，降低大模型FineTune门槛 11

12. 利用开源DataOps生态，快速训练自己的私有化模型 Chat with Internet GPT 原创大模型训练互联网数据 SeaTunnel WhaleGPT ChatLLM Chat with your Data 企业数据训练的私有化大模型帮助开源大模型，利用大模型模板，快速提高模型迭代效率连接企业内部数据支持150+种数据源 12

13. 举例：专业私有化大模型如何训练？以WhaleLLM模型为例：基础数据知识 A100*4 基础元数据大模型企业专有模型根据大量不同领域数据库Schema构建数据利用通用领域元数据数据训练模型领域专有模型企业大模型模型利用专属数据训练模型特定业务+技术数据数据 V100 4090*4 特定数据库Schema构建数据特定企业业务领域知识企业历史SQL数据构建增强数据开源模型 13

14.

15. 数据驱动和快速业务迭代给数据管理提出了更多的挑战，DataFabric提上日程新兴数据源与快速敏捷开发过程给数据治理/管理部门提出更多的挑战：敏捷开发让应用/交易数据快速扩张，数据管理部门无法快速处理和及时响应，传统的数据治理流程产生巨大挑战新兴数据源，多云、混合云、SaaS模块变化 “暗数据”越来越多，数据孤岛越来越多， 68%数据没有被分析，82%企业出现数据孤岛。业务部门数据驱动理念深入，多个数据集市分别单独管理，数据指标爆炸增长，数据治理工作量越做越多，范围却越管越少庞大的数据体系让数据越来越难找，数据范围已经从DataOps扩大到DevOps流程。，分析师80%时间都在找数据和验证数据 15

16. DataFabric是什么？ Data Fabric是以一种智能和安全的并且是自服务的方式，动态地协调分布式的数据源，跨数据平台地提供集成和可信赖的数据，支持广泛的不同应用的分析和使用场景。其专注于对数据集成、转换、准备、策展、安全、治理和编排的自动化，从而实现了快速的数据分析和洞察，帮助业务获得成功 ——Forrester Data Fabric是一种新兴的数据管理设计理念，可实现跨异构数据源的增强数据集成和共享，通过对现有的、可发现和可推断的元数据资产进行持续分析，来支持数据系统跨平台的设计、部署和使用，从而实现灵活的数据交付。通过散落各处的数据孤岛都能被统一发现和使用，并基于主动元数据进行建设和持续分析，认为数据编织的真正价值在于它能够通过内置的分析技术动态改进数据的使用，同时通过将自动化能力添加到整体数据管理中，使数据管理工作量减少 70% 并加快价值实现速度。 ——Gartner Data Fabric是一套新兴的数据管理自服务方式，通过智能化手段对企业的整体数据资源、元数据、业务规则等实现自发现、自分类、自关联，并提供手段可以快速异构同步/查询的方式快速完成数据获取和分析，从而实现企业数据资产全覆盖和高效的数据洞察。 ——郭大侠 16

17. 大模型的出现让DataFabric成为了可能根据Gartner给出的DataFabric成熟度图形，大模型正好解决了传统知识图谱的技术短板。 • 传统元数据，只有技术元数据 • 业务元数据获取方式大部分采取人工方式（不自动化） • 知识图谱，传统用户画像过时 • 大模型可以阅读文档，训练给出业务理解，还可以增强SQL • 数据目录型态，从树状，变为网状，大模型对话形式细化搜索 • 数据虚拟化，何时自动迁移，何时查询？如何不影响OLTP环境？ • 需要多种快速了解全部元数据 • DataOps是基础（代码，需求，测试，ETL，数据质量，链路血缘） +数据源定义、数据库技术元数据 17

18. 大模型在自然语言和知识库体系出现了颠覆式创新学生分数在哪张表里？学生分数在哪张表里？ “学生” “分数” “在” “哪张表” 向量化主语介词宾语 [0.001767348474591444, -0.016549955833298362, 0.009669921232251705, -0.024465152668289573, -0.04928377577655549, ...] 语义：“学生分数” - 表关系知识库查询（图数据库）向量数据库大模型结果排序：学生分数 Enrollments 表学生分数字段名 Student Score … 学生分数信息存储在Enrollments里 18

19. 大模型技术重构了DataFabric技术框架 Data Goverance& Standard Data Delivery Knowledge Engine Connected Data Catalog Data Sources within a Knowledge Graph Enrichment & Connection of Metadata IBM DataFabric 技术框架 Data Goverance& Standard Data Mesh LLM Data Catalog Vector Data Sources In Vector DB Enrichment & Connection of Metadata 大模型体系下的DataFabric技术框架 19

20. 大模型驱动企业DataFabric，高效连接事务和分析数据实现自主分析应用开发 OLTP 测试部署业务知识数据信息数据治理数据开发 OLAP 开发 Dev Ops 数据测试 ETL开发大模型 X Data Fabric 新需求运维数据湖跨云存储数据查询 Data Ops 新需求可观测 20

21. 现阶段大模型能做到什么程度？ 21

22.

23. 超级个体的涌现

24. 数据研发迭代速度从周到天到小时

25. 分析理念和业务为王

26. 每一个领域都值得用大模型再做一遍，大模型会重新定义DataOps & DataFabric 26