滴普科技数据集成产品FastData DCT架构演进与实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. 滴普科技数据集成产品 FastData DCT架构演进与实践演讲人：刘波-滴普科技-FastData DataFacts PDT总经理 DataFunSummit # 2023

2. 目录 CONTENT 01 产品概述 02 功能介绍产品的整体介绍，是一款怎样的产品，如定位、价值主张等说明。模块化的功能说明，功能架构、功能模块与核心功能介绍。 05 03 技术架构演进 04 应用场景成功案例典型项目的应用场景与价值说明。技术架构的演进路线，先进性说明，及后续架构规划。应用场景的说明，结合核心功能进行全链路的介绍，重点在数据传输。

3. 01 产品概述 DataFunSummit # 2023

4. Data Fabric数据架构自2019年起，Gartner连续4年将数据编织（Data Fabric）列为年度数据和分析技术领域的十大趋势之一。 Gartner认为“Data Fabric是数据管理的未来”。 Data Fabric是一种数据架构思想，包含DataOps数据工程，其中通过AI、知识图谱等智能技术，实现主动元数据治理。

5. DCT简介 DCT（Data Collection Transform，简称DCT）支持关系型数据库、NoSQL、数据仓库(OLAP)、数据湖（Iceberg、Hudi）等数据源，可用于公有云之间、公有云与私有云之间的数据入湖入仓的结构迁移，存量数据同步和实时数据捕获同步。为企业实现数据流通，提供简单、安全和稳健的数据传输保障。聚焦入湖入仓，出湖出仓场景，支持多引擎配置（ PSC ， Flink ， Spark ），支持批流一体，任务传输支持故障转移。致力于提供复杂网络环境下，丰富的异构数据源之间高速稳定的数据传输能力，以及繁杂的业务背景下的数据同步方案。 DCT 1.0 DCT 2.0 配置化可视化 DCT 3.0 组件化 DCT 4.0 批流一体

6. 产品定位：PB级数据量下高效、稳定的数据传输高速公路 DCT产品是集数据迁移、数据集成、数据实时同步于一体的数据采集传输服务，解决远距离、毫秒级异步数据传输难题。为企业实现数据流通提供组件化、高可靠的数据采集服务。源端目标端 MySQL Oracle Hive DLink SQL Server Postgre SQL 任务配置 Kafka Doris OceanBase DM Iceberg Hudi StarRocks 数据集成组件管理读取写入系统配置（数据源、引擎配置）实时采集 Oracle Hive DLink SQL Server 运维管理离线采集 MySQL 批流一体 Kafka Postgre SQL Doris OceanBase DM Iceberg Hudi StarRocks

7. 产品价值异构数据源的实时融合支持 Oracle、MySQL、Iceberg、Kafka等实时增量数据捕获，基于异构语义映射实现异构数据实时融合，帮助用户提升数据流转时效性，提高数据融合、数据应用效率。整库入湖入仓，出湖出仓支持MySQL、Oracle等数据源入湖入仓，出湖出仓。快速构建湖仓内数据，打通数据孤岛，实现数据的统一管理和高效利用；为数据开发工程师和数据分析人员可以快速建立数据模型、构建应用提供数据来源。降本增效 1)降本：多种架构简化场景，简化软件架构设计，降低异构数据融合成本。通过拖拉拽实现同步链路的创建，低代码，降低学习和维护成本。 2)增效：无代码任务构建，提升数据集成敏捷性。支持组件自定义，提升客户业务创新效率。分布式引擎、组件级高可用保障，实时链路稳定高容错。

8. 产品优势高性能多源异构采集批流一体采集高可靠、高时效支持关系型数据库、NoSQL、 OLAP、数据湖等多种同构、异构数据源之间的结构迁移、离线同步和实时同步。使用同一套开发范式来实现大数据的流计算和批计算，进而保证处理过程与结果的一致性。降低批流采集任务配置复杂度，一次配置，程序自动进行批和流的数据采集。 CDC机制，日志级监听，时效性有保障；支持断点续传、故障转移，保证数据传输的可靠性。组件插拔式低成本、高效率云原生架构组件插拔式管理，可自定义组件扩展，支持拖拉拽任务配置，低代码，易学易维护。单进程任务，最低1G内存，成本降到最低，支持并行度设置，有效地提高传输效率。无需调整现有架构，强兼容；基于日志，对源业务无侵入无影响，保证原业务库稳定运行。

9. 02 功能介绍 DataFunSummit # 2023

10. 产品功能架构图业务应用监控告警数据传输 BI分析/实时大屏湖仓一体实时数仓故障转移监控大屏转移次数任务状态行数对比字符对比超时任务检查频率同步趋势时延校验数值明细启动状态超时时间资源消耗数据质量数值汇总对比任务类型采集模式组件配置离线同步一对一读取组件批流一体基础服务消息中心运行状态数据安全字段映射分键策略分类分级前置检测调度配置分区策略自动标注版本管理导入导出分桶策略加密解密实例管理操作记录参数配置静态脱敏断点续传 DDL变更转换组件整库映射一对多写入组件大批量映射资源管理任务管理权限管理成员管理项目配置数据源/逻辑组 Webhook 结构迁移多对一项目空间短信/电话/邮件映射规则批量映射实时同步通知渠道告警规则组件管理 DLink/EMR/MRS/CDH/CDP/ ... 系统管理

11. 产品核心功能 1.资源管理支持界面配置多种计算&调度&存储资源类型。资源管理 2.数据源管理支持界面配置多种类型数据源，测试连通性。 3.组件管理将ETL能力抽象为“组件”，支持界面管理读取、转换、写入组件。数据源管理 4.任务配置支持按项目空间&目录进行任务管理。（1）离线数据采集：支持根据源表生成目标表建表SQL等，快速创建目组件管理标表，支持按时间周期自动调度全量/增量数据采集。（2）实时数据采集：支持通过订阅数据源Binlog等方式，无侵入实现实时增量数据采集。（3）批流一体数据入湖：支持通过一个任务实现批流一体数据入Iceberg 任务配置等数据湖。 5.运维监控（1）实例日志：支持根据日志层级，分类查看日志信息，快速定位问题；（2）监控告警：支持钉钉、邮箱、短信、电话等多种告警方式；（3）数据质量：支持界面查看抽取总数、写入总数、运行时长等指标进行数据质量管理。运维监控

12. 多引擎调度支持DCT On Local、DCT On Yarn、Spark on Yarn 、DLink不同的资源调度引擎，用于不同的场景，如Yarn 资源调度，满足湖仓一体、批流一体等。自研PSC调度引擎实现本地资源调度，资源消耗低。基于Yarn资源调度，通过队列隔离资源。基于Spark引擎，任务运行在Yarn 里，高效稳定。基于DLink，任务运行在Yarn 或者K8S里，适用于批流一体入湖场景。

13. 扩展性-自定义组件 DCT统一了数据格式标准和组件开发规范，支持根据需求进行自定义组件开发，开发完成后可以在页面上的组件管理界面，导入自定义的组件即可使用。

14. 构建任务-组件化配置、零代码开发全图形化的拖拽方式，设计各种读取、转换、写入过程。读取组件转换组件写入组件

15. 离线同步(全量&增量) 全量：指源表中所有数据都传输。全量同步增量：全量同步过程中或同步完成之后，源库产生的增量数据，支持通过自定义SQL引用变量获取。增量同步 epdx.ep_kv::select id ,code ,value_str ,value_num from epdx.old_ep_kv where etl_time>${bizdate };

16. 实时同步采用基于日志的增量数据秒级获取技术（CDC），为数据仓库、大数据平台提供实时、准确的数据变化，从而使得客户可以根据最新的数据进行运营管理与决策制定。 • • • MySQL，通过Binlog方式获取准确的数据，支持5.x及以上多版本，支持只读库权限的同步；支持断点续传。 PostgreSQL，支持逻辑流复制，通过 wal2json解析日志获取准确的数据；支持断点续传。 MySQL Binlog PostgreSQL wal2json Oracle，支持LogMiner读取数据库日志获取准确的数据；支持断点续传。 Oracle LogMiner

17. 批流一体使用同一套开发范式来实现大数据的流计算和批计算，进而保证处理过程与结果的一致性。降低批流采集任务配置复杂度，一次配置，程序自动进行批和流的数据采集，便于任务管理；批流自动切换，消耗资源降低。 Flink CDC配置批流资源配置

18. 丰富的监控运维支持实例级的输入、输出条数记录，平台级/项目级任务状态监控、同步数据趋势监控、资源消耗监控。可视化监控系统能够以直观的方式呈现监控画面，使得监控过程更加立体、全面，帮助监控人员更加清晰地了解监控场景，从而及时发现异常情况。实例监控业务监控

19. 智能调度新一代分布式任务调度平台，提供定时、任务编排、分布式跑批等功能，具有高可靠、海量任务、秒级调度及可运维等能力。工作流调度通过可视化的工作流进行任务编排，支持 Cron 表达式和 API 。 01 02 资源调度实时查看 CPU 、内存、 I/O 等资源使用情况；设定任务优先级，智能分配资源。智能调度任务监控可视化运维大屏，实时监控任务状态、任务执行结果；设定重跑机制，支持原地重跑。分布式跑批 04 03 通过数据分片，将同一个任务拆分到不同的节点运行，实现分布式数据传输，提高传输效率。

20. 断点续传基于WAL架构，通过定期保存CKP，出现断网情况，当网络恢复，可基于断网的定期保存检查点，实现断点续传，保证数据传输的稳定性。磁盘存储Redo日志缓存通道定期保存检查点当出现故障，数据传输中断，可基于CKP，快速恢复传输任务的数据，高效解决数据质量问题。说明：需数据源支持断点续传机制。基于磁盘存储检查点缓存磁盘存储提交日志提交日志所有操作记日录志保存在快速恢复

21. 03 技术架构演进 DataFunSummit # 2023

22. DCT 1.0技术架构 DCT 1.0核心功能 ⚫ 支持离线和实时数据同步； ⚫ 读写组件插件化； ⚫ 命令行的方式，单进程运行； ⚫ 支持MySQL、Oracle、SQLServer、Kafka、Hive等数据源。

23. DCT 2.0技术架构 DCT 2.0架构先进性 ⚫ 任务创建和配置支持界面化操作，以拖拉拽的方式进行任务开发； ⚫ 支持数据源管理、读写组件和转换组件的上传与下载； ⚫ 支持多任务并行运行。

24. DCT 3.0技术架构

25. DCT 3.0架构介绍 Manger管理端 ● 控制创建任务以及启动停止； ● 实时监控MasterNode是否在线。 MasterNode主节点负责WorkNode注册上线，监控，状态维护；对提交的任务进行节点分配，任务下发，状态监控。 WorkNode工作节点 ● 负责MasterNode上报所在服务器节点的资源相关信息，接收来自MasterNode下发的任务； ● 负责PSC启动，监控上报，结束、异常处理等整个完整生命周期。 PSC（Programmable Scheduled Container）可编程调度容器 ● 执行数据同步任务的最小管理单元，包含读取、转换、写入组件，共同组成一个同步任务；由WorkNode负责管理整个任务的生命周期。 DCT 3.0架构先进性 ⚫ 支持分布式部署，Manager节点和WorkNode节点实现了无状态化，能够独立的横向扩展，支持高可用和弹性扩缩容； ⚫ 实时查看CPU、内存、I/O等资源使用情况； ⚫ 设定任务优先级，智能分配资源； ⚫ 优化PSC，使得能快速地支持自定义组件扩展。

26. DCT 4.0技术架构

27. DCT 4.0架构先进性 ➢ 优化掉了调度单点瓶颈的MasterNode节点，降低系统复杂度，提升了系统的可靠性； ➢ 自主研发基于Manager结合PSC作为资源调度引擎，实现任务分片调度； ➢ WorkNode节点与PSC任务支持故障转移，使得系统具有更优的稳定性； ➢ DCT支持多种资源调度模式，能和大数据集群共享调度资源，降低硬件成本。 ⚫ DCT-on-Local模式：Local模式支持以工作节点作为任务运行的资源，不需要依赖外部资源； ⚫ DCT-on-Yarn模式：支持在Yarn集群运行； ⚫ DCT-on-Spark模式：使用Spark引擎，以Yarn作为资源调度运行任务； ⚫ DCT-on-DLink模式：使用DLink湖仓引擎，以Yarn或K8S作为资源调度运行任务。

28. 04 应用场景 DataFunSummit # 2023

29. 场景 | 整库入湖四步，即可完成从基础配置到实例运维的全将业务库MySQL中的数据入湖，快速构建湖仓一体。仅需简单的流程闭环。配置数据源配置资源新建入湖任务实例运维 • 连接信息 • 资源参数 • 组件配置 • 实例监控 • 授权项目 • 运维文件 • 映射配置 • 配置查看

30. 场景 | 整库入湖-配置数据源 • 新建MySQL数据源作为采集源端，配置配置数据源配置资源新建入湖任务实例运维连接信息与用户信息。 • 数据源连通性对网络连通性、数据库连接、数据库权限进行验证，通过授权指定项目空间。

31. 场景 | 整库入湖-配置资源配置数据源配置资源新建入湖任务实例运维 • 选择DLink资源作为采集的资源调度引擎。 • 湖内Catalog信息获取，作为目标端。 • 运维文件上传（ CDC jar上传）

32. 场景 | 整库入湖-新建入湖任务配置数据源配置资源新建入湖任务实例运维 • 选择读取组件 MySQL作为采集源端，写入组件 Iceberg_DLink作为目标端。 • 配置任务基础信息，例如：Flink重启策略配置、 Checkpoint、并行度、日志存储等。 • 分别配置批资源、流资源，实例运行自动切换。 • 可根据源表结构，自动生成目标表结构，支持预览、编辑、批量创建。 • 前置检测通过后，启动任务。

33. 场景 | 整库入湖-实例运维配置数据源配置资源新建入湖任务实例运维 • 支持查看实例状态、同步数量、异常记录等。 • 通过查看实例配置，二次检验是否符合同步配置。

34. 05 成功案例 DataFunSummit # 2023

35. 某能源企业：集成滴普实时湖仓，油田数据服务时效性大幅提升解决方案客户背景某能源公司是以油气业务、工程技术服务、石油工程建设、石油装备制造等为主营业务的综合性国际能源公司，是中国主要的油气生产商和供应商之一。勘探开发平台是国内油气行业首个智能云平台，八大油气数据应用场景油气勘探油气开发协同研究生产运行经营决策安全环保工程技术油气销售其依托数据湖和PaaS技术实现勘探开发生产管理、协同研究、经营实时数据服务管理及决策的一体化运营，支撑勘探开发业务的数字化、自动化、集团主数据湖与16家油田区域湖组成中国最大油气行业数据湖，数据覆盖50万+口井，4万多站库，8000+工区，5PB数据可视化、智能化转型发展。客户需求：滴普服务：由离线数仓升级为新一代实时湖仓 ① ② 集团主数据湖区域湖（A油田）提升油田勘探开发数据的服务时效统一数据集成工具：滴普DCT提性，原有数据需要T+1才能从数据供统一的多源异构数据库实时同源端到达数据服务端。步+离线同步工具，支持结构化全量油田数据入湖，油田边缘计算数据、半结构化数据实时汇聚。设备的时序数据需要实时上传入湖，实时湖仓架构升级：滴普DLink 原有离线数仓不支持数据快速去重实时湖仓引擎集成到勘探开发云能力，导致时序入湖性能达不到要平台，提供数据实时计算、联邦求。查询等高级特性。流式计算共享交换区域湖调度引擎联邦查询共享交换滴普实时湖仓引擎DLink （B油田）勘探开发云平台滴普数据集成DCT 油田11大类数据源，通过边缘计算设备计算并上传地震钻井测井化验油藏生产作业 ·······

36. 勘探开发云平台：勘探开发云平台新架构图例现有系统/模块新增系统/模块数据链路数据源实时湖仓 A1 勘探与生产技术联邦查询批量入湖 A11 油气生产物联网数据集成 Flink 计算集群 Trino任务全量同步实时计算贴源 ODS 治理 EPDM 离线分析 Iceberg 主数据 DS离线调度（数据总线 Flink CDC 入湖 Trino分析引擎共享 EPDM-X A8 勘探与生产调度指挥 A5 采油与地面工程运行数仓模 afk A2 油气水井生产）统一数据服务接口 API 应用服务

37. 成果：异构多模数据通过统一数据采集架构入湖，优化运维成本数据源数据湖 PG … DC Oracle 集群 Mongo … 实时湖仓集群边缘设备 OpenTSDB时序数据库滴普数据集成组件DCT支持异构多模数据的同步/ 离线接入，作为统一数据入湖工具，降低数据集成过程的复杂度。集群架构进一步提升容错性。离线同步 Oracle PG … Mongo … 边缘设备实时同步 X 单独链路 QDS Datapipeline 离线数仓没有工具支持 Kafka X OpenTSDB时序数据库离线+实时数据插件30+种，且不断增加中

38. 成果：数据入湖、湖仓内模型处理速度大幅提升，时效升级为T+0 数据湖 Oracle 流批贴源层治理层应用层资产层流批生产环境日志表日数据量峰值2亿条，按照2/8原则9200条/秒。实测入湖速度峰值到2.5万条/秒。 ClickH ouse 流式任务实时处理从原批量导入+定时任务跑批架构升级为实时采集 +实时计算的架构，数据时效从T+1升级为T+0。 Oracle 离线跑批贴源层治理层定时调度资产层离线跑批 ClickH ouse 数据湖数据入服务数据库ClickHouse， 1100条/秒（北京-克拉玛依，跨机房）

39. 某零售企业：构建围绕“货”“店”数据智能运营体系项目背景及目标数据资产构建与业务价值某大型时尚及运动产业集团，涵盖鞋类、运动和服饰3大业务，旗下拥有20多个品牌，是Nike、Adidas等国际运动品牌在华关键零售伙 85 940 64 基础商品标签数据字典/指标基础渠道标签伴，在中国300多个城市拥有自营门店近20,000家。 DIC： • 希望建设自上而下商品管理策略，进行全流程商品数字化管理，及时呈现品牌运营状态需求2：实现数据标准化 • 希望基于标准岗位构建商品跟踪和分析体系，实现数据应用标准化、移动化需求3：实现运营智能化 • 希望实现商品订铺补迭调智能化，提升商品运营管理效率建设实施 • 数字化转型咨询：就业务概念中的核心角色、价值逻辑、联动关系、业务元素等进行梳理和可视化呈现，帮助在共建团队之间达成三个核心目标：1、统一思想，建立共识 2、指导数字化工作开展 3、业务可持续演进 • 滚动销量预测，精准率 90% ✓ 自主决策，智能运营 • 门店商品主推智能播报，效率提升 30% • 业务核心链路上，不再完全依赖于人力自主决策与执行 ✓ 底层数据平台升级统一硬件资源年维护成本（年） FastData： 25% • 搭建企业数据资产管理平台，建立指标体系、标签体系、模型算法，实现数据赋能业务 ✓ 全域数据实时分析核心大数据组件升级，实现数据 T+0 实时分析查询 Hive Spark 1、咨询设计 2、数据基础能力建设 3、数据资产应用算法模型注：全量标签数 = 基础标签数 * SKU数 ✓ 高精准销量预测模型需求1：业务全链路数字化 30+ 升级前升级后 2.5PB数据量，500GB/每天新增，查询性能提升 30% 离线计算 Flink

40. 某零售企业：基于FastData湖仓一体架构优化成本，性能和效率数据解决方案业务价值场景 DIC咨询设计全域数据源商品八大业务场景内部数据经营计划商品企划统计服务采购管理货品首铺补货迭代调拨调价下沉降解分析服务预警服务单品销售预测模型商品相似度模型商品畅滞销模型库存分析模型尺码拆分模型商品等级模型门店等级模型店货匹配模型识别服务 OTB 决策服务标签体系商品体系渠道体系门店体系数据集成指标体系商品域零售域交易域业务库 FastData 数据资产管理运营平台系统数据门店视频/IoT 外部数据模型 ✓ 预测工具财务域一站式数据治理和数据服务平台 FastData 数据平台基础底座流批一体数据分析引擎电商平台/舆情私有云 + 公有云天气/高德等 PB级数据存储云原生架构 ✓ 指标和标签赋能百丽补货平台升级

41. 某零售企业：数据中台联合共创，全面提升业务效率问题：客户多个业务系统，多种数据库类型；底层需接入多个组件实现数据离线、实时同步，技术复杂度高，稳定性差，采购多套商业软件，费用高，资源消耗大。价值：统一数据入湖工具，降低数据集成过程的复杂度，减少维护成本，资源使用大幅减少。集群架构，高可用，支持故障转移，进一步提升容错性，提高可靠性。数据入湖速度、湖仓内模型处理速度大幅提升，数据服务时效从 T+1升级为T+0。运行情况： 1.DCT任务2000+，并发任务500+，平日数据量约为1亿+；峰值3万条/秒； 2.DCT生产环境运行2年，运行稳定，无数据丢失； 2.DCT扛住618、双11、双12的压力（数据量为平日3-5倍），无崩溃，无数据丢失，数据延迟<2秒； 3.DCT实时同步速率约80MB/s，日最高承受数据量达20TB。

42. 感谢观看