滴普科技数据集成产品FastData DCT架构演进与实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 滴普科技数据集成产品
FastData DCT架构演进与实践
演讲人:刘波-滴普科技-FastData DataFacts PDT总经理
DataFunSummit # 2023
2. 目录
CONTENT
01 产品概述
02 功能介绍
产品的整体介绍,是一款怎样的产品,如定
位、价值主张等说明。
模块化的功能说明,功能架构、功能模块与
核心功能介绍。
05
03 技术架构演进
04 应用场景
成功案例
典型项目的应用场景与价值说明。
技术架构的演进路线,先进性说明,及后续
架构规划。
应用场景的说明,结合核心功能进行全链路
的介绍,重点在数据传输。
3. 01
产品概述
DataFunSummit # 2023
4. Data Fabric数据架构
自2019年起,Gartner连续4年将数据
编织(Data Fabric)列为年度数据和
分析技术领域的十大趋势之一。
Gartner认为“Data Fabric是数据管理
的未来”。
Data Fabric是一种数据架构思想,包
含DataOps数据工程,其中通过AI、
知识图谱等智能技术,实现主动元数据
治理。
5. DCT简介
DCT(Data Collection Transform,简称DCT)支持关系型数据库、NoSQL、数据仓库(OLAP)、数据湖
(Iceberg、Hudi)等数据源,可用于公有云之间、公有云与私有云之间的数据入湖入仓的结构迁移,存量数
据同步和实时数据捕获同步。为企业实现数据流通,提供简单、安全和稳健的数据传输保障。
聚焦 入湖入仓,出湖出仓 场景,支持多引
擎配置( PSC , Flink , Spark ),支持批
流一体,任务传输支持故障转移。
致力于提供复杂网络环境下,丰富的异构数
据源之间高速稳定的数据传输能力,以及繁
杂的业务背景下的数据同步方案。
DCT 1.0 DCT 2.0
配置化 可视化
DCT 3.0
组件化
DCT 4.0
批流一体
6. 产品定位:PB级数据量下高效、稳定的数据传输高速公路
DCT产品是集数据迁移、数据集成、数据实时同步于一体的数据采集传输服务,解决远距离、毫秒级异步数
据传输难题。为企业实现数据流通提供组件化、高可靠的数据采集服务。
源端
目标端
MySQL Oracle
Hive DLink
SQL Server
Postgre SQL
任务配置
Kafka
Doris
OceanBase DM
Iceberg Hudi
StarRocks
数据集成
组件管理
读取
写入
系统配置(数据源、引擎配置)
实时采集
Oracle
Hive DLink
SQL Server
运维管理
离线采集
MySQL
批流一体
Kafka
Postgre SQL Doris
OceanBase DM
Iceberg Hudi
StarRocks
7. 产品价值
异构数据源的实时融合
支持 Oracle、MySQL、Iceberg、Kafka等实时增量数据捕获,基于异构语义映射实现异构数据实
时融合,帮助用户提升数据流转时效性,提高数据融合、数据应用效率。
整库入湖入仓,出湖出仓
支持MySQL、Oracle等数据源 入湖入仓,出湖出仓 。快速构建湖仓内数据,打通数据孤
岛,实现数据的统一管理和高效利用;为数据开发工程师和数据分析人员可以快速建立数据模型、
构建应用提供数据来源。
降本增效
1)降本:多种架构简化场景,简化软件架构设计,降低异构数据融合成本。通过拖拉拽实现同步链
路的创建,低代码,降低学习和维护成本。
2)增效:无代码任务构建,提升数据集成敏捷性。支持组件自定义,提升客户业务创新效率。分布
式引擎、组件级高可用保障,实时链路稳定高容错。
8. 产品优势
高性能多源异构采集
批流一体采集
高可靠、高时效
支持关系型数据库、NoSQL、
OLAP、数据湖等多种同构、
异构数据源之间的结构迁移、
离线同步和实时同步。 使用同一套开发范式来实现大
数据的流计算和批计算,进而
保证处理过程与结果的一致性。
降低批流采集任务配置复杂度,
一次配置,程序自动进行批和
流的数据采集。 CDC机制,日志级监听,时效
性有保障;支持断点续传、故
障转移,保证数据传输的可靠
性。
组件插拔式 低成本、高效率 云原生架构
组件插拔式管理,可自定义组
件扩展,支持拖拉拽任务配置,
低代码,易学易维护。
单进程任务,最低1G内存,
成本降到最低,支持并行度设
置,有效地提高传输效率。
无需调整现有架构,强兼容;
基于日志,对源业务无侵入无
影响,保证原业务库稳定运行。
9. 02
功能介绍
DataFunSummit # 2023
10. 产品功能架构图
业务应用
监控告警
数据传输
BI分析/实时大屏
湖仓一体
实时数仓
故障转移 监控大屏 转移次数 任务状态 行数对比 字符对比 超时任务
检查频率 同步趋势 时延校验 数值明细 启动状态
超时时间 资源消耗
数据质量
数值汇总对比
任务类型 采集模式 组件配置
离线同步 一对一 读取组件
批流一体
基础服务
消息中心
运行状态
数据安全 字段映射 分键策略 分类分级 前置检测 调度配置
分区策略 自动标注 版本管理 导入导出
分桶策略 加密解密 实例管理 操作记录
参数配置 静态脱敏 断点续传 DDL变更
转换组件 整库映射
一对多 写入组件 大批量映射
资源管理
任务管理
权限管理
成员管理
项目配置
数据源/逻辑组
Webhook
结构迁移 多对一
项目空间
短信/电话/邮件
映射规则
批量映射
实时同步
通知渠道
告警规则
组件管理
DLink/EMR/MRS/CDH/CDP/ ...
系统管理
11. 产品核心功能
1.资源管理
支持界面配置多种计算&调度&存储资源类型。
资源管理
2.数据源管理
支持界面配置多种类型数据源,测试连通性。
3.组件管理
将ETL能力抽象为“组件”,支持界面管理读取、转换、写入组件。
数据源管理
4.任务配置
支持按项目空间&目录进行任务管理。
(1)离线数据采集:支持根据源表生成目标表建表SQL等,快速创建目
组件管理
标表,支持按时间周期自动调度全量/增量数据采集。
(2)实时数据采集:支持通过订阅数据源Binlog等方式,无侵入实现实
时增量数据采集。
(3)批流一体数据入湖:支持通过一个任务实现批流一体数据入Iceberg
任务配置
等数据湖。
5.运维监控
(1)实例日志:支持根据日志层级,分类查看日志信息,快速定位问题;
(2)监控告警:支持钉钉、邮箱、短信、电话等多种告警方式;
(3)数据质量:支持界面查看抽取总数、写入总数、运行时长等指标进
行数据质量管理。
运维监控
12. 多引擎调度
支持DCT On Local、DCT On Yarn、Spark on Yarn 、DLink不同的资源调度引擎,用于不同的场景,如Yarn
资源调度,满足湖仓一体、批流一体等。
自研PSC调度引擎实现本地资源调度,资
源消耗低。
基于Yarn资源调度,通过队列隔离资源。
基于Spark引擎,任务运行在Yarn
里,高效稳定。
基于DLink,任务运行在Yarn
或者K8S里,适用于批流一体
入湖场景。
13. 扩展性-自定义组件
DCT统一了数据格式标准和组件开发规范,支持根据需求进行自定义组件开发,开发完成后可以在页面上的组件
管理界面,导入自定义的组件即可使用。
14. 构建任务-组件化配置、零代码开发
全图形化的拖拽方式,设计各种读取、转换、写入过程。
读取组件
转换组件
写入组件
15. 离线同步(全量&增量)
全量:指源表中所有数据都传输。
全量同步
增量:全量同步过程中或同步完成之后,源库产生的增量
数据,支持通过自定义SQL引用变量获取。
增量同步
epdx.ep_kv::select id ,code ,value_str ,value_num
from epdx.old_ep_kv where etl_time>${bizdate };
16. 实时同步
采用基于日志的增量数据秒级获取技术(CDC),为数据仓库、大数据平台提供实时、准确的数据变化,从而使得
客户可以根据最新的数据进行运营管理与决策制定。
•
•
•
MySQL,通过Binlog方式获取准确的数
据,支持5.x及以上多版本,支持只读库权
限的同步;支持断点续传。
PostgreSQL,支持逻辑流复制,通过
wal2json解析日志获取准确的数据;支持
断点续传。
MySQL Binlog
PostgreSQL wal2json
Oracle,支持LogMiner读取数据库日志
获取准确的数据;支持断点续传。
Oracle
LogMiner
17. 批流一体
使用同一套开发范式来实现大数据的流计算和批计算,进而保证处理过程与结果的一致性。降低批流采集任务配置
复杂度,一次配置,程序自动进行批和流的数据采集,便于任务管理;批流自动切换,消耗资源降低。
Flink CDC配置
批流资源配置
18. 丰富的监控运维
支持实例级的输入、输出条数记录,平台级/项目级任务状态监控、同步数据趋势监控、资源消耗监控。可视化监控
系统能够以直观的方式呈现监控画面,使得监控过程更加立体、全面,帮助监控人员更加清晰地了解监控场景,从而
及时发现异常情况。
实例监控
业务监控
19. 智能调度
新一代分布式任务调度平台,提供定时、任务编排、分布式跑批等功能,具有高可靠、海量任务、秒级调度及可运
维等能力。
工作流调度
通过可视化的工作流进行任务编排
,支持 Cron 表达式和 API 。
01
02
资源调度
实时查看 CPU 、内存、 I/O 等资源
使用情况;
设定任务优先级,智能分配资源。
智能调度
任务监控
可视化运维大屏,实时监控任务状
态、任务执行结果;
设定重跑机制,支持原地重跑。
分布式跑批
04
03
通过数据分片,将同一个任务拆分
到不同的节点运行,实现分布式数
据传输,提高传输效率。
20. 断点续传
基于WAL架构,通过定期保存CKP,出现断网情况,当网络恢复,可基于断网的定期保存检查点,实现断点续传,
保证数据传输的稳定性。
磁盘存储Redo日志
缓存通道
定
期
保
存
检
查
点
当出现故障,数据传输中断,可基于CKP,快速恢复传输任务的数据,高效解决数据质量问题。
说明:需数据源支持断点续传机制。
基
于
磁盘存储检查点
缓存
磁盘存储提交日志
提
交
日
志
所
有
操
作
记
日 录
志 保
存
在
快
速
恢
复
21. 03
技术架构演进
DataFunSummit # 2023
22. DCT 1.0技术架构
DCT 1.0核心功能
⚫ 支持离线和实时数据同步;
⚫ 读写组件插件化;
⚫ 命令行的方式,单进程运行;
⚫ 支持MySQL、Oracle、SQLServer、Kafka、Hive等数据源。
23. DCT 2.0技术架构
DCT 2.0架构先进性
⚫ 任务创建和配置支持界面化操作,以拖拉拽的方式进行任务开发;
⚫ 支持数据源管理、读写组件和转换组件的上传与下载;
⚫ 支持多任务并行运行。
24. DCT 3.0技术架构
25. DCT 3.0架构介绍
Manger管理端
● 控制创建任务以及启动停止;
● 实时监控MasterNode是否在线。
MasterNode主节点
负责WorkNode注册上线,监控,状态维护;对提交的任务进行节点分配,任务下发,状态监控。
WorkNode工作节点
● 负责MasterNode上报所在服务器节点的资源相关信息,接收来自MasterNode下发的任务;
● 负责PSC启动,监控上报,结束、异常处理等整个完整生命周期。
PSC(Programmable Scheduled Container)可编程调度容器
● 执行数据同步任务的最小管理单元,包含读取、转换、写入组件,共同组成一个同步任务;由WorkNode负责管理整个
任务的生命周期。
DCT 3.0架构先进性
⚫ 支持分布式部署,Manager节点和WorkNode节点实现了无状态化,能够独立的横向扩展,支持高可用和弹性扩缩容;
⚫ 实时查看CPU、内存、I/O等资源使用情况;
⚫ 设定任务优先级,智能分配资源;
⚫ 优化PSC,使得能快速地支持自定义组件扩展。
26. DCT 4.0技术架构
27. DCT 4.0架构先进性
➢ 优化掉了调度单点瓶颈的MasterNode节点,降低系统复杂度,提升了系统的可靠性;
➢ 自主研发基于Manager结合PSC作为资源调度引擎,实现任务分片调度;
➢ WorkNode节点与PSC任务支持故障转移,使得系统具有更优的稳定性;
➢ DCT支持多种资源调度模式,能和大数据集群共享调度资源,降低硬件成本。
⚫ DCT-on-Local模式:Local模式支持以工作节点作为任务运行的资源,不需要依赖外部资源;
⚫ DCT-on-Yarn模式:支持在Yarn集群运行;
⚫ DCT-on-Spark模式:使用Spark引擎,以Yarn作为资源调度运行任务;
⚫ DCT-on-DLink模式:使用DLink湖仓引擎,以Yarn或K8S作为资源调度运行任务。
28. 04
应用场景
DataFunSummit # 2023
29. 场景 | 整库入湖
四步, 即可完成从基础配置到实例运维的 全
将业务库MySQL中的数据入湖,快速构建湖仓一体。仅需简单的
流程闭环。
配置数据源
配置资源
新建入湖任务
实例运维
• 连接信息 • 资源参数 • 组件配置 • 实例监控
• 授权项目 • 运维文件 • 映射配置 • 配置查看
30. 场景 | 整库入湖-配置数据源
• 新建MySQL数据源
作为采集源端,配置
配置数据源
配置资源
新建入湖任务
实例运维
连接信息与用户信息。
• 数据源连通性对网络
连通性、数据库连接、
数据库权限进行验证,
通过授权指定项目空
间。
31. 场景 | 整库入湖-配置资源
配置数据源
配置资源
新建入湖任务
实例运维
• 选择DLink资源作为
采集的资源调度引擎
。
• 湖内Catalog信息获
取,作为目标端。
• 运维文件上传(
CDC jar上传)
32. 场景 | 整库入湖-新建入湖任务
配置数据源
配置资源
新建入湖任务
实例运维
• 选择读取组件
MySQL作为采集源
端,写入组件
Iceberg_DLink作为
目标端。
• 配置任务基础信息,
例如:Flink重启策
略配置、
Checkpoint、并行
度、日志存储等。
• 分别配置批资源、流
资源,实例运行自动
切换。
• 可根据源表结构,自
动生成目标表结构,
支持预览、编辑、批
量创建。
• 前置检测通过后,启
动任务。
33. 场景 | 整库入湖-实例运维
配置数据源
配置资源
新建入湖任务
实例运维
• 支持查看实例状态、
同步数量、异常记录
等。
• 通过查看实例配置,
二次检验是否符合同
步配置。
34. 05
成功案例
DataFunSummit # 2023
35. 某能源企业:集成滴普实时湖仓,油田数据服务时效性大幅提升
解决方案
客户背景
某能源公司是以油气业务、工程技术服务、石油工程建设、石油装
备制造等为主营业务的综合性国际能源公司,是中国主要的油气生
产商和供应商之一。勘探开发平台是国内油气行业首个智能云平台,
八大油气数据应用场景
油气
勘探
油气
开发
协同
研究
生产
运行
经营
决策
安全
环保
工程
技术
油气
销售
其依托数据湖和PaaS技术实现勘探开发生产管理、协同研究、经营 实时数据服务
管理及决策的一体化运营,支撑勘探开发业务的数字化、自动化、 集团主数据湖与16家油田区域湖组成中国最大油气行业数据湖,数据覆
盖50万+口井,4万多站库,8000+工区,5PB数据
可视化、智能化转型发展。
客户需求:
滴普服务:
由离线数仓升级为新一代实时湖仓
①
②
集团主数据湖
区域湖
(A油田)
提升油田勘探开发数据的服务时效 统一数据集成工具:滴普DCT提
性,原有数据需要T+1才能从数据 供统一的多源异构数据库实时同
源端到达数据服务端。 步+离线同步工具,支持结构化
全量油田数据入湖,油田边缘计算 数据、半结构化数据实时汇聚。
设备的时序数据需要实时上传入湖, 实时湖仓架构升级:滴普DLink
原有离线数仓不支持数据快速去重 实时湖仓引擎集成到勘探开发云
能力,导致时序入湖性能达不到要 平台,提供数据实时计算、联邦
求。 查询等高级特性。
流式计算
共享
交换
区域湖
调度引擎
联邦查询
共享
交换
滴普实时湖仓引擎DLink
(B油田)
勘探开发云平台
滴普数据
集成DCT
油田11大类数据源,通过边缘计算设备计算并上传
地震
钻井
测井
化验
油藏
生产
作业
·······
36. 勘探开发云平台:勘探开发云平台新架构
图
例
现有系统/模块
新增系统/模块
数据链路
数据源
实时湖仓
A1 勘探与
生产技术
联邦查询
批量入湖
A11 油气
生产物联网
数
据
集
成
Flink 计算集群
Trino任务全量
同步
实时计算
贴源
ODS
治理
EPDM
离线分析
Iceberg
主数据
DS离线调度
(
数
据
总
线
Flink
CDC
入湖
Trino分析引擎
共享
EPDM-X
A8 勘探与
生产调度指
挥
A5 采油与
地面工程运
行
数仓模
afk
A2 油气水
井生产
)
统一
数据
服务
接口
API
应
用
服
务
37. 成果:异构多模数据通过统一数据采集架构入湖,优化运维成本
数据源
数据湖
PG
…
DC
Oracle
集
群
Mongo
…
实时湖仓
集
群
边缘设备
OpenTSDB时序数据库
滴普数据集成组件DCT支持异构多模数据的同步/
离线接入,作为统一数据入湖工具,降低数据集
成过程的复杂度。集群架构进一步提升容错性。
离线同步
Oracle
PG
…
Mongo
…
边缘设备
实时同步
X
单独链路
QDS
Datapipeline
离线数仓
没有工具支持
Kafka
X
OpenTSDB时序数据库
离线+实时数据插件30+种,且不断增加
中
38. 成果:数据入湖、湖仓内模型处理速度大幅提升,时效升级为T+0
数据湖
Oracle
流批
贴
源
层
治
理
层
应用层
资
产
层
流批
生产环境日志表日数据量峰值2亿条,按
照2/8原则9200条/秒。实测入湖速度峰
值到2.5万条/秒。
ClickH
ouse
流式任务实时处理
从原批量导入+定时任务跑批架构升级为实时采集
+实时计算的架构,数据时效从T+1升级为T+0。
Oracle
离线
跑批
贴
源
层
治
理
层
定时调度
资
产
层
离线
跑批
ClickH
ouse
数据湖数据入服务数据库ClickHouse,
1100条/秒(北京-克拉玛依,跨机房)
39. 某零售企业:构建围绕“货”“店”数据智能运营体系
项目背景及目标
数据资产构建与业务价值
某大型时尚及运动产业集团,涵盖鞋类、运动和服饰3大业务,旗下
拥有20多个品牌,是Nike、Adidas等国际运动品牌在华关键零售伙
85
940
64
基础商品标签
数据字典/指标
基础渠道标签
伴,在中国300多个城市拥有自营门店近20,000家。
DIC:
• 希望建设自上而下商品管理策略,
进行全流程商品数字化管理,及时
呈现品牌运营状态
需求2:实现数据标准化
• 希望基于标准岗位构建商品跟踪和
分析体系,实现数据应用标准化、
移动化
需求3:实现运营智能化
• 希望实现商品订铺补迭调智能化,
提升商品运营管理效率
建
设
实
施
• 数字化转型咨询:就业务概念中
的核心角色、价值逻辑、联动关
系、业务元素等进行梳理和可视
化呈现,帮助在共建团队之间达
成三个核心目标:1、统一思想,
建立共识 2、指导数字化工作开
展 3、业务可持续演进
• 滚动销量预测,精准率 90%
✓ 自主决策,智能运营
• 门店商品主推智能播报,效率提升 30%
• 业务核心链路上,不再完全依赖于人力自
主决策与执行
✓ 底层数据平台升级统一
硬件资源年维护成本(年)
FastData:
25%
• 搭建企业数据资产管理平台,建
立指标体系、标签体系、模型算
法,实现数据赋能业务
✓ 全域数据实时分析
核心大数据组件升级,实现数据
T+0 实时分析查询
Hive
Spark
1、咨询设计
2、数据基础能力建设
3、数据资产应用
算法模型
注:全量标签数 = 基础标签数 * SKU数
✓ 高精准销量预测模型
需求1:业务全链路数字化
30+
升级前
升级后
2.5PB数据量,500GB/每天新
增,查询性能提升 30%
离线计算
Flink
40. 某零售企业:基于FastData湖仓一体架构优化成本,性能和效率
数据解决方案
业务价值场景
DIC咨询设计
全域数据源
商品八大
业务场景
内部数据
经营
计划
商品
企划
统计服务
采购
管理
货品
首铺
补货
迭代
调拨
调价
下沉
降解
分析服务 预警服务 单品销售
预测模型 商品相似
度模型 商品畅滞
销模型 库存分析
模型
尺码拆分
模型 商品等级
模型 门店等级
模型 店货匹配
模型
识别服务
OTB
决策服务
标签体系 商品体系 渠道体系 门店体系 数
据
集
成 指标体系 商品域 零售域 交易域
业务库
FastData
数据资产管
理运营平台
系统数据
门店视频/IoT
外部数据
模型
✓ 预测工具
财务域
一站式数据治理和数据服务平台
FastData
数据平台
基础底座
流批一体数据分析引擎
电商平台/舆情
私有云 + 公有云
天气/高德等
PB级数据存储
云原生架构
✓ 指标和标签赋能百丽补货平台升级
41. 某零售企业:数据中台联合共创,全面提升业务效率
问题 :客户多个业务系统,多种数据库类型;底层
需接入多个组件实现数据离线、实时同步,技术复
杂度高,稳定性差,采购多套商业软件,费用高,
资源消耗大。
价 值 : 统一数据入湖工具,降低数据集成过程的复杂度,
减 少 维 护 成 本 , 资源使用大幅减少。 集群架构,高可用,
支持故障转移,进一步提升容错性,提 高 可 靠 性 。 数据入
湖速度、湖仓内模型处理速度大幅提升,数据服务时效从
T+1升级为T+0。
运行情况:
1.DCT任务2000+,并发任务500+,平日数据量约为1亿+;峰值3万条/秒;
2.DCT生产环境运行2年,运行稳定,无数据丢失;
2.DCT扛住618、双11、双12的压力(数据量为平日3-5倍),无崩溃,无数据丢失,数据延迟<2秒;
3.DCT实时同步速率约80MB/s,日最高承受数据量达20TB。
42. 感谢观看