基于Apache InLong全场景数据集成
如果无法正常显示,请先停止浏览器的去广告插件。
1. 基于Apache InLong全场
景数据集成
演讲人-莫云卿-腾讯-高级大数据工程师
DataFunSummit # 2023
2. 自我介绍
莫云卿
任职信息:
腾讯云 DataInLong 、Oceanus研发
公司InLong(应龙)Oteam PMC/Apache InLong PMC
技术成长:
Ø 大数据平台建设,自研调度系统、离线作业开发平台
Ø 腾讯全链路数据开发平台WeData研发, WeData最早期数据质量、数据地图、数
据安全建设者
Ø 推动InLong上云
3. 目录
CONTENT
行业趋势及挑战 应用实践
平台与产品设计 平台规划
4. 01
行业趋势及挑战
DataFunSummit # 2023
5. 大数据技术多样化发展,腾讯云原生服务厚积薄发
腾讯云拥有业界领先大数据技术与口碑产品生态
大数据技术历经18年发展
生态成熟:以Hadoop为主大数据技术历经近18年发展,日趋成熟、生态完善 产品:腾讯云EMR/ElasticSearch/TBDS/云原生数据湖计算DLC
技术多样化:如数据湖格式技术Iceberg、Hudi, MPP 分析Doris等开源技术百花齐放 技术:TBDS 万节点认证/InLong海量集成能力/SortBenchmark性能冠军
云原生革新:云原生技术与大数据持续融合 服务:近百技术贡献者/数百万代码贡献/丰富运维工具沉淀 /海量算力调度技术
开放腾讯业界领先的大数据服务实践
开源腾讯的大数据技术沉淀
河图数据资产管理
6. 数据集成的必要性
业务驱动
01
数据孤岛
02
业务涉及数据源类型繁杂、数据存储系统分
散,业务数据之间彼此孤立难以协作共享
04
运维成本高
05
业务数据需求丰富
03
自建技术难度大
企业持续发展衍生出越来越多样化的业务诉 融合多种技术场景的数据传输通道建设包括硬件
求,数据量更大,场景更实时,数据种类更丰 布局与软件实施,其技术选型丰富、孵化周期
富.. 长、技术迭代速度慢难以适应业务高速发展
数字化进程不统一
06
云产品类型多,服务割裂
业务涉及技术组件、硬件、及软件丰富,监 业务数字化转型过程中业务部门数字化程度 同一企业内不同或同一部门常常选购大量云产品
控、异常告警触达等运维成本高昂 不同,对云产品服务时候对技术、服务、运 服务,各服务存在冗余功能未形成统一生态,甚
维的诉求难以统一 至造成非必要成本浪费
技术驱动
大数据生态繁杂 : 开源Hadoop生态日渐完善,越来越多的 HTAP发展短期承压 : HTAP缺少大一统的产品或技术,
技术栈兴起,传统业务数据库、NoSQL、数据湖、MPP以及搜索
等技术在不同的业务场景发挥着不可替代的的作用,数据的入
仓入湖需要匹配越来越多的场景。 数仓的生命周期要依赖多系统协同,跨源数据同步成了
必不可少的一环。
7. 客户选择数据集成产品的诉求不断变迁
总线式架构
总线式数据通道提高传输效率,降低建设成本
组件丰富灵活
各种技术组件提供插拔式灵活适配
场景丰富化
满足不同时效、不同技术方式数据传输场景
市场
趋势
对象多样化
涵盖不同存储介质、不同结构的数据对象
生态一体化
数据云原生革新
云原生技术与大数据技术的融合
点对点数据抽取工具
实现数据在云存储、计算、应用的全链路各环节内无缝流转
总线式数据传输通道
全场景数据集成系统
数据集成工具的发展
生态化数据集成服务
8. 02
平台与产品设计
DataFunSummit # 2023
9. 数据集成DataInLong: 产品概述
DataInLong
源于由腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),内部InLong(应龙) Oteam
协同共建
依托 InLong 海量数据集成框架支持 百万亿级 数据接入与处理能力,
提供全场景、安全可靠、高性能的数据传输服务
10. Apache InLong :功能架构图
数据分发层
数据来源
轻量链路
Bulk load
数据库:
Mysql
数仓:
PG
oracle
Hbase CK
Hive
采集层
Agent
Doris
SDK
文件系统:
标准链路
FTP
数据上报:
HDFS
App
HDFS
DBSync
HTTP
Client
Realtime Sort
汇聚层 缓存层
DataProxy-1 TubeMQ
数据目的
关系型数据库:
Mysql
大数据:
Sqlserver
PG
Hive Iceberg Hbase
···
DataProxy-n
Pulsar
Kafka
ES
Mongo
更多:
Realtime Sort
kafka
状态监控
指标告警
OpenAPI
CK
NoSQL:
COS HDFS
Log
审计对账
数据源
…
SDK
API
Console
调度管理
统一安全
资源管理
元数据管理
审批管理
Doris
11. 技术支撑 · 开放架构
【高性能、低时延队列组件,可靠容灾架构方案】
u 轻量/标准链路灵活可选:可根据用户链路
灵活插拔队列组件,可选多种缓冲队列,
极致性能、高稳定、毫秒级时延
灵活高效
u 独有DataProxy路由:对外屏蔽队列差异,
统一接口和方便扩展多种协议,同时具备
一定数据缓冲能力,提升系统稳定性,对
Ø 毫秒级时延:基于毫秒级低时延消息队列,端到端数据同步秒级时延
Ø 高性能:支持切换不同的缓存队列,高吞吐、数据倾斜等场景,选择不同的队列可以具备更好
外屏蔽队列差异
的性能及稳定性
u 星型链路模型:支持异构读写数据源任意
搭配
u 开放架构:插件化设计,Agent与Sort可扩展,
统一协议
快速复用已有组件扩展采集与数据分发功
能
Ø InLong在数据采集和消息队列间增加DataProxy ,用于连接收敛、路由、数据压缩和协议转换
Ø 消息队列异常出现发送失败时,DataProxy 会将消息缓存到本地磁盘进行容灾转发
12. 技术支撑 · 安全可
靠
【全链路数据对账审计、腾讯云4A全方面安全增强】
u全链路对账审计:支持任务级、链路
级、节点级指标统计,提供数据出入
条数和流量进行实时审计对账
传输可靠
u安全认证、网络隔离,网络防护等一
体化:支持租户认证,队列访问鉴权,
多网络部署隔离可以保障数据安全
基于秘钥的认证体系以及跨网络支持,提供账号、网络、数据、资源隔离来保障数据安全
u4A级安全能力:从用户、功能角色、
数据认证多层级提供认证、权限管控、
审计等全方位安全能力,支持覆盖
Kerberos、ranger、SASL等
安全可信
HDFS Hive
HBase Kafka
HBase
CAM
访问管理
Kerberos / SASL Ranger / ..
鉴权认证 权限控制
项目、功能、账号、任务、库、表
VPC隔离,网络防护等一体化腾讯云品质安全加固
13. 技术上云驱动
Apache InLong 社区快速的发展以及贡献值活跃度不断增高,公司内外部客户逐步落地,也存在一定的困难,
平台也面临着如下问题:
难运维
• 技术体系驳杂,使用门槛
高
• 依赖多种MQ、DB、监控组
件,维护难
• 告警、日志等运维体系化
缺失
• 版本升级与快速迭代受限
资源利用率低
• 实时与离线任务资源固化,
不具备弹性或者弹性代价高
• 资源隔离和复用性方案复杂,
易用性不足
• 数据链路可视化不足
• 数据源管理与资源管理不透
明,使用麻烦
生态受限
• 支持数据源种类有限、主要
是内部或社区数据源系统,
与云生态割裂
可实施性差 • 与外部配套困难,单一平台
• 扩容周期长 或体系难以解决问题,多系
统配合支持困难
14. DataInLong :融合产品架构
服务管理
项目管理
WeData数据开发
WeData数据集成
DataInLong
…
账户管理
统一身份认证
统一元数据
统一调度
云监控
数据安全
作业管理
资源管理
公共基础:
数据源管理
执行引擎
状态管理
配置管理
资源调度
日志管理
指标采集
安全防护:
云网络
云安全
MetaDB
统一元数据
容器底座
Manager
Agent采集
DataProxy
StandAlone
Sort
Flink Sort
MQ
统一调度
统一运维
EKS (k8s)
数据源
数据采集
PG
数据库
(CDB)
Sqlserver
…
数据采集/写
入
数据上报
…
Mysql
…
Hive Iceberg kudu
大数据
(TBDS/EMR/DLC)
执行资源:
云容器
…
…
ES
CK Doris
搜索、数仓
(ES/CDW)
数据采集/写入
kafka
Pulsar
中间件
(CKAFKA/TDMQ)
…
COS HDFS
FTP
存储
(COS/CHDFS)
…
Agent
APP
自定义业务
(CVM/TKE)
…
Ø
Ø
Ø
Ø
全托管+资源弹性
丰富的数据源:
多场景:
批流一体+批流融合:
15. 资源调度策略设计
资源管理:
任务配置
平台优势:
l
资源管理
l
任务管理
l
资源调整
资源池化,成本节约超60%
任务平均排队时延少于1分钟
任务Failover率极低
•
预留独享资源池,重要任务独占资源,确保数据及
时产出。 高峰期任务执行效率提升30%
•
下发执行
用户感知
Inlong-Manager
指定资源
动态资源
资源分区策略
资源利用率提升
基于时间调度,错峰运行,资源切片
执行资源组
(serverless容器集群)
① 不同任务运行不同的资源分片,合理划分资源
② 在保证资源足够的前提下,分片共用
共享区(Pool)
监控采集
DI-Loader
sort
sort
Pod4C8G JoBManager
… TaskManager
CreateDelete
资源调度
Pod16C32G
DI-Loader
sort
sort
…
DataProxy
…
任务调度:
•
…
运行时自适应
基于任务并发参数合理选择资源分片(POD)
TaskManager
…
…
Auto Scale
DataProxy
独占区(Pool)
Sort
Ddistributing
分片资源过载时,通过DI-Loader回流。执行环境
最优化。
•
公共任务资源弹性
Dataproxy实时监控,根据业务负载动态扩缩容
16. 整库迁移与DDL感知
平台优势:
Source Table1
Source Table3
Source Table2
…
根据用户配置读取源表数据和DDL
• 相比单表同步,同100表表同步,整库成本节约超过80%+
• 同时支持基于DDL语句和数据Schema差异做DDL变更,极大提高运维效率
• 全程可视化操作,开发、运维成本极低
• 表粒度指标,全量、增量阶段指标,数据同步更透明
• 全链路审计对账、脏数据归档,数据同步更可靠
整库迁移:
•
单Source->Sink模型
整库迁移采用单Source->Sink模型,配置简单、节省资源
•
Flink Sort
Sink
Source
Reader
DDLParser
Data
DDL
Writer
统一可扩展的数据结构
采用统一的数据结构,屏蔽不同表Schema差异,目前支持Canal-json、Debezium-json
且可扩展
DDL
Handler
•
多种的源表选取方式
支持指定表、整库搬迁、自定义正则匹配等多种源表选取方式
•
丰富的源表与目标表匹配策略
源表与目标表支持同名匹配、基于变量提取的自定义匹配等多种策略
•
可配置的异常处理策略
整库迁移支持异常重启、忽略异常、部分停止等多种策略
DDL感知:
写入数据并根据用户配置的DDL变更策略处理DDL
•
自定义DDL数据模型
设计独立于Source与Sink的DDL数据模型,Source、Sink可任意扩展
•
Target Table1
Target Table2
Target Table3
…
丰富的DDL变更类型
支持新建表、删除表、添加列、删除列等常见的DDLl类型处理
•
可控的DDL处理
设计响应、忽略、日志告警、任务出错等多种处理策略,用户可根据实际场景选择响应的
DDL处理策略
17. 脏数据归档
定义 :单条数据在源端读取、在目标端写入时发生非主观异常且不能自恢复导致无法读取、写入的数据
p
p
平台优势:
读取|写入异常且不可自恢复
非用户主观(主动忽略|过滤eg)
DB
MQ
…
File
• InLong独有功能,避免脏数据对正常同步链路的干扰
• 对脏数据分类、Format,方便脏数据回溯
• 插件化设计,可归档到任意外部系统
脏数据管理:
DirtyHandler
Source
•
可插拔脏数据Sink
脏数据Sink采取SPI设计,对源系统不侵入,可灵活扩展
处理Source端脏数据
DirtyHandler
Sink
处理
Sink端
脏数据
•
用户可自定义脏数据标识、脏数据标签,系统会按照
DirtySink
[标识][标签][发生时间]: [脏数据]进行Format
•
归档脏数据到外部系统
MQ
DB
…
自定义脏数据Format
File
明确的脏数据类型
系统要求脏数据归档时必须指明具体的脏数据类型
•
和指标系统协同
在脏数据归档的同时,可上报脏数据指标
18. 数据审计与监控
Audit report
MetaD
B
Minute
Hour
Day
InLong Audit
Cloud Monitor
Audit SDK
InLong SDK
Audit SDK
Audit SDK
MQ
DataProxy
InLong Sort
Audit SDK
InLong Agent
运维可视化
全链路数据审计
•
多维度: 包括 Agent、DataProxy、
Sort 模块的出入条数、流量等进行实
时审计对账
•
多粒度: 目前 InLong Audit 对账的粒
度有分钟、小时、天三种粒度
•
可视化展示:图表实时展示任务读写
速率、总量、运行时长等指标
•
告警支持:配置任务、同步指标监
控,可设定电话、短信、微信、企业
微信告警渠道
19. 数据总线构建
DataInLong 基于星型数据转换结构提供中央数据模型,支持30+种数据源及目标类型按需搭配构建数据
链路,最大化降低异构数据源适配成本,提升数据链路搭建及传输效率,助力企业构建统一数据传输通道。
传统做法
DataInLong
总线架构
中央数据通道
数据库 / 大数据
VS
异构转换
TKE
COS
数据源按需搭配
DataInLong
无门槛
更 多
更 多
降低技术开发成本
20. 生态对接
【方案融合/产品连接,支持基础、中间件、工具、应用各类云产品】
DataInLong in
WeData :
全链路大数据解决方案升级
u WeData:
为了提供全链路数据开发和治理能力,DataInLong
可一键切换至WeData数据开发治理平台,无缝兼容存量数
据及数据链路。
DataInLong作为WeData功能模块之一,可结合开发、
运营、质量、安全等模块,帮客户快速补全链路数据开发
与治理能力。
u Inlong+DLC/CDW Doris等,提供快捷数据传输
u Inlong+ElasticSearch/BI,提供实时数据快捷入仓入
湖的数据通分析与展示
u Inlong+ 云数据库/云中间件/DTS,连接基础数据平台
与大数据生态的解决方案
DataInLong + ‘x’: 独立化inlong产品可与其他云产品进行组件化融合,完成数据无缝流转
21. 全场景数据集成
【支持不同类型、时效、策略、提取方式下全场景的数据集成诉求】
业务2
业务1
u 业务场景覆盖实时、离线同步,支持秒级、分钟
级、小时级、天等丰富时间粒度数据同步
u 技术场景涵盖采集与主动上报数据传输方式, 支
业务3
业务4
l 离线数据业务,业务 l 监控数据变更,实时 l 实时进行业务日志采 需按T+1定期采集ODS 进行数据分析及报表 集,投递到ES进行广 需进行原有数据迁移,
层数据,无需转换处 展示,需要清洗非标 告业务指标分析 且不可影响现有离线
理 数据
l 正在进行架构调整,
业务
持数据库表读取、数据库日志变更订阅,系统SDK
离线同步
上报
单表增量
NoSQL、半结构化、消息队列等
离线同步
异构数据同步
整库/单表全增量
异构数据同步
异构数据同步 同构数据同步
ETL/ELT ELT
主动上报 被动拉取
【数据场景】
ELT ETL
被动拉取 被动拉取
同步策略
u 单表同步、整库迁移
实时同步-文件传输
【业务场景】
u 支持30+数据源类型,包含关系型数据库、大数据、
u 多种同步方式,支持全量、增量、全增量融合的
实时同步-日志变更
【技术场景】
DataInLong全场景数据集成
22. 03
应用实践
DataFunSummit # 2023
23. 开箱即用的产品体验
【敏捷产品体验、开箱即用免运维】
无门槛低代码,开箱即用,一分钟玩转ETL
u 开箱即用,提供一站式产品服务,轻松管理数据源、资
源、元数据、数据等核心对象
u 低代码敏捷开发,提供画布式任务配置方式完成ETL链
路配置及同步策略控制,轻松完成复杂场景同步
u 无需资源运维,所有基础资源提供全托管服务,采用包
年包月计费模式
画布式无代码拖拽配置
复杂策略精准控制
u 支持全链路(任务/数据流/节点/资源)多对象监控于
免运维无成本,实时感知同步进展
审计,支持通道、脏数据、流量、资源使用监控以及数
据权限安全控制,提供电话、短信、微信、企业微信、
邮件等多渠道告警
指标监控与展示
资源托管一键配置
24. 全链路数据开发与治理平台敏捷搭建
DataInLong 提供了开放的技术能力,可与统一调度、统一元数据、统一安全等技术/产品服务快速深度融合。同时,支持平滑无缝升级至腾讯云数据开发与治理平
台WeData,提供全链路数据开发、治理与资产管理、数据安全能力,为企业提供完善的全链路数据开发生产与治理解决方案。
独立DataInLong
数据开发治理平台WeData
全链路
覆盖开发、治理、安全
无缝
平滑适配迁移
数据集成
(DataInLong)
切换
支持资源、任务复用
推荐搭配产品:
数据开发治理平台WeData
大数据处理套件
25. 异构数据批量搬迁入仓入湖
DataInLong(数据集成)提供了简单、快速、灵活、成本低的技术和产品方案,采用星型模型抽象转换公共数据类型灵活适配几十种异构数据转换,帮助客户
快速搭建业务数据库与云上数据湖/仓之间批量数据同步链路。
DataInLong支持用户灵活接入业务处理逻辑实现多层数仓间数据快速、无缝扭转,帮助用户最大效率、最低成本完成异构数据入仓入湖。
传统方案
DataInLong
随机组合
读写链路丰富、场景灵活;单表、分库分表读写
转换能力强大
数据库 / 大数据
原生函数+UDF+定制转换节点
VS.
周期灵活
TKE
COS
DataInLong
丰富调度、补数策略
推荐搭配产品:
更 多
更 多
26. 业务数据库与湖仓实时同步(CDC)
DataInLong 基于Flink CDC Connector 体系提供高效率、低延迟、准确的实时数据同步迁移方案,支持通过单表以及整库粒度实现业务与湖仓数据实时一致,
可帮助用户搭建固定schema、或者DDL变更场景下数据监控与响应。
DataInLong支持用户全量+增量、或者仅增量方式建立数据同步机制,提供实例、数据库、表或字段级实时数据传输方案,帮助用户最快效率完成数据迁移。
方式一:单表同步
方式二:整库迁移
策略多样
movie1
全量、增量;拉取、上报
movie2
movie
movie3
集群、库、字段
全方位监控
hotel1
hotel2
【适合场景】:单表同步、分库分表同步与回流
【同步模式】:依据字段映射关系,进行指定字段数据之间非按序同步。
默认对表内字段进行业务数据过滤保持来源于目标关联字段间数据一致,
同步期间非关联的字段变更不影响同步数据。
【处理粒度】:表、字段
【数据转换】flink函数
日志、告警、审计
hotel
hotel3
【适合场景】:整库搬迁
【同步模式】:根据来源与目标间表对象映射策略,自动路由来源多或
单表数据至目标表中。整库下,默认字段同步映射,来源与目标表之间
可按照指定策略、或者字段内容动态映射
【处理粒度】:集群、库、表
粒度丰富
数据一致
DDL响应、指标、脏数据归档
推荐搭配产品:
27. 数据上报
广告、推荐、企业画像等业务需要收集在线网站、APP、系统的用户行为及系统日志等各种业务数据,DataInLong 支持通过配置Agent采集器、系统SDK等方
式主动上报对用户行为、系统日志、订单等结构化或半结构化数据,从而完成快速数据传输与高效分析, 有效支撑在线业务实时查询提高业务响应效率。
方案架构
主动上报
SDK/Agent
海量采集
百万亿级数据量
DLC
免运维
资源全托管
推荐搭配产品:
实时数据主动上报助力数字分析实时化
28. 成功案例:公有云电商、传媒、互联网行业客户
全链路 数据平台 企业云原生数据湖 构建
• 离线数仓与数据同步 • 多种同步方式,多种数据源快速搭建云数据湖
• 离线数据开发与调度 • 实时数据秒级同步iceberg,完成冷热数据计算
• 元数据、数据资产管理与治理
某公有云电商:DataInLong in
WeData
某传统企业客户:DataInLong + DLC
方
案
架
构
方
案
架
构
应
用
场
景
个性化推荐 用户洞察
商品/订单/库存数仓数据开发
应
用
场
景
信息采集 日志分析
实时数据入湖
业务预测
29. 成功案例:腾讯内部业务
安全、高效、稳定 百万亿级数据量
• • 实时高性能消息队列同步
• 全链路数据指标监控
多集群部署
为支持商户/个人两大微信支付业务场景, 为了解决广告部门数据来源广泛、采集点众多的难题,
InLong内部部署交付两套系统,每套系统支持 InLong为腾讯广告提供包括MQ在内的多种类型消息通道
集群三副本容灾,支持三地多活保障支付业务 和接入方式,支持近百万亿级数据接入和处理,最终实
平稳、稳定、安全运行。 现广告业务统一监控、告警和核心指标运营实时呈现。
30. 04
平台规划
DataFunSummit # 2023
31. 后续规划
ü运维强化 – 一致性校验
• 数据质量审查与比对(e.g., 数据跟随检
验与告警等,数据一致性比较)
• 运维日志展示优化及智能诊断(e.g., 智
能任务诊断与启停)
• 监控指标扩充
ü数据链路丰富及特性增强
• 客需及重点数据链路类型及技术特性
ü资源管理优化
• 资源弹性
ü海量链路-三网合一
• 数据订阅能力
32. 感谢观看