基于Apache InLong全场景数据集成

如果无法正常显示，请先停止浏览器的去广告插件。

1. 基于Apache InLong全场景数据集成演讲人-莫云卿-腾讯-高级大数据工程师 DataFunSummit # 2023

2. 自我介绍莫云卿任职信息：腾讯云 DataInLong 、Oceanus研发公司InLong（应龙）Oteam PMC/Apache InLong PMC 技术成长： Ø 大数据平台建设，自研调度系统、离线作业开发平台 Ø 腾讯全链路数据开发平台WeData研发， WeData最早期数据质量、数据地图、数据安全建设者 Ø 推动InLong上云

3. 目录 CONTENT 行业趋势及挑战应用实践平台与产品设计平台规划

4. 01 行业趋势及挑战 DataFunSummit # 2023

5. 大数据技术多样化发展，腾讯云原生服务厚积薄发腾讯云拥有业界领先大数据技术与口碑产品生态大数据技术历经18年发展生态成熟：以Hadoop为主大数据技术历经近18年发展，日趋成熟、生态完善产品：腾讯云EMR/ElasticSearch/TBDS/云原生数据湖计算DLC 技术多样化：如数据湖格式技术Iceberg、Hudi， MPP 分析Doris等开源技术百花齐放技术：TBDS 万节点认证/InLong海量集成能力/SortBenchmark性能冠军云原生革新：云原生技术与大数据持续融合服务：近百技术贡献者/数百万代码贡献/丰富运维工具沉淀 /海量算力调度技术开放腾讯业界领先的大数据服务实践开源腾讯的大数据技术沉淀河图数据资产管理

6. 数据集成的必要性业务驱动 01 数据孤岛 02 业务涉及数据源类型繁杂、数据存储系统分散，业务数据之间彼此孤立难以协作共享 04 运维成本高 05 业务数据需求丰富 03 自建技术难度大企业持续发展衍生出越来越多样化的业务诉融合多种技术场景的数据传输通道建设包括硬件求，数据量更大，场景更实时，数据种类更丰布局与软件实施，其技术选型丰富、孵化周期富.. 长、技术迭代速度慢难以适应业务高速发展数字化进程不统一 06 云产品类型多，服务割裂业务涉及技术组件、硬件、及软件丰富，监业务数字化转型过程中业务部门数字化程度同一企业内不同或同一部门常常选购大量云产品控、异常告警触达等运维成本高昂不同，对云产品服务时候对技术、服务、运服务，各服务存在冗余功能未形成统一生态，甚维的诉求难以统一至造成非必要成本浪费技术驱动大数据生态繁杂：开源Hadoop生态日渐完善，越来越多的 HTAP发展短期承压： HTAP缺少大一统的产品或技术，技术栈兴起，传统业务数据库、NoSQL、数据湖、MPP以及搜索等技术在不同的业务场景发挥着不可替代的的作用，数据的入仓入湖需要匹配越来越多的场景。数仓的生命周期要依赖多系统协同，跨源数据同步成了必不可少的一环。

7. 客户选择数据集成产品的诉求不断变迁总线式架构总线式数据通道提高传输效率，降低建设成本组件丰富灵活各种技术组件提供插拔式灵活适配场景丰富化满足不同时效、不同技术方式数据传输场景市场趋势对象多样化涵盖不同存储介质、不同结构的数据对象生态一体化数据云原生革新云原生技术与大数据技术的融合点对点数据抽取工具实现数据在云存储、计算、应用的全链路各环节内无缝流转总线式数据传输通道全场景数据集成系统数据集成工具的发展生态化数据集成服务

8. 02 平台与产品设计 DataFunSummit # 2023

9. 数据集成DataInLong：产品概述 DataInLong 源于由腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong（应龙），内部InLong（应龙） Oteam 协同共建依托 InLong 海量数据集成框架支持百万亿级数据接入与处理能力，提供全场景、安全可靠、高性能的数据传输服务

10. Apache InLong ：功能架构图数据分发层数据来源轻量链路 Bulk load 数据库： Mysql 数仓： PG oracle Hbase CK Hive 采集层 Agent Doris SDK 文件系统：标准链路 FTP 数据上报： HDFS App HDFS DBSync HTTP Client Realtime Sort 汇聚层缓存层 DataProxy-1 TubeMQ 数据目的关系型数据库： Mysql 大数据： Sqlserver PG Hive Iceberg Hbase ··· DataProxy-n Pulsar Kafka ES Mongo 更多： Realtime Sort kafka 状态监控指标告警 OpenAPI CK NoSQL： COS HDFS Log 审计对账数据源 … SDK API Console 调度管理统一安全资源管理元数据管理审批管理 Doris

11. 技术支撑 · 开放架构【高性能、低时延队列组件，可靠容灾架构方案】 u 轻量/标准链路灵活可选：可根据用户链路灵活插拔队列组件，可选多种缓冲队列，极致性能、高稳定、毫秒级时延灵活高效 u 独有DataProxy路由：对外屏蔽队列差异，统一接口和方便扩展多种协议，同时具备一定数据缓冲能力，提升系统稳定性，对 Ø 毫秒级时延：基于毫秒级低时延消息队列，端到端数据同步秒级时延 Ø 高性能：支持切换不同的缓存队列，高吞吐、数据倾斜等场景，选择不同的队列可以具备更好外屏蔽队列差异的性能及稳定性 u 星型链路模型：支持异构读写数据源任意搭配 u 开放架构：插件化设计，Agent与Sort可扩展，统一协议快速复用已有组件扩展采集与数据分发功能 Ø InLong在数据采集和消息队列间增加DataProxy ，用于连接收敛、路由、数据压缩和协议转换 Ø 消息队列异常出现发送失败时，DataProxy 会将消息缓存到本地磁盘进行容灾转发

12. 技术支撑 · 安全可靠【全链路数据对账审计、腾讯云4A全方面安全增强】 u全链路对账审计：支持任务级、链路级、节点级指标统计，提供数据出入条数和流量进行实时审计对账传输可靠 u安全认证、网络隔离，网络防护等一体化：支持租户认证，队列访问鉴权，多网络部署隔离可以保障数据安全基于秘钥的认证体系以及跨网络支持，提供账号、网络、数据、资源隔离来保障数据安全 u4A级安全能力：从用户、功能角色、数据认证多层级提供认证、权限管控、审计等全方位安全能力，支持覆盖 Kerberos、ranger、SASL等安全可信 HDFS Hive HBase Kafka HBase CAM 访问管理 Kerberos / SASL Ranger / .. 鉴权认证权限控制项目、功能、账号、任务、库、表 VPC隔离，网络防护等一体化腾讯云品质安全加固

13. 技术上云驱动 Apache InLong 社区快速的发展以及贡献值活跃度不断增高，公司内外部客户逐步落地，也存在一定的困难，平台也面临着如下问题：难运维 • 技术体系驳杂，使用门槛高 • 依赖多种MQ、DB、监控组件，维护难 • 告警、日志等运维体系化缺失 • 版本升级与快速迭代受限资源利用率低 • 实时与离线任务资源固化，不具备弹性或者弹性代价高 • 资源隔离和复用性方案复杂，易用性不足 • 数据链路可视化不足 • 数据源管理与资源管理不透明，使用麻烦生态受限 • 支持数据源种类有限、主要是内部或社区数据源系统，与云生态割裂可实施性差 • 与外部配套困难，单一平台 • 扩容周期长或体系难以解决问题，多系统配合支持困难

14. DataInLong ：融合产品架构服务管理项目管理 WeData数据开发 WeData数据集成 DataInLong … 账户管理统一身份认证统一元数据统一调度云监控数据安全作业管理资源管理公共基础：数据源管理执行引擎状态管理配置管理资源调度日志管理指标采集安全防护：云网络云安全 MetaDB 统一元数据容器底座 Manager Agent采集 DataProxy StandAlone Sort Flink Sort MQ 统一调度统一运维 EKS (k8s) 数据源数据采集 PG 数据库 (CDB) Sqlserver … 数据采集/写入数据上报 … Mysql … Hive Iceberg kudu 大数据 (TBDS/EMR/DLC) 执行资源：云容器 … … ES CK Doris 搜索、数仓 (ES/CDW) 数据采集/写入 kafka Pulsar 中间件 (CKAFKA/TDMQ) … COS HDFS FTP 存储 (COS/CHDFS) … Agent APP 自定义业务 (CVM/TKE) … Ø Ø Ø Ø 全托管+资源弹性丰富的数据源：多场景：批流一体+批流融合：

15. 资源调度策略设计资源管理: 任务配置平台优势: l 资源管理 l 任务管理 l 资源调整资源池化，成本节约超60% 任务平均排队时延少于1分钟任务Failover率极低 • 预留独享资源池，重要任务独占资源，确保数据及时产出。高峰期任务执行效率提升30% • 下发执行用户感知 Inlong-Manager 指定资源动态资源资源分区策略资源利用率提升基于时间调度，错峰运行，资源切片执行资源组（serverless容器集群） ① 不同任务运行不同的资源分片，合理划分资源 ② 在保证资源足够的前提下，分片共用共享区（Pool）监控采集 DI-Loader sort sort Pod4C8G JoBManager … TaskManager CreateDelete 资源调度 Pod16C32G DI-Loader sort sort … DataProxy … 任务调度: • … 运行时自适应基于任务并发参数合理选择资源分片（POD） TaskManager … … Auto Scale DataProxy 独占区（Pool） Sort Ddistributing 分片资源过载时，通过DI-Loader回流。执行环境最优化。 • 公共任务资源弹性 Dataproxy实时监控，根据业务负载动态扩缩容

16. 整库迁移与DDL感知平台优势: Source Table1 Source Table3 Source Table2 … 根据用户配置读取源表数据和DDL • 相比单表同步，同100表表同步，整库成本节约超过80%+ • 同时支持基于DDL语句和数据Schema差异做DDL变更，极大提高运维效率 • 全程可视化操作，开发、运维成本极低 • 表粒度指标，全量、增量阶段指标，数据同步更透明 • 全链路审计对账、脏数据归档，数据同步更可靠整库迁移: • 单Source->Sink模型整库迁移采用单Source->Sink模型，配置简单、节省资源 • Flink Sort Sink Source Reader DDLParser Data DDL Writer 统一可扩展的数据结构采用统一的数据结构，屏蔽不同表Schema差异，目前支持Canal-json、Debezium-json 且可扩展 DDL Handler • 多种的源表选取方式支持指定表、整库搬迁、自定义正则匹配等多种源表选取方式 • 丰富的源表与目标表匹配策略源表与目标表支持同名匹配、基于变量提取的自定义匹配等多种策略 • 可配置的异常处理策略整库迁移支持异常重启、忽略异常、部分停止等多种策略 DDL感知: 写入数据并根据用户配置的DDL变更策略处理DDL • 自定义DDL数据模型设计独立于Source与Sink的DDL数据模型，Source、Sink可任意扩展 • Target Table1 Target Table2 Target Table3 … 丰富的DDL变更类型支持新建表、删除表、添加列、删除列等常见的DDLl类型处理 • 可控的DDL处理设计响应、忽略、日志告警、任务出错等多种处理策略，用户可根据实际场景选择响应的 DDL处理策略

17. 脏数据归档定义：单条数据在源端读取、在目标端写入时发生非主观异常且不能自恢复导致无法读取、写入的数据 p p 平台优势: 读取|写入异常且不可自恢复非用户主观（主动忽略｜过滤eg） DB MQ … File • InLong独有功能，避免脏数据对正常同步链路的干扰 • 对脏数据分类、Format，方便脏数据回溯 • 插件化设计，可归档到任意外部系统脏数据管理: DirtyHandler Source • 可插拔脏数据Sink 脏数据Sink采取SPI设计，对源系统不侵入，可灵活扩展处理Source端脏数据 DirtyHandler Sink 处理 Sink端脏数据 • 用户可自定义脏数据标识、脏数据标签，系统会按照 DirtySink [标识][标签][发生时间]: [脏数据]进行Format • 归档脏数据到外部系统 MQ DB … 自定义脏数据Format File 明确的脏数据类型系统要求脏数据归档时必须指明具体的脏数据类型 • 和指标系统协同在脏数据归档的同时，可上报脏数据指标

18. 数据审计与监控 Audit report MetaD B Minute Hour Day InLong Audit Cloud Monitor Audit SDK InLong SDK Audit SDK Audit SDK MQ DataProxy InLong Sort Audit SDK InLong Agent 运维可视化全链路数据审计 • 多维度：包括 Agent、DataProxy、 Sort 模块的出入条数、流量等进行实时审计对账 • 多粒度：目前 InLong Audit 对账的粒度有分钟、小时、天三种粒度 • 可视化展示：图表实时展示任务读写速率、总量、运行时长等指标 • 告警支持：配置任务、同步指标监控，可设定电话、短信、微信、企业微信告警渠道

19. 数据总线构建 DataInLong 基于星型数据转换结构提供中央数据模型，支持30+种数据源及目标类型按需搭配构建数据链路，最大化降低异构数据源适配成本，提升数据链路搭建及传输效率，助力企业构建统一数据传输通道。传统做法 DataInLong 总线架构中央数据通道数据库 / 大数据 VS 异构转换 TKE COS 数据源按需搭配 DataInLong 无门槛更多更多降低技术开发成本

20. 生态对接【方案融合/产品连接，支持基础、中间件、工具、应用各类云产品】 DataInLong in WeData : 全链路大数据解决方案升级 u WeData：为了提供全链路数据开发和治理能力，DataInLong 可一键切换至WeData数据开发治理平台，无缝兼容存量数据及数据链路。 DataInLong作为WeData功能模块之一，可结合开发、运营、质量、安全等模块，帮客户快速补全链路数据开发与治理能力。 u Inlong+DLC/CDW Doris等，提供快捷数据传输 u Inlong+ElasticSearch/BI，提供实时数据快捷入仓入湖的数据通分析与展示 u Inlong+ 云数据库/云中间件/DTS，连接基础数据平台与大数据生态的解决方案 DataInLong + ‘x’: 独立化inlong产品可与其他云产品进行组件化融合，完成数据无缝流转

21. 全场景数据集成【支持不同类型、时效、策略、提取方式下全场景的数据集成诉求】业务2 业务1 u 业务场景覆盖实时、离线同步，支持秒级、分钟级、小时级、天等丰富时间粒度数据同步 u 技术场景涵盖采集与主动上报数据传输方式，支业务3 业务4 l 离线数据业务，业务 l 监控数据变更，实时 l 实时进行业务日志采需按T+1定期采集ODS 进行数据分析及报表集，投递到ES进行广需进行原有数据迁移，层数据，无需转换处展示，需要清洗非标告业务指标分析且不可影响现有离线理数据 l 正在进行架构调整，业务持数据库表读取、数据库日志变更订阅，系统SDK 离线同步上报单表增量 NoSQL、半结构化、消息队列等离线同步异构数据同步整库/单表全增量异构数据同步异构数据同步同构数据同步 ETL/ELT ELT 主动上报被动拉取【数据场景】 ELT ETL 被动拉取被动拉取同步策略 u 单表同步、整库迁移实时同步-文件传输【业务场景】 u 支持30+数据源类型，包含关系型数据库、大数据、 u 多种同步方式，支持全量、增量、全增量融合的实时同步-日志变更【技术场景】 DataInLong全场景数据集成

22. 03 应用实践 DataFunSummit # 2023

23. 开箱即用的产品体验【敏捷产品体验、开箱即用免运维】无门槛低代码，开箱即用，一分钟玩转ETL u 开箱即用，提供一站式产品服务，轻松管理数据源、资源、元数据、数据等核心对象 u 低代码敏捷开发，提供画布式任务配置方式完成ETL链路配置及同步策略控制，轻松完成复杂场景同步 u 无需资源运维，所有基础资源提供全托管服务，采用包年包月计费模式画布式无代码拖拽配置复杂策略精准控制 u 支持全链路（任务/数据流/节点/资源）多对象监控于免运维无成本，实时感知同步进展审计，支持通道、脏数据、流量、资源使用监控以及数据权限安全控制，提供电话、短信、微信、企业微信、邮件等多渠道告警指标监控与展示资源托管一键配置

24. 全链路数据开发与治理平台敏捷搭建 DataInLong 提供了开放的技术能力，可与统一调度、统一元数据、统一安全等技术/产品服务快速深度融合。同时，支持平滑无缝升级至腾讯云数据开发与治理平台WeData，提供全链路数据开发、治理与资产管理、数据安全能力，为企业提供完善的全链路数据开发生产与治理解决方案。独立DataInLong 数据开发治理平台WeData 全链路覆盖开发、治理、安全无缝平滑适配迁移数据集成（DataInLong）切换支持资源、任务复用推荐搭配产品：数据开发治理平台WeData 大数据处理套件

25. 异构数据批量搬迁入仓入湖 DataInLong（数据集成）提供了简单、快速、灵活、成本低的技术和产品方案，采用星型模型抽象转换公共数据类型灵活适配几十种异构数据转换，帮助客户快速搭建业务数据库与云上数据湖/仓之间批量数据同步链路。 DataInLong支持用户灵活接入业务处理逻辑实现多层数仓间数据快速、无缝扭转，帮助用户最大效率、最低成本完成异构数据入仓入湖。传统方案 DataInLong 随机组合读写链路丰富、场景灵活；单表、分库分表读写转换能力强大数据库 / 大数据原生函数+UDF+定制转换节点 VS. 周期灵活 TKE COS DataInLong 丰富调度、补数策略推荐搭配产品：更多更多

26. 业务数据库与湖仓实时同步（CDC） DataInLong 基于Flink CDC Connector 体系提供高效率、低延迟、准确的实时数据同步迁移方案，支持通过单表以及整库粒度实现业务与湖仓数据实时一致，可帮助用户搭建固定schema、或者DDL变更场景下数据监控与响应。 DataInLong支持用户全量+增量、或者仅增量方式建立数据同步机制，提供实例、数据库、表或字段级实时数据传输方案，帮助用户最快效率完成数据迁移。方式一：单表同步方式二：整库迁移策略多样 movie1 全量、增量；拉取、上报 movie2 movie movie3 集群、库、字段全方位监控 hotel1 hotel2 【适合场景】：单表同步、分库分表同步与回流【同步模式】：依据字段映射关系，进行指定字段数据之间非按序同步。默认对表内字段进行业务数据过滤保持来源于目标关联字段间数据一致，同步期间非关联的字段变更不影响同步数据。【处理粒度】：表、字段【数据转换】flink函数日志、告警、审计 hotel hotel3 【适合场景】：整库搬迁【同步模式】：根据来源与目标间表对象映射策略，自动路由来源多或单表数据至目标表中。整库下，默认字段同步映射，来源与目标表之间可按照指定策略、或者字段内容动态映射【处理粒度】：集群、库、表粒度丰富数据一致 DDL响应、指标、脏数据归档推荐搭配产品：

27. 数据上报广告、推荐、企业画像等业务需要收集在线网站、APP、系统的用户行为及系统日志等各种业务数据，DataInLong 支持通过配置Agent采集器、系统SDK等方式主动上报对用户行为、系统日志、订单等结构化或半结构化数据，从而完成快速数据传输与高效分析，有效支撑在线业务实时查询提高业务响应效率。方案架构主动上报 SDK/Agent 海量采集百万亿级数据量 DLC 免运维资源全托管推荐搭配产品：实时数据主动上报助力数字分析实时化

28. 成功案例：公有云电商、传媒、互联网行业客户全链路数据平台企业云原生数据湖构建 • 离线数仓与数据同步 • 多种同步方式，多种数据源快速搭建云数据湖 • 离线数据开发与调度 • 实时数据秒级同步iceberg，完成冷热数据计算 • 元数据、数据资产管理与治理某公有云电商：DataInLong in WeData 某传统企业客户：DataInLong + DLC 方案架构方案架构应用场景个性化推荐用户洞察商品/订单/库存数仓数据开发应用场景信息采集日志分析实时数据入湖业务预测

29. 成功案例：腾讯内部业务安全、高效、稳定百万亿级数据量 • • 实时高性能消息队列同步 • 全链路数据指标监控多集群部署为支持商户/个人两大微信支付业务场景，为了解决广告部门数据来源广泛、采集点众多的难题， InLong内部部署交付两套系统，每套系统支持 InLong为腾讯广告提供包括MQ在内的多种类型消息通道集群三副本容灾，支持三地多活保障支付业务和接入方式，支持近百万亿级数据接入和处理，最终实平稳、稳定、安全运行。现广告业务统一监控、告警和核心指标运营实时呈现。

30. 04 平台规划 DataFunSummit # 2023

31. 后续规划 ü运维强化 – 一致性校验 • 数据质量审查与比对（e.g., 数据跟随检验与告警等,数据一致性比较） • 运维日志展示优化及智能诊断（e.g., 智能任务诊断与启停） • 监控指标扩充 ü数据链路丰富及特性增强 • 客需及重点数据链路类型及技术特性 ü资源管理优化 • 资源弹性 ü海量链路-三网合一 • 数据订阅能力

32. 感谢观看