Real Time DaaS数据孤岛之终结者

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. Real Time DaaS: 数据孤岛之终结者 唐建法 / TJ Tapdata Founder & CEO
2.
3. 听完今天的分享,你会有什么收获?  了解企业数据孤岛的形成原因,和对企业的影响  了解主流大数据平台解决方案的局限性  掌握 Real Time DaaS 架构的主要功能模块  从技术特性上了解 DaaS 和 Big Data 有什么主要不同点  能够了解到 Big Data 的局限性 3
4. 关于我  2 年环球旅游  4 年音乐键盘手  10 年电脑键盘手  2014 年创建 MongoDB 中文社区  2019 年创立 Tapdata, 专注于实时数据技术和产品 4
5. 数据孤岛:现状,形成,及影响
6. 企业业务系统概览 • 54% 的企业有不到 200 个业务系统 • 23% 的企业有 201 到 500 个业务系 统 • 15% 的企业有 501 and 1000 个业务 系统 • 大部分时候这些系统是互不相通的 https://www.f5.com/company/blog/applications-applications-everywhere 6
7. 数据孤岛:企业信息化的副产品 7 • 早期系统设计,并不考虑数据互通 • 如果要互通: • Ad-hoc 开通 API • 通过 ESB 消息机制 • 业务双写
8. 数据孤岛之成因 企业文化: 部门间相互竞争,导致重复建设 企业架构: 不同职能部门,具有天然的层级架构及平行架构。出于数据权限及管理原因,会进行 重复建设。 技术考量: • 单体式数据库,性能无法扩展,需求增加时候往往需要分库 • Microservices, 每个服务使用独立的存储 • Polygot Persistence 为不同的业务使用最合适的数据库 • Talent: 根据团队能力选择最合适的数据库 8
9. 企业多源异构数据库模式将常态式存在 世界主流的数据库:数十种 国产数据库厂商商:31 9
10. 数据孤岛的业务影响 不完整的客户视图 阻碍业务 航空公司有数十套系统会存储客户 信息,会更新客户信息的系统可能 有 10 来套:门户,电商,常旅 客,地勤,柜服,客服,营销等。 某高端零售企业有多个品牌,多个 销售渠道,均试用了独立不联通的 应用系统。产品可以在多个渠道售 卖,通过每天晚上的盘点来拉通库 存 某保险公司计划推出一个基于微信 小程序的 SCRM 应用程序,来对 多条业务线的客户进行多渠道关 怀。但是客户数据在多套业务系 统,而且经常频繁更新 商机流失:无法知道其他渠道是否 有想要商品的库存 ETL开发 繁琐耗时 客户体验差:新的联系方式可能不 会更新到所有系统 客服效率低:无法看到客户的全 貌,比如客服系统的用户投诉可能 不会及时让所有相关的服务人员看 到 开发慢,效率低 70% 时间花在数据准备 商品信息在多套系统维护,没有准 确一致的信息 1 上线慢,影响创新
11. 数据孤岛常见解决方案
12. 数据孤岛解决方案类型 ETL 或代码 • ETL • 定制 API 开发 • 应用双写 消息中间件 • ESB/MQ • 强耦合 • SOA nightmare • MQ / Kafka • 很多开发量 12 中央化数据平台 • 2000 ~ 2010 企业数据仓库和 BI 平台 • 2011 ~ 2018 数据湖/大数据平台
13. 数据仓库 • 代表产品:Teradata, Vertica, Greenplum • 特点: • MPP 分布式架构 • 需要大量的需求分析,设计及研发成本 • 支持核心业务场景 • 业务数据归档 • 数据分析 • 报表/可视化 • 局限性 • 贵! • 扩展性:跨节点关联计算有瓶颈,不能支 撑海量(100GB/TB) • 不支持半结构化、非结构化数据 13
14. 大数据平台/数据湖 • 基于Hadoop大数据生态, 代表产品: Cloudera, Hortonworks, 星环 • 特点: • 开源,低成本 • 开放式架构,横向扩展性很高,海纳百川 • 支持核心业务场景 • 历史数据归档 • 大数据分析、报表 • 客户画像,打标签 • 数据挖掘、机器学习,人工智能 • 局限性 • Easy In, Difficult Out • 技术组件众多,架构复杂 • 业务价值不明显!只有 0.5% 的数据被有效分析 14
15. 数仓及大数据平台 的局限性 数据仓库 大数据平台 描述 技术形式 技术形式 主要时代 2000 ~ 2010 2010 ~ 2018 数据来源 各个业务数据库 业务数据库 日志 社交媒体 物联网 数据格式 结构化数据为主 结构化 + 非结构化 底层存储 关系型数据库 HDFS 文件系统 主要业务场景 报表 数据分析 报表 数据分析 客户画像 推荐 标签 数据归档 AP 型业务场景 15
16. 我们来看看 TP vs AP
17. TP vs. AP – 业务场景维度  卖机票 - 机票预定系统  产品洞察: 哪些航线最热销? 哪些产品最赚钱?  租房子 - 房屋租赁平台  客户推荐: 根据客户行为打上标签,并推荐相应的房源  造手机 – MES 生产排程,质量检测  质量洞察: 次品率超标时,有哪些异常指标?  客户服务 – 提工单  客户洞察:满意度分析,工单处理时间,客户响应语气 17
18. TP vs. AP - 技术维度 目标用户 数据响应速度 并发查询量 数据量 常见存储方案 TP系统 AP系统 外部客户,员工,供应商 数据分析师 BI 团队 毫秒 数秒 – 分钟级 高 (数百 ~ 数十万) 低(数个 ~ 数十) 偏小,MB ~ GB 偏大, TB ~ PB Oracle MySQL SQLServer PostgreSQL DB2 MongoDB Elastic Redis Teradata Greenplum Hadoop SnowFlake ClickHouse Doris 18
19. TP vs. AP – 市场维度 TP 型数据场景的市场份额占 80% 以上 企业预算 TP vs AP: 9:1 19
20. 20
21. 21
22. 灵魂拷问 • TP型业务场景价值高,为什么看到的只有的面向AP型的数据平台? • • • • Teradata,Vertica Hadoop Kylingence, Oushu, Hashdata Snowflake,Dremio • 答案: • 时机,在信息化时代,打通数据孤岛需求缺乏迫切性和刚需 • 技术,在分布式数据库出现之前,没有合适的存储方案 22
23. Real Time DaaS 一个数据平台,服务所有 TP+AP 业务
24. 什么是 DaaS WEB MOBILE LOW CODE MySQL MONGO RDS Data as a Service BI VISUAL BIG DATA DW  一种服务导向的数据架构  对企业的核心数据采集,同步,加工,处 理,合并,去重,形成可复用的数据层 统一服务 统一模型  为 TP + AP 所有业务提供企业级完整,一 致,实时,准确的核心数据 统一数据  可自助服务  云上或者线下 24
25. 什么不是 DaaS 不是: 数据仓库 不是: 大数据平台 不是: 商业化数据产品,如企业数据,天气数据,商情数据 25
26. 为什么要 DaaS? • 企业需要一个实时的主数据层, 解锁交互式业务场景 • 降低企业建立数据平台的复杂性 • 提高数据部门的效率,实现数据自助服务 26
27. DaaS 如何工作 4. 自动发布API -》 APP ERP ORDER OMS WHS CUSTOMER INVENTORY PRODUCT CRM 1. CDC 实时采集 2. 流式计算合并建模 3. 形成物化视图 27 5. 或同步推送至数仓或 APP 数据库
28. DaaS平台的技术特性 DaaS 大数据平台 平台数据时效 T+0, 和源库基本一致 T+1,每晚或者每小时更新 平台数据并发访问能力 支撑数万查询每秒 数十并发处理任务 平台数据查询响应时间 毫秒级响应 数秒至数分钟 数据更新能力 实时更新 (In Place) 不支持,每天晚上批量替换 支撑业务场景 TP + AP AP 为主 28
29. DaaS 的核心技术路线 1 基于 WAL 日志的异构 数据库复制技术 2 实时链式物化视图 (Delta Lake) 3 4 29 分布式数据库存储 主数据管理
30. 异构数据库实时复制 1 已有业务 系统 T+1 模式,晚上跑批,不支持实时获取数据 数据采集与处理 Inserts Updates Processor Connector 实时获取 CRM 批量导入 Transformer Sink Connector Sink Connector ERP T+0 模式,实时将源库数据变化复制到目标 30 DaaS 存储
31. 实时数据同步方式 1. 基于时间戳或者增量字段: select * from events where event_time > $last_time_sql_run 缺点: 不支持删除,不是所有表都具有这种字段 2. Trigger,依赖于数据库触发器 CREATE TRIGGER ORDER_EVENTS -> AFTER INSERT ON ORDERS -> FOR EACH ROW -> INSERT INTO ORDER_EVENTS -> VALUES (NEW.id,NEW.event,NEW.ts); 缺点:对源库性能有较大影响 3. 基于数据库 WAL 日志实时采集 缺点:非标,实现困难 31
32. WAL 日志采集的方式及挑战 技术挑战  技术上依赖于数据库事务日志的挖掘和解 析,实现复杂  异构数据库复制:类型、结构?  事务准确度要求高:能够忠实还原提交回 滚错误等场景 获取增量日志 日志采集器  时效性高:遇到大型批量日志,无法做到 很及时的数据同步  容错率低: 如何保证数据准确的复制到 了异构库? 回放日志对应的增删改查操作 中台库 32
33. 2 基于 Pipeline 的流式数据处理建模 批处理 流处理 触发机制 调度任务,手工触发 事件触发 数据更新时效性 天、小时、分钟 秒,毫秒 作业处理周期 小时或分钟,定期 准实时,秒级, 持续运行 应用场景 ETL 离线处理 交互业务模型 实时分析 33
34. 2 实时链式构建物化视图 1 3 4 2 连续更新: 所有 DaaS 数据模型都可以 实时联动,实时更新 因果一致性保证:不能看到乱序事件 34
35. 3 分布式数据库(Mongo / TiDB ) 作为中台存储 … 横向扩展能力 Router Router … Shard 1 Shard 2 Shard N 目录节点 Primary Primary Primary 目录节点 Secondary Secondary 目录节点 Secondary Secondary 支持多种数据模型 ● TB – PB 数据量支持 ● 模型变动灵活,易融合 ● 跨中心跨云部署能力 ● 结构化,半结构化 … Secondary Secondary 高性能高并发 ● 毫秒级响应– 比 Hive 快百倍 ● 高并发促销场景 多工况支持 ● OLTP – 即时更新 ● OLAP:聚合运算
36. 4 什么是主数据 实时主数据管理 传统主数据 DaaS 实时主数据 企业内的核心可共享,复用的数据。 狭义的主数据: 组织架构 员工 商品 客户 广义主数据还包括交易和业务数据: 订单 库存 客户交互 数据不及时 业务体验差
37. DaaS vs Big Data DaaS Big Data
38. 如何搭建 DaaS
39. DaaS 可以支持的技术场景 场景 描述 DaaS 技术价值体现 快速数据交付 TiDB, Neo4J,Nebula, Elastic Search, GreatDB, Dameng: 每一个新数据库场景的落地, 都有可能需要获取已有业务系统的数据 实时数据中台 企业数据孤岛打通,对数据进行实时采集,治理 及建模,构建企业的主数据系统,为企业的交互 式业务,包括客户管理、生产运营管理等提供一 个完整全面的企业数据底座 实时数据大屏 为帆软,Tableau,或自研的数据可视化平台提供 数据固化视图,以亚秒级的性能为这些可视化平 台供数。和传统大屏依赖SQL和逻辑视图的方案, 实时大屏交互体验无需等待,非常流畅。 数据采集同步, 宽表构建 统计聚合计算 实时数仓/指标系统 将企业主数据及运营数据统一汇聚到平台,按照 数仓分层理论分成基础数据,主数据和汇总数据 层, 为企业BI、报表等提供快速的数据支撑 数据同步 数据分层 数据目录 分析聚合能力 企业数据服务平台 企业内部部门众多,各业务均需要获取企业相关 运营数据,通过构建一个统一的数据服务平台, 部门可以快速的获取业务所需要的数据,并且通 过 API 方式可以实现自助访问 从数周的时间缩短到数小时 直接从 DaaS 导入并保持持续同步 满足实时数据更新的需求 孤岛数据汇聚 中央化数据存储 去重,合并,重新建模 主数据管理,构建数据目录 主要支撑前端交互式业务 数据同步 数据目录 API 发布 基于内存的数据库,高并发查询
40. DaaS 技术组件参考 Data Storage CDC/ETL Data Governance Data Service MongoDB Kafka Apache Atlas Spring TiDB Flink Informatica Kong MySQL Cluster Spark ETL Erwin Mulesoft Oracle Attunity Oracle CA Elastic Search Informatica WhereHow Tapdata Oracle Golden Gate Tapdata Tapdata
41. Real Time DaaS 架构优势总结  面向 TP 业务,切中企业的核心运营价值链  以企业主数据产品方式提供数据服务,服务化带来最大化 IT 效率  数据 T+0 ,保障最佳用户体验  和已有大数据平台及数仓可并存: 41
42. DaaS 架构的 Anti-Pattern  不要直接在 DaaS 上运行大型分析业务 • • • 分析场景特点是一个聚合请求就可能消耗掉大部分系统资源 直接影响其他对 Latency 敏感的下游业务 建议:将数据推送给下游分析库 – ClickHouse, Doris  不要将 DaaS 作为 TP 型业务的唯一数据库 • • • DaaS 底层采用某一种最适合 DaaS 场景的数据库,但并不适合所有业务场景对性能功能诉求 例如关系搜索适合在图数据库 建议:只针对可复用的企业主数据依赖 DaaS 进行读取或更新  不在 DaaS 的流数据处理构建大量业务处理逻辑 • • 不要重复 ESB 的失败 – 太多业务逻辑集中在一个技术模块,风险高且维护团队不堪重负 建议:DaaS 应该尽量只做数据融合,去重,主数据建模。涉及到业务判断逻辑下推到业务模块 42
43.
44.
45.

inicio - Wiki
Copyright © 2011-2025 iteam. Current version is 2.139.0. UTC+08:00, 2025-01-11 15:00
浙ICP备14020137号-1 $mapa de visitantes$