当下的大数据体系是怎样的

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2. 演讲人:关涛 • 2006年,加入微软亚洲研究院,构建国内第一个分布式KV系统SearchRepository (7000台物理服务 器)和 Bing搜索的分布式存储后台Kirin Store。之后加入微软美国云计算和企业事业部,主持和参 与开发了包括 Cosmos/Scope,iScope, Azure Datalake • 2016年回国,阿里云 计算平台事业部 研究员,阿里巴巴通用计算平台负责人,负责阿里巴巴主线 大数据平台(飞天MaxCompute,Dataworks)。前阿里和蚂蚁集团技术委员会计算平台领域组长、 阿里云架构组大数据组组长。 • 15年分布式系统和大数据平台开发经验,并著有多篇国内外会议论文和专利。 • My linkedin: https://www.linkedin.com/in/tao-tony-guan-1b57aa12/
3. 2021当下的数据平台体系是怎样的 1. 大数据领域发展的概述和5个热点 2. 分模块的平台架构概述 3. 面向未来4个发展趋势 4. 3个待讨论/解决的问题 注:本文引用内容均来源于公开信息或网络
4. 1- 大数据领域发展的概述 1. 因搜索技术诞生,大数据领域发展了20年 2. 业务方面,大数据技术走过启蒙期,价值得到充 分的认可,开始进“普惠期” (对比:AI进入复兴 期) 3. 技术方向整体处于发展期,完成1.0,开始向2.0 演进(更加技术分层、更专业化),同时保持了 非常快的迭代 4. 新硬件、云、通信网络、AI等发展推动持续的技 术创新
5. 1- 概述当下的5个技术热点之一:架构的解耦和演进 1. Shared-Nothing(MPP) a) MPP来源于分布式数据库,很长一段时间是主流(E.g. Greenplum) b) 因数据和计算的绑定,扩展性和弹性问题 2. Shared-Data a) 是MPP架构的演进,Snowflake为代表 2. Shared-Everything a) DFS + Map-Reduce,计算资源完全Shared,带来更 好的资源利用效率 b) BigQuery、MaxCompute为代表 c) 进一步发展:DisaggregateMemPool… (图:三种大数据体系架构)
6. 1- 概述当下的5个技术热点之二:云原生/云独立/托管化 1. 云技术实现了更好的规模化、更好的弹性/扩展能力和更低 的成本,以及非常多的企业级能力(E.g. 多AZ容灾,完善 的监控/部署/运维能力,企业级安全性),会全面替代传统 IDC 2. IaaS层的标准逐渐成熟稳定(Object Storage + K8S + VPC) 3. 即使是线下建设数据中心,也会采用云的思想 因此新一代数据平台:云原生 + 云中立 https://www.vamsitalkstech.com/architecture/the-seven-characteristics-of-cloud-native-architectures/
7. 1- 概述当下的5个技术热点之三:数据湖与数仓的相互融合 (图:数据湖与数仓技术的演进)
8. 1- 概述当下的5个技术热点之三:数据湖与数仓的相互融合 (图:数据湖与数仓技术优势对比) (图:一种湖仓一体数据摆布的best practice)
9. 1- 概述当下的5个技术热点之四:AI成为一等公民 1. 很多的大数据平台是以分析/BI为主,采用SQL作为接口,侧重的 是结构化数据和二维关系表达 2. Deep Learning技术突破非结构化数据处理的瓶颈,在过去五年 中,算法类的负载从总算力的5%,提升到30%。AI已经成为大数 据领域的一等公民。 3. 分析/BI更偏重面向历史的总结(向后看),AI具备越来越好的面 向未来的预测能力(向前看) 4. 面向分析和BI的平台,需要升级以适应AI。例如:异构硬件的支 持,存储设计,FeatureStore,ModelOps https://www.vamsitalkstech.com/architecture/the-seven-characteristics-of-cloud-native-architectures/
10. 1- 概述当下的5个技术热点之五:“1+N+1”的架构成为主流 1. 基于湖仓的统一数据存储和管理(元数据) 2. 多种引擎并存(共享一套资源) 3. (可选)统一的用户入口和工作流管理 例子:阿里云飞天大数据平台架构 例子:Databricks Lakehouse Architecture
11. 2- 体系架构 – 分布式存储 存储系统架构的演进 多层存储体系 • 分布式存储系统,Multi-Replica,Append-Only,软件化交付 DFS • 典型代表:GFS、Apache HDFS • Master扩展性问题 Object Store 存储服务(数据湖) 多层一体化存储服务 • 在DFS之上封装一层支持海量对象的元数据服务层,软件化交付 • 企业级服务能力问题 • 在对象存储的基础上,封装一个服务层(认证\流控\多AZ\迁移支持等) • 服务态交付,同时大池模式,更低成本 • 目前主流云存储 • 托管化之后,使得更复杂的设计成为可能(对用户透明) • 在数据湖的基础上,解决SATA单盘IOPS与SSD成本高的问题
12. 2- 体系架构 – 分布式存储 存储系的统架构之上的数据格式层 列存文件格式 • 针对结构化表的列存格式 面向未来的发展趋势: 1. 存储系统的云化/SaaS化是明确的方向 • 支持编码、压缩、以及一定的PredicatePushdown • Apache Parquet,ORC 2. Format层活跃,整体开始向更好的数字组织演进,而 近实时列存文件 格式 文件之上的Table 的组织层 • 增加对实时化的支持(行到列的转换) 传统的Format层压缩/编码的换代取决于硬件发展 • Apache Delta,Hudi • 针对表到文件的映射 • 支持versioning、ACID、SchemaEvalution、Timetravel等等 • Apache Iceberg Note:很多数仓型的系统,存储系统外置,但格式是自研(一体化的) 3. 随实时化的演进,引入MemTable/LSM后,带来额外 的复杂度,存储系统要做多厚,如何保持好的开放 性,对上的接口封装是什么?仍然是一个关键问题
13. 2- 体系架构 – 分布式调度 分布式调度 之 资源调度系统的典型架构: • Yarn • Google Borg • Kubernetes • Aliyun Fuxi 1.0 • Google Omega • MS Apollo • Aliyun Fuxi 2.0 (图:The evolution of cluster scheduler architectures by Malte Schwarzkopf)
14. 2- 体系架构 – 分布式调度 广义的调度系统不仅仅是资源调度,还包含: 1. 作业调度(通常由AM完成,动态化是趋势,兼顾效率和鲁 棒性。例如Spark 3 Adaptive Execution) 2. 单机资源调度(由一个单机Agent完成,兼顾资源效率与 SLA) 3. “跨Region”的调度能力 面向未来的发展趋势: 1. K8S 统一调度框架:Google Borg 很早就证明了统一 的资源管理有利于最优匹配。K8S 在“非在线服务”调度 上仍然有挑战,K8S 准确的定位和灵活的插件式设计 应该可以成为最终的赢家。大数据调度器(比如 KubeBatch)是目前投资的一个热点。 2. 调度算法多元化和智能化(Learn based) 3. 面向越来越丰富异构硬件的调度支持,如何做好简单 的接口抽象。(K8S插件式设计,这方面有明显优势)
15. 2- 体系架构 – 元数据系统 概述: 1. 广义的元数据包括三部分: a) 逻辑元数据(表的基础信息,权限等),HMS是代表系统 b) 物理元数据(更丰富的Statistics,Version等) c) 元仓数据(数据血缘\访问方式和频度,作业的统计信息等) 2. 开源领域HMS为标准,元数据增强是近期的热点,E.g. Delta/Hudi,Iceberg 3. 随数据量发展,元数据系统本身也变成一个大数据问题(需要分布 式存储和分布式计算。例如做大量Data Pruning),同时它又是一 个典型的Serving系统 面向未来的发展趋势: 1. 元数据的统一化需求仍然强烈(基于湖仓一体,或者 逻辑数据湖)。元数据的统一化+存储接口抽象能一定 程度上屏蔽多样的存储系统。 2. 当前基于单一服务的元数据系统面临扩展性问题,能 否用大数据系统解决元数据的“大数据”问题?☺ 3. 我们现在谈到的元数据,仅仅指二位关系表达的元数 据系统。面向AI的元数据系统很可能完全不一样?
16. 2- 体系架构 – 多种计算引擎(略讲) 概述: 1. 计算引擎的发展将会在存储计算分离架构基础上,以一套数据支持 多种计算模式。(TP系统本talk未包含) 2. 大数据领域发展20年,主流计算模式已经基本固定,形成批处理、 流处理、交互式、机器学习四个核心方向。除了机器学习,批、 流、交互三个方向有一定重叠 a) 批处理 – 典型BSP模式,Spark站稳标准,近实时化是演进方向 b) 交互式分析 – 仍然以MPP/SharedData模式为主导,最近很火热 c) 流计算 – Event Processing Model,计算+增量状态的模式 d) ML/DL e) 其他小众计算模式:图计算,倒排检索系统等
17. 2- 体系架构 – 多种计算引擎(略讲) 面向未来的发展趋势: 1. 近实时架构的兴起 – 离线和实时系统均相对成熟,近实时架构兴起。以开源Apache Delta/Hudi 为代表的近实时架构成为热 点。近实时架构避免了流计算庞大的状态存储与管理,在成本和延迟上找到 2. IoT领域兴起 - 随设备的智能化和5/6G 网络兴起,设备数据最终会超过人的行为数据,面向IoT 的分析会逐渐火热。计算形态 可能会发生变化,从云为中心演进到云边端一体。 3. Learned based 优化- 机器学习技术会充分融入大数据系统(甚至任何系统)的设计,优化器、调度系统、存储格式、 Index/MV 设计等多个领域均会大量使用AI 的技术来做优化。例如Cost based Optimization 中的基于Statistics 的Cost 推导, 会大量被Learn based Statistics 取代。
18. 2- 体系架构 – 接入和管控层 领域概述: 1. 是“周边支持系统”,用来辅助存储和计算等,形成企业服务能力。 2. 随越来越多的大数据平台走向“托管化”或者说“服务化/SaaS”,框 架管控层越来越厚,大多数企业级能力增强来自管控部分。 3. 是1+N+1的最后一个1,当用户选用多个系统组合搭建一套大数据 平台,不同系统如果自己的管控层,造成服务的冗余和各系统的割 裂。因此很多云平台提供商,会致力于抽象统一规范和公共子模 块,例如统一认证协议/服务(Kerberos 等)、统一权限管理, Terraform API 标准等。 (图:阿里云飞天MaxCompute的管控架构)
19. 2- 体系架构 – 数据开发与治理平台层 领域概述: 1. 独立于数据平台之上的用户开发平台。但对于SaaS化的平 台,通常包含这个层次。 2. 如果存在多个引擎,同时它算是1+N+1的最后一个1。承担 多个引擎的串联工作。 3. 因海量的数据和作业管理优化挑战也很大,可以进一步形 成数据中台。 4. 面向用户,用户体验和效率是核心优化目标
20. 2- 体系架构 – 运维支持体系 领域概述: 1. 是一个子系统,是平台走向“生产”环境的必选组件 2. 不仅仅是日常理解的监控报警应急容灾,包括三个部分: a) 针对日常业务稳定性可以分为日常事件管理、问题管理、变更管理及 发布管理的标准化ITIL 流程; b) 针对成本管理包含了从资源预算、资源采购、预算执行、财务账单、 过保替换等围绕资源生命周期管理的相关事项; c) 针对效率包含了如何开发一体化的运维平台以高效支撑业务监控、服 务管理、系统管理、应急/安全管理等。 3. DevOps VS SRE 争论持续 面向未来的趋势: 1. 大量的使用Data/AI技术 E.g. 如何判断一个周期基线作业是否延迟(作业本身 就是波动的) 2. 部分能力解耦形成子系统
21. 3 - 面向未来4个发展趋势 趋势1:实现从离线到实时的全频谱 离线、流计算、交互计算技术实现各有特点,但又相互交织。随系统进一步发 展,新一代的系统要能最终形成从离线,到近实时,实时的的Full Spectrum。给 用户提供资源、效率、实时性三个方向的多个平衡点 趋势2:IoT成为新热点 目前人的行为数据(日志)是大数据计算的主要来源,超过80%的数据都来源于行为日志 (例如浏览、点击)。随5G+智能化设备的兴起,设备日志会成为更大的数据源增长点, 面向海量低价值设备数据的处理和优化,需要得到更多的关注。
22. 3 - 面向未来4个发展趋势 趋势3:数据安全、共享与隐私保护成为热点 随着大数据的发展,数据在多方数据融合场景下能发挥更大 的价值。然而在这种场景下用户的隐私保护以及数据的合规 问题成为了严重的问题。问题的本质是数据的开放性与使用 安全性的平衡。安全能力,包括数据安全/隐私保护能力, 是大数据体系中的重要能力基线之一。 数据安全不仅仅是个权限问题,包含全周期的管理
23. 3 - 面向未来4个发展趋势 趋势3:数据安全、共享与隐私保护成为热点 随数据被认知为资产,数据变现成为一个热门话题,它背后 的技术:数据安全共享和多方安全计算也成为热点方向。总 体看,数据变现(也称为数据安全共享),有两种典型场 景: 1. 一方数据对外售卖 a) 一方具备完成数据产权,希望通过共享获得价值 b) 主流数仓产品均提供这种方案(E.g. Snowflake DataSharing) 2. 多方数据交互计算 a) 需要多方数据求交,或者feature共享,获得价值 b) 联邦学习技术兴起,又分成同构平台和异构平台联邦 数据安全不仅仅是个权限问题,包含全周期的管理
24. 3 - 面向未来4个发展趋势 趋势4:AI for System (Automation) 大数据普惠,产生新的挑战: 1. 主流客户普遍达到10PB-EB 级数据和百万级别作业规模, 但海量数据和作业靠人很难管理和优化。传统的DBA 模式 或数据中台团队不再胜任。 2. 多种数据融合在一起,形成一个超大规模的数据图谱,但人 很难在海量规模上理解数据的所有价值。 3. 目前主流的大数据平台仍然需要多个系统混合(E.g. HDFS/OSS+Hive+Spark+Flink+Clickhouse+Hbase+ES) ,如何最优的组织数据和资源,仍然是关键挑战 复杂的数据组织 复杂的系统组织
25. 3 - 面向未来4个发展趋势 趋势4:AI for System (Automation) 1. 这个领域有非常多的Research和部分工业界 的工作,主要集中太大厂。E.g. Microsoft CloudView,SparkCurise,Ottertune. 2. 主线平台均在这个方向发力,带来很多价值, 3. 仍处在早期阶段,有很大的潜力空间 图:类比自动驾驶,自动化数仓的一个分级
26. 4 – 大数据体系已经基本建成,但头上仍有几朵乌云… 疑问1:OneSizeForAll? - 引擎发展多样,但最终是否能够诞生一套引擎满足多样的计算需求,并兼顾通用性和效率? 随大数据系统整体架构的稳定,各种引擎的发展逐渐进入收敛期,批计算、流计算、交互分析、机器学习收敛成为四个核心计算模式,每 个模式均有主线开源引擎成为事实标准。同时,引擎边界开始变得模糊,一体化等Hybrid 模式成为探索的新趋势,是否进一步收敛,收敛 的终态会是什么样子,是个热点话题。 图:MAD2021@A16Z
27. 4 – 大数据体系已经基本建成,但头上仍有几朵乌云… 疑问2:关系模型之外,是否会发展出其他主流计算范式? 大数据领域整体还是以二维关系表达和计算为基础(Relational DB 的理论基础),是否有新的计算范式在数据库领域也持续讨论了多年, 但过去的40 年,关系运算持续成为主流。其中核心原因,是二维关系表达更贴近人的理解能力,或者说高维表达和处理很难被人理解和处 理。 但关系表达有显著的短板,它无法处理半结构化和非结构化的数据(比如音视图类的数据)。 近几年兴起的深度学习技术,带来了一种全新的处理方式,海量正交化的高维特征作为输入,由深度神经网络理解数据,以模型作为产出 的引擎计算出结果。这种方式避免人脑对数据处理的局限性,可以在更高维度更复杂数据上做处理,给未来提供了一种新的处理方式的可 能性。 是否还有新的方向会诞生?图学习加持下的图领域能否焕发新生?
28. 4 – 大数据体系已经基本建成,但头上仍有几朵乌云… 疑问3:基于开源自建与直接选购企业级产品,谁更能获得用户的认可? 开源软件是大数据发展的关键推手,助力大数据系统的普及化。但面临如下挑战:开源系 统的软件交付模式,也给很多客户带来高维护成本? (E.g. 以一个典型的腰部互联网企业为 例,一个100 台规模的大数据平台硬件投入大约200万/年,同时需要维持一个3-5 人的研发/运维团 头部技术公司 (当前以一线互联网公司为代表) 队,年成本200-300 万/年。综合TCO 达到450 万/年) 中腰部技术公司 直接选择SaaS化企业级服务,开箱即用,综合成本低。但失去技术把控力? 趋势看,也许答案是客户分层 - 大型数据技术类客户自研或者自建,大多数用户(特别是 中小型)进入“技术冷静期”后,开始审慎考虑综合投资收益,考虑上云、以及直接采购企 业级产品+服务(放弃自建平台)。 传统企业,数字政府
29. 本话题下午对应专场安排:应云而生的新一代数据架构
30.

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.139.0. UTC+08:00, 2025-01-10 01:44
浙ICP备14020137号-1 $访客地图$