当下的大数据体系是怎样的

如果无法正常显示，请先停止浏览器的去广告插件。

2. 演讲人：关涛 • 2006年，加入微软亚洲研究院，构建国内第一个分布式KV系统SearchRepository （7000台物理服务器）和 Bing搜索的分布式存储后台Kirin Store。之后加入微软美国云计算和企业事业部，主持和参与开发了包括 Cosmos/Scope，iScope， Azure Datalake • 2016年回国，阿里云计算平台事业部研究员，阿里巴巴通用计算平台负责人，负责阿里巴巴主线大数据平台（飞天MaxCompute，Dataworks）。前阿里和蚂蚁集团技术委员会计算平台领域组长、阿里云架构组大数据组组长。 • 15年分布式系统和大数据平台开发经验，并著有多篇国内外会议论文和专利。 • My linkedin: https://www.linkedin.com/in/tao-tony-guan-1b57aa12/

3. 2021当下的数据平台体系是怎样的 1. 大数据领域发展的概述和5个热点 2. 分模块的平台架构概述 3. 面向未来4个发展趋势 4. 3个待讨论/解决的问题注：本文引用内容均来源于公开信息或网络

4. 1- 大数据领域发展的概述 1. 因搜索技术诞生，大数据领域发展了20年 2. 业务方面，大数据技术走过启蒙期，价值得到充分的认可，开始进“普惠期” （对比：AI进入复兴期） 3. 技术方向整体处于发展期，完成1.0，开始向2.0 演进（更加技术分层、更专业化），同时保持了非常快的迭代 4. 新硬件、云、通信网络、AI等发展推动持续的技术创新

5. 1- 概述当下的5个技术热点之一：架构的解耦和演进 1. Shared-Nothing（MPP） a) MPP来源于分布式数据库，很长一段时间是主流（E.g. Greenplum） b) 因数据和计算的绑定，扩展性和弹性问题 2. Shared-Data a) 是MPP架构的演进，Snowflake为代表 2. Shared-Everything a) DFS + Map-Reduce，计算资源完全Shared，带来更好的资源利用效率 b) BigQuery、MaxCompute为代表 c) 进一步发展：DisaggregateMemPool… （图：三种大数据体系架构）

6. 1- 概述当下的5个技术热点之二：云原生/云独立/托管化 1. 云技术实现了更好的规模化、更好的弹性/扩展能力和更低的成本，以及非常多的企业级能力（E.g. 多AZ容灾，完善的监控/部署/运维能力，企业级安全性），会全面替代传统 IDC 2. IaaS层的标准逐渐成熟稳定（Object Storage + K8S + VPC） 3. 即使是线下建设数据中心，也会采用云的思想因此新一代数据平台：云原生 + 云中立 https://www.vamsitalkstech.com/architecture/the-seven-characteristics-of-cloud-native-architectures/

7. 1- 概述当下的5个技术热点之三：数据湖与数仓的相互融合（图：数据湖与数仓技术的演进）

8. 1- 概述当下的5个技术热点之三：数据湖与数仓的相互融合（图：数据湖与数仓技术优势对比）（图：一种湖仓一体数据摆布的best practice）

9. 1- 概述当下的5个技术热点之四：AI成为一等公民 1. 很多的大数据平台是以分析/BI为主，采用SQL作为接口，侧重的是结构化数据和二维关系表达 2. Deep Learning技术突破非结构化数据处理的瓶颈，在过去五年中，算法类的负载从总算力的5%，提升到30%。AI已经成为大数据领域的一等公民。 3. 分析/BI更偏重面向历史的总结（向后看），AI具备越来越好的面向未来的预测能力（向前看） 4. 面向分析和BI的平台，需要升级以适应AI。例如：异构硬件的支持，存储设计，FeatureStore，ModelOps https://www.vamsitalkstech.com/architecture/the-seven-characteristics-of-cloud-native-architectures/

10. 1- 概述当下的5个技术热点之五：“1+N+1”的架构成为主流 1. 基于湖仓的统一数据存储和管理（元数据） 2. 多种引擎并存（共享一套资源） 3. （可选）统一的用户入口和工作流管理例子：阿里云飞天大数据平台架构例子：Databricks Lakehouse Architecture

11. 2- 体系架构 – 分布式存储存储系统架构的演进多层存储体系 • 分布式存储系统，Multi-Replica，Append-Only，软件化交付 DFS • 典型代表：GFS、Apache HDFS • Master扩展性问题 Object Store 存储服务（数据湖）多层一体化存储服务 • 在DFS之上封装一层支持海量对象的元数据服务层，软件化交付 • 企业级服务能力问题 • 在对象存储的基础上，封装一个服务层（认证\流控\多AZ\迁移支持等） • 服务态交付，同时大池模式，更低成本 • 目前主流云存储 • 托管化之后，使得更复杂的设计成为可能（对用户透明） • 在数据湖的基础上，解决SATA单盘IOPS与SSD成本高的问题

12. 2- 体系架构 – 分布式存储存储系的统架构之上的数据格式层列存文件格式 • 针对结构化表的列存格式面向未来的发展趋势： 1. 存储系统的云化/SaaS化是明确的方向 • 支持编码、压缩、以及一定的PredicatePushdown • Apache Parquet，ORC 2. Format层活跃，整体开始向更好的数字组织演进，而近实时列存文件格式文件之上的Table 的组织层 • 增加对实时化的支持（行到列的转换）传统的Format层压缩/编码的换代取决于硬件发展 • Apache Delta，Hudi • 针对表到文件的映射 • 支持versioning、ACID、SchemaEvalution、Timetravel等等 • Apache Iceberg Note：很多数仓型的系统，存储系统外置，但格式是自研（一体化的） 3. 随实时化的演进，引入MemTable/LSM后，带来额外的复杂度，存储系统要做多厚，如何保持好的开放性，对上的接口封装是什么？仍然是一个关键问题

13. 2- 体系架构 – 分布式调度分布式调度之资源调度系统的典型架构： • Yarn • Google Borg • Kubernetes • Aliyun Fuxi 1.0 • Google Omega • MS Apollo • Aliyun Fuxi 2.0 (图：The evolution of cluster scheduler architectures by Malte Schwarzkopf)

14. 2- 体系架构 – 分布式调度广义的调度系统不仅仅是资源调度，还包含： 1. 作业调度（通常由AM完成，动态化是趋势，兼顾效率和鲁棒性。例如Spark 3 Adaptive Execution） 2. 单机资源调度（由一个单机Agent完成，兼顾资源效率与 SLA） 3. “跨Region”的调度能力面向未来的发展趋势： 1. K8S 统一调度框架：Google Borg 很早就证明了统一的资源管理有利于最优匹配。K8S 在“非在线服务”调度上仍然有挑战，K8S 准确的定位和灵活的插件式设计应该可以成为最终的赢家。大数据调度器（比如 KubeBatch）是目前投资的一个热点。 2. 调度算法多元化和智能化（Learn based） 3. 面向越来越丰富异构硬件的调度支持，如何做好简单的接口抽象。（K8S插件式设计，这方面有明显优势）

15. 2- 体系架构 – 元数据系统概述： 1. 广义的元数据包括三部分： a) 逻辑元数据（表的基础信息，权限等），HMS是代表系统 b) 物理元数据（更丰富的Statistics，Version等） c) 元仓数据（数据血缘\访问方式和频度，作业的统计信息等） 2. 开源领域HMS为标准，元数据增强是近期的热点，E.g. Delta/Hudi，Iceberg 3. 随数据量发展，元数据系统本身也变成一个大数据问题（需要分布式存储和分布式计算。例如做大量Data Pruning），同时它又是一个典型的Serving系统面向未来的发展趋势： 1. 元数据的统一化需求仍然强烈（基于湖仓一体，或者逻辑数据湖）。元数据的统一化+存储接口抽象能一定程度上屏蔽多样的存储系统。 2. 当前基于单一服务的元数据系统面临扩展性问题，能否用大数据系统解决元数据的“大数据”问题？☺ 3. 我们现在谈到的元数据，仅仅指二位关系表达的元数据系统。面向AI的元数据系统很可能完全不一样？

16. 2- 体系架构 – 多种计算引擎（略讲）概述： 1. 计算引擎的发展将会在存储计算分离架构基础上，以一套数据支持多种计算模式。（TP系统本talk未包含） 2. 大数据领域发展20年，主流计算模式已经基本固定，形成批处理、流处理、交互式、机器学习四个核心方向。除了机器学习，批、流、交互三个方向有一定重叠 a) 批处理 – 典型BSP模式，Spark站稳标准，近实时化是演进方向 b) 交互式分析 – 仍然以MPP/SharedData模式为主导，最近很火热 c) 流计算 – Event Processing Model，计算+增量状态的模式 d) ML/DL e) 其他小众计算模式：图计算，倒排检索系统等

17. 2- 体系架构 – 多种计算引擎（略讲）面向未来的发展趋势： 1. 近实时架构的兴起 – 离线和实时系统均相对成熟，近实时架构兴起。以开源Apache Delta/Hudi 为代表的近实时架构成为热点。近实时架构避免了流计算庞大的状态存储与管理，在成本和延迟上找到 2. IoT领域兴起 - 随设备的智能化和5/6G 网络兴起，设备数据最终会超过人的行为数据，面向IoT 的分析会逐渐火热。计算形态可能会发生变化，从云为中心演进到云边端一体。 3. Learned based 优化- 机器学习技术会充分融入大数据系统（甚至任何系统）的设计，优化器、调度系统、存储格式、 Index/MV 设计等多个领域均会大量使用AI 的技术来做优化。例如Cost based Optimization 中的基于Statistics 的Cost 推导，会大量被Learn based Statistics 取代。

18. 2- 体系架构 – 接入和管控层领域概述： 1. 是“周边支持系统”，用来辅助存储和计算等，形成企业服务能力。 2. 随越来越多的大数据平台走向“托管化”或者说“服务化/SaaS”，框架管控层越来越厚，大多数企业级能力增强来自管控部分。 3. 是1+N+1的最后一个1，当用户选用多个系统组合搭建一套大数据平台，不同系统如果自己的管控层，造成服务的冗余和各系统的割裂。因此很多云平台提供商，会致力于抽象统一规范和公共子模块，例如统一认证协议/服务（Kerberos 等）、统一权限管理， Terraform API 标准等。 (图：阿里云飞天MaxCompute的管控架构)

19. 2- 体系架构 – 数据开发与治理平台层领域概述： 1. 独立于数据平台之上的用户开发平台。但对于SaaS化的平台，通常包含这个层次。 2. 如果存在多个引擎，同时它算是1+N+1的最后一个1。承担多个引擎的串联工作。 3. 因海量的数据和作业管理优化挑战也很大，可以进一步形成数据中台。 4. 面向用户，用户体验和效率是核心优化目标

20. 2- 体系架构 – 运维支持体系领域概述： 1. 是一个子系统，是平台走向“生产”环境的必选组件 2. 不仅仅是日常理解的监控报警应急容灾，包括三个部分： a) 针对日常业务稳定性可以分为日常事件管理、问题管理、变更管理及发布管理的标准化ITIL 流程； b) 针对成本管理包含了从资源预算、资源采购、预算执行、财务账单、过保替换等围绕资源生命周期管理的相关事项； c) 针对效率包含了如何开发一体化的运维平台以高效支撑业务监控、服务管理、系统管理、应急/安全管理等。 3. DevOps VS SRE 争论持续面向未来的趋势： 1. 大量的使用Data/AI技术 E.g. 如何判断一个周期基线作业是否延迟（作业本身就是波动的） 2. 部分能力解耦形成子系统

21. 3 - 面向未来4个发展趋势趋势1：实现从离线到实时的全频谱离线、流计算、交互计算技术实现各有特点，但又相互交织。随系统进一步发展，新一代的系统要能最终形成从离线，到近实时，实时的的Full Spectrum。给用户提供资源、效率、实时性三个方向的多个平衡点趋势2：IoT成为新热点目前人的行为数据（日志）是大数据计算的主要来源，超过80%的数据都来源于行为日志（例如浏览、点击）。随5G+智能化设备的兴起，设备日志会成为更大的数据源增长点，面向海量低价值设备数据的处理和优化，需要得到更多的关注。

22. 3 - 面向未来4个发展趋势趋势3：数据安全、共享与隐私保护成为热点随着大数据的发展，数据在多方数据融合场景下能发挥更大的价值。然而在这种场景下用户的隐私保护以及数据的合规问题成为了严重的问题。问题的本质是数据的开放性与使用安全性的平衡。安全能力，包括数据安全/隐私保护能力，是大数据体系中的重要能力基线之一。数据安全不仅仅是个权限问题，包含全周期的管理

23. 3 - 面向未来4个发展趋势趋势3：数据安全、共享与隐私保护成为热点随数据被认知为资产，数据变现成为一个热门话题，它背后的技术：数据安全共享和多方安全计算也成为热点方向。总体看，数据变现（也称为数据安全共享），有两种典型场景： 1. 一方数据对外售卖 a) 一方具备完成数据产权，希望通过共享获得价值 b) 主流数仓产品均提供这种方案（E.g. Snowflake DataSharing） 2. 多方数据交互计算 a) 需要多方数据求交，或者feature共享，获得价值 b) 联邦学习技术兴起，又分成同构平台和异构平台联邦数据安全不仅仅是个权限问题，包含全周期的管理

24. 3 - 面向未来4个发展趋势趋势4：AI for System （Automation）大数据普惠，产生新的挑战： 1. 主流客户普遍达到10PB-EB 级数据和百万级别作业规模，但海量数据和作业靠人很难管理和优化。传统的DBA 模式或数据中台团队不再胜任。 2. 多种数据融合在一起，形成一个超大规模的数据图谱，但人很难在海量规模上理解数据的所有价值。 3. 目前主流的大数据平台仍然需要多个系统混合（E.g. HDFS/OSS+Hive+Spark+Flink+Clickhouse+Hbase+ES），如何最优的组织数据和资源，仍然是关键挑战复杂的数据组织复杂的系统组织

25. 3 - 面向未来4个发展趋势趋势4：AI for System （Automation） 1. 这个领域有非常多的Research和部分工业界的工作，主要集中太大厂。E.g. Microsoft CloudView，SparkCurise，Ottertune. 2. 主线平台均在这个方向发力，带来很多价值， 3. 仍处在早期阶段，有很大的潜力空间图：类比自动驾驶，自动化数仓的一个分级

26. 4 – 大数据体系已经基本建成，但头上仍有几朵乌云… 疑问1：OneSizeForAll？ - 引擎发展多样，但最终是否能够诞生一套引擎满足多样的计算需求，并兼顾通用性和效率？随大数据系统整体架构的稳定，各种引擎的发展逐渐进入收敛期，批计算、流计算、交互分析、机器学习收敛成为四个核心计算模式，每个模式均有主线开源引擎成为事实标准。同时，引擎边界开始变得模糊，一体化等Hybrid 模式成为探索的新趋势，是否进一步收敛，收敛的终态会是什么样子，是个热点话题。图：MAD2021@A16Z

27. 4 – 大数据体系已经基本建成，但头上仍有几朵乌云… 疑问2：关系模型之外，是否会发展出其他主流计算范式？大数据领域整体还是以二维关系表达和计算为基础（Relational DB 的理论基础），是否有新的计算范式在数据库领域也持续讨论了多年，但过去的40 年，关系运算持续成为主流。其中核心原因，是二维关系表达更贴近人的理解能力，或者说高维表达和处理很难被人理解和处理。但关系表达有显著的短板，它无法处理半结构化和非结构化的数据（比如音视图类的数据）。近几年兴起的深度学习技术，带来了一种全新的处理方式，海量正交化的高维特征作为输入，由深度神经网络理解数据，以模型作为产出的引擎计算出结果。这种方式避免人脑对数据处理的局限性，可以在更高维度更复杂数据上做处理，给未来提供了一种新的处理方式的可能性。是否还有新的方向会诞生？图学习加持下的图领域能否焕发新生？

28. 4 – 大数据体系已经基本建成，但头上仍有几朵乌云… 疑问3：基于开源自建与直接选购企业级产品，谁更能获得用户的认可？开源软件是大数据发展的关键推手，助力大数据系统的普及化。但面临如下挑战：开源系统的软件交付模式，也给很多客户带来高维护成本？（E.g. 以一个典型的腰部互联网企业为例，一个100 台规模的大数据平台硬件投入大约200万/年，同时需要维持一个3-5 人的研发/运维团头部技术公司（当前以一线互联网公司为代表）队，年成本200-300 万/年。综合TCO 达到450 万/年）中腰部技术公司直接选择SaaS化企业级服务，开箱即用，综合成本低。但失去技术把控力？趋势看，也许答案是客户分层 - 大型数据技术类客户自研或者自建，大多数用户（特别是中小型）进入“技术冷静期”后，开始审慎考虑综合投资收益，考虑上云、以及直接采购企业级产品+服务（放弃自建平台）。传统企业，数字政府

29. 本话题下午对应专场安排：应云而生的新一代数据架构

30.