当下的大数据体系是怎样的
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2. 演讲人:关涛
•
2006年,加入微软亚洲研究院,构建国内第一个分布式KV系统SearchRepository (7000台物理服务
器)和 Bing搜索的分布式存储后台Kirin Store。之后加入微软美国云计算和企业事业部,主持和参
与开发了包括 Cosmos/Scope,iScope, Azure Datalake
•
2016年回国,阿里云 计算平台事业部 研究员,阿里巴巴通用计算平台负责人,负责阿里巴巴主线
大数据平台(飞天MaxCompute,Dataworks)。前阿里和蚂蚁集团技术委员会计算平台领域组长、
阿里云架构组大数据组组长。
• 15年分布式系统和大数据平台开发经验,并著有多篇国内外会议论文和专利。
• My linkedin: https://www.linkedin.com/in/tao-tony-guan-1b57aa12/
3. 2021当下的数据平台体系是怎样的
1. 大数据领域发展的概述和5个热点
2. 分模块的平台架构概述
3. 面向未来4个发展趋势
4. 3个待讨论/解决的问题
注:本文引用内容均来源于公开信息或网络
4. 1- 大数据领域发展的概述
1. 因搜索技术诞生,大数据领域发展了20年
2. 业务方面,大数据技术走过启蒙期,价值得到充
分的认可,开始进“普惠期” (对比:AI进入复兴
期)
3.
技术方向整体处于发展期,完成1.0,开始向2.0
演进(更加技术分层、更专业化),同时保持了
非常快的迭代
4.
新硬件、云、通信网络、AI等发展推动持续的技
术创新
5. 1- 概述当下的5个技术热点之一:架构的解耦和演进
1.
Shared-Nothing(MPP)
a) MPP来源于分布式数据库,很长一段时间是主流(E.g.
Greenplum)
b) 因数据和计算的绑定,扩展性和弹性问题
2.
Shared-Data
a) 是MPP架构的演进,Snowflake为代表
2. Shared-Everything
a) DFS + Map-Reduce,计算资源完全Shared,带来更
好的资源利用效率
b) BigQuery、MaxCompute为代表
c) 进一步发展:DisaggregateMemPool…
(图:三种大数据体系架构)
6. 1- 概述当下的5个技术热点之二:云原生/云独立/托管化
1.
云技术实现了更好的规模化、更好的弹性/扩展能力和更低
的成本,以及非常多的企业级能力(E.g. 多AZ容灾,完善
的监控/部署/运维能力,企业级安全性),会全面替代传统
IDC
2. IaaS层的标准逐渐成熟稳定(Object Storage + K8S + VPC)
3. 即使是线下建设数据中心,也会采用云的思想
因此新一代数据平台:云原生 + 云中立
https://www.vamsitalkstech.com/architecture/the-seven-characteristics-of-cloud-native-architectures/
7. 1- 概述当下的5个技术热点之三:数据湖与数仓的相互融合
(图:数据湖与数仓技术的演进)
8. 1- 概述当下的5个技术热点之三:数据湖与数仓的相互融合
(图:数据湖与数仓技术优势对比)
(图:一种湖仓一体数据摆布的best practice)
9. 1- 概述当下的5个技术热点之四:AI成为一等公民
1.
很多的大数据平台是以分析/BI为主,采用SQL作为接口,侧重的
是结构化数据和二维关系表达
2.
Deep Learning技术突破非结构化数据处理的瓶颈,在过去五年
中,算法类的负载从总算力的5%,提升到30%。AI已经成为大数
据领域的一等公民。
3.
分析/BI更偏重面向历史的总结(向后看),AI具备越来越好的面
向未来的预测能力(向前看)
4.
面向分析和BI的平台,需要升级以适应AI。例如:异构硬件的支
持,存储设计,FeatureStore,ModelOps
https://www.vamsitalkstech.com/architecture/the-seven-characteristics-of-cloud-native-architectures/
10. 1- 概述当下的5个技术热点之五:“1+N+1”的架构成为主流
1. 基于湖仓的统一数据存储和管理(元数据)
2. 多种引擎并存(共享一套资源)
3. (可选)统一的用户入口和工作流管理
例子:阿里云飞天大数据平台架构
例子:Databricks Lakehouse Architecture
11. 2- 体系架构 – 分布式存储
存储系统架构的演进
多层存储体系
• 分布式存储系统,Multi-Replica,Append-Only,软件化交付
DFS
• 典型代表:GFS、Apache HDFS
• Master扩展性问题
Object Store
存储服务(数据湖)
多层一体化存储服务
• 在DFS之上封装一层支持海量对象的元数据服务层,软件化交付
• 企业级服务能力问题
• 在对象存储的基础上,封装一个服务层(认证\流控\多AZ\迁移支持等)
• 服务态交付,同时大池模式,更低成本
• 目前主流云存储
• 托管化之后,使得更复杂的设计成为可能(对用户透明)
• 在数据湖的基础上,解决SATA单盘IOPS与SSD成本高的问题
12. 2- 体系架构 – 分布式存储
存储系的统架构之上的数据格式层
列存文件格式
• 针对结构化表的列存格式
面向未来的发展趋势:
1. 存储系统的云化/SaaS化是明确的方向
• 支持编码、压缩、以及一定的PredicatePushdown
• Apache Parquet,ORC
2. Format层活跃,整体开始向更好的数字组织演进,而
近实时列存文件
格式
文件之上的Table
的组织层
• 增加对实时化的支持(行到列的转换)
传统的Format层压缩/编码的换代取决于硬件发展
• Apache Delta,Hudi
• 针对表到文件的映射
• 支持versioning、ACID、SchemaEvalution、Timetravel等等
• Apache Iceberg
Note:很多数仓型的系统,存储系统外置,但格式是自研(一体化的)
3. 随实时化的演进,引入MemTable/LSM后,带来额外
的复杂度,存储系统要做多厚,如何保持好的开放
性,对上的接口封装是什么?仍然是一个关键问题
13. 2- 体系架构 – 分布式调度
分布式调度 之 资源调度系统的典型架构:
• Yarn
• Google Borg
• Kubernetes
• Aliyun Fuxi 1.0
• Google Omega
• MS Apollo
• Aliyun Fuxi 2.0
(图:The evolution of cluster scheduler architectures by Malte Schwarzkopf)
14. 2- 体系架构 – 分布式调度
广义的调度系统不仅仅是资源调度,还包含:
1. 作业调度(通常由AM完成,动态化是趋势,兼顾效率和鲁
棒性。例如Spark 3 Adaptive Execution)
2. 单机资源调度(由一个单机Agent完成,兼顾资源效率与
SLA)
3. “跨Region”的调度能力
面向未来的发展趋势:
1. K8S 统一调度框架:Google Borg 很早就证明了统一
的资源管理有利于最优匹配。K8S 在“非在线服务”调度
上仍然有挑战,K8S 准确的定位和灵活的插件式设计
应该可以成为最终的赢家。大数据调度器(比如
KubeBatch)是目前投资的一个热点。
2. 调度算法多元化和智能化(Learn based)
3. 面向越来越丰富异构硬件的调度支持,如何做好简单
的接口抽象。(K8S插件式设计,这方面有明显优势)
15. 2- 体系架构 – 元数据系统
概述:
1. 广义的元数据包括三部分:
a) 逻辑元数据(表的基础信息,权限等),HMS是代表系统
b) 物理元数据(更丰富的Statistics,Version等)
c) 元仓数据(数据血缘\访问方式和频度,作业的统计信息等)
2. 开源领域HMS为标准,元数据增强是近期的热点,E.g.
Delta/Hudi,Iceberg
3. 随数据量发展,元数据系统本身也变成一个大数据问题(需要分布
式存储和分布式计算。例如做大量Data Pruning),同时它又是一
个典型的Serving系统
面向未来的发展趋势:
1. 元数据的统一化需求仍然强烈(基于湖仓一体,或者
逻辑数据湖)。元数据的统一化+存储接口抽象能一定
程度上屏蔽多样的存储系统。
2. 当前基于单一服务的元数据系统面临扩展性问题,能
否用大数据系统解决元数据的“大数据”问题?☺
3. 我们现在谈到的元数据,仅仅指二位关系表达的元数
据系统。面向AI的元数据系统很可能完全不一样?
16. 2- 体系架构 – 多种计算引擎(略讲)
概述:
1. 计算引擎的发展将会在存储计算分离架构基础上,以一套数据支持
多种计算模式。(TP系统本talk未包含)
2. 大数据领域发展20年,主流计算模式已经基本固定,形成批处理、
流处理、交互式、机器学习四个核心方向。除了机器学习,批、
流、交互三个方向有一定重叠
a) 批处理 – 典型BSP模式,Spark站稳标准,近实时化是演进方向
b) 交互式分析 – 仍然以MPP/SharedData模式为主导,最近很火热
c) 流计算 – Event Processing Model,计算+增量状态的模式
d) ML/DL
e) 其他小众计算模式:图计算,倒排检索系统等
17. 2- 体系架构 – 多种计算引擎(略讲)
面向未来的发展趋势:
1. 近实时架构的兴起 – 离线和实时系统均相对成熟,近实时架构兴起。以开源Apache Delta/Hudi 为代表的近实时架构成为热
点。近实时架构避免了流计算庞大的状态存储与管理,在成本和延迟上找到
2. IoT领域兴起 - 随设备的智能化和5/6G 网络兴起,设备数据最终会超过人的行为数据,面向IoT 的分析会逐渐火热。计算形态
可能会发生变化,从云为中心演进到云边端一体。
3. Learned based 优化- 机器学习技术会充分融入大数据系统(甚至任何系统)的设计,优化器、调度系统、存储格式、
Index/MV 设计等多个领域均会大量使用AI 的技术来做优化。例如Cost based Optimization 中的基于Statistics 的Cost 推导,
会大量被Learn based Statistics 取代。
18. 2- 体系架构 – 接入和管控层
领域概述:
1. 是“周边支持系统”,用来辅助存储和计算等,形成企业服务能力。
2. 随越来越多的大数据平台走向“托管化”或者说“服务化/SaaS”,框
架管控层越来越厚,大多数企业级能力增强来自管控部分。
3. 是1+N+1的最后一个1,当用户选用多个系统组合搭建一套大数据
平台,不同系统如果自己的管控层,造成服务的冗余和各系统的割
裂。因此很多云平台提供商,会致力于抽象统一规范和公共子模
块,例如统一认证协议/服务(Kerberos 等)、统一权限管理,
Terraform API 标准等。
(图:阿里云飞天MaxCompute的管控架构)
19. 2- 体系架构 – 数据开发与治理平台层
领域概述:
1. 独立于数据平台之上的用户开发平台。但对于SaaS化的平
台,通常包含这个层次。
2. 如果存在多个引擎,同时它算是1+N+1的最后一个1。承担
多个引擎的串联工作。
3. 因海量的数据和作业管理优化挑战也很大,可以进一步形
成数据中台。
4. 面向用户,用户体验和效率是核心优化目标
20. 2- 体系架构 – 运维支持体系
领域概述:
1. 是一个子系统,是平台走向“生产”环境的必选组件
2. 不仅仅是日常理解的监控报警应急容灾,包括三个部分:
a) 针对日常业务稳定性可以分为日常事件管理、问题管理、变更管理及
发布管理的标准化ITIL 流程;
b) 针对成本管理包含了从资源预算、资源采购、预算执行、财务账单、
过保替换等围绕资源生命周期管理的相关事项;
c) 针对效率包含了如何开发一体化的运维平台以高效支撑业务监控、服
务管理、系统管理、应急/安全管理等。
3. DevOps VS SRE 争论持续
面向未来的趋势:
1. 大量的使用Data/AI技术 E.g. 如何判断一个周期基线作业是否延迟(作业本身
就是波动的)
2. 部分能力解耦形成子系统
21. 3 - 面向未来4个发展趋势
趋势1:实现从离线到实时的全频谱
离线、流计算、交互计算技术实现各有特点,但又相互交织。随系统进一步发
展,新一代的系统要能最终形成从离线,到近实时,实时的的Full Spectrum。给
用户提供资源、效率、实时性三个方向的多个平衡点
趋势2:IoT成为新热点
目前人的行为数据(日志)是大数据计算的主要来源,超过80%的数据都来源于行为日志
(例如浏览、点击)。随5G+智能化设备的兴起,设备日志会成为更大的数据源增长点,
面向海量低价值设备数据的处理和优化,需要得到更多的关注。
22. 3 - 面向未来4个发展趋势
趋势3:数据安全、共享与隐私保护成为热点
随着大数据的发展,数据在多方数据融合场景下能发挥更大
的价值。然而在这种场景下用户的隐私保护以及数据的合规
问题成为了严重的问题。问题的本质是数据的开放性与使用
安全性的平衡。安全能力,包括数据安全/隐私保护能力,
是大数据体系中的重要能力基线之一。
数据安全不仅仅是个权限问题,包含全周期的管理
23. 3 - 面向未来4个发展趋势
趋势3:数据安全、共享与隐私保护成为热点
随数据被认知为资产,数据变现成为一个热门话题,它背后
的技术:数据安全共享和多方安全计算也成为热点方向。总
体看,数据变现(也称为数据安全共享),有两种典型场
景:
1. 一方数据对外售卖
a) 一方具备完成数据产权,希望通过共享获得价值
b) 主流数仓产品均提供这种方案(E.g. Snowflake
DataSharing)
2. 多方数据交互计算
a) 需要多方数据求交,或者feature共享,获得价值
b) 联邦学习技术兴起,又分成同构平台和异构平台联邦
数据安全不仅仅是个权限问题,包含全周期的管理
24. 3 - 面向未来4个发展趋势
趋势4:AI for System (Automation)
大数据普惠,产生新的挑战:
1. 主流客户普遍达到10PB-EB 级数据和百万级别作业规模,
但海量数据和作业靠人很难管理和优化。传统的DBA 模式
或数据中台团队不再胜任。
2. 多种数据融合在一起,形成一个超大规模的数据图谱,但人
很难在海量规模上理解数据的所有价值。
3. 目前主流的大数据平台仍然需要多个系统混合(E.g.
HDFS/OSS+Hive+Spark+Flink+Clickhouse+Hbase+ES)
,如何最优的组织数据和资源,仍然是关键挑战
复杂的数据组织
复杂的系统组织
25. 3 - 面向未来4个发展趋势
趋势4:AI for System (Automation)
1. 这个领域有非常多的Research和部分工业界
的工作,主要集中太大厂。E.g. Microsoft
CloudView,SparkCurise,Ottertune.
2. 主线平台均在这个方向发力,带来很多价值,
3. 仍处在早期阶段,有很大的潜力空间
图:类比自动驾驶,自动化数仓的一个分级
26. 4 – 大数据体系已经基本建成,但头上仍有几朵乌云…
疑问1:OneSizeForAll? - 引擎发展多样,但最终是否能够诞生一套引擎满足多样的计算需求,并兼顾通用性和效率?
随大数据系统整体架构的稳定,各种引擎的发展逐渐进入收敛期,批计算、流计算、交互分析、机器学习收敛成为四个核心计算模式,每
个模式均有主线开源引擎成为事实标准。同时,引擎边界开始变得模糊,一体化等Hybrid 模式成为探索的新趋势,是否进一步收敛,收敛
的终态会是什么样子,是个热点话题。
图:MAD2021@A16Z
27. 4 – 大数据体系已经基本建成,但头上仍有几朵乌云…
疑问2:关系模型之外,是否会发展出其他主流计算范式?
大数据领域整体还是以二维关系表达和计算为基础(Relational DB 的理论基础),是否有新的计算范式在数据库领域也持续讨论了多年,
但过去的40 年,关系运算持续成为主流。其中核心原因,是二维关系表达更贴近人的理解能力,或者说高维表达和处理很难被人理解和处
理。
但关系表达有显著的短板,它无法处理半结构化和非结构化的数据(比如音视图类的数据)。
近几年兴起的深度学习技术,带来了一种全新的处理方式,海量正交化的高维特征作为输入,由深度神经网络理解数据,以模型作为产出
的引擎计算出结果。这种方式避免人脑对数据处理的局限性,可以在更高维度更复杂数据上做处理,给未来提供了一种新的处理方式的可
能性。
是否还有新的方向会诞生?图学习加持下的图领域能否焕发新生?
28. 4 – 大数据体系已经基本建成,但头上仍有几朵乌云…
疑问3:基于开源自建与直接选购企业级产品,谁更能获得用户的认可?
开源软件是大数据发展的关键推手,助力大数据系统的普及化。但面临如下挑战:开源系
统的软件交付模式,也给很多客户带来高维护成本? (E.g. 以一个典型的腰部互联网企业为
例,一个100 台规模的大数据平台硬件投入大约200万/年,同时需要维持一个3-5 人的研发/运维团
头部技术公司
(当前以一线互联网公司为代表)
队,年成本200-300 万/年。综合TCO 达到450 万/年)
中腰部技术公司
直接选择SaaS化企业级服务,开箱即用,综合成本低。但失去技术把控力?
趋势看,也许答案是客户分层 - 大型数据技术类客户自研或者自建,大多数用户(特别是
中小型)进入“技术冷静期”后,开始审慎考虑综合投资收益,考虑上云、以及直接采购企
业级产品+服务(放弃自建平台)。
传统企业,数字政府
29. 本话题下午对应专场安排:应云而生的新一代数据架构
30.