阿里云湖仓一体最佳实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 阿里云湖仓一体最佳实践
-
李睿博(艺卓)
阿里云 – 通用计算平台
2021/11
2.
3. -
今天的大数据——数据仓库?数据湖?湖仓一体!
湖仓一体关键技术
目录
阿里云湖仓一体成功案例
未来展望
4. 今天的大数据
• 用户视角看大数据
• 数据仓库模式
• 数据湖模式
• 湖仓一体新模式
5. 用户/业务视角看大数据
大数据
日志
ADS
报表
DWS
业务数据库
开源
开源
DWD
外部数据源
节流
探查
ODS
机器学习
6. 基于数据湖的大数据系统在节流过程中的常见痛点
版本控制
人员
基线、报警
超大规模作业
计算资源规划及管理
运维
数据建模
数据发现
数据血缘
权限控制
开发
引擎性能
数据质量
数据生命周期管理
数据
开发、生产隔离
7. 数据仓库和数据湖系统的增长曲线
数据湖
性
长
成
云数据
仓库
客户如何才能同时享受数据湖的灵活
性和云数据仓库的成长性?
性
活
灵
特定规模前,数据湖灵活性占优,之后数仓成长性占优
业务规模
8. 阿里云湖仓一体架构
角色
数据分析师
大数据工程师
仓优化场景
湖优化场景
应用业务
非结构化数据分析
Machine
Learning
Ad-hoc / BI
数据科学家
Reporting
Realtime
DWH
ETL
DataWorks
开发IDE 任务调度 数据安全
数据资产管理 数据服务 开放及定制
数据统一开发管理
Open Source Hadoop
Local IDC
On ECS
SQL/Spark
HMS
/DLF
HDF
S
PAI TF/
GNN
MC Meta Service
HMS
VPC
Alibaba EMR
Python
/Mars
MaxComput
e
Private
Access
link
VPC
热
数
据
3 rd
Applications
3 rd engine
(CUPID)
DL
F
Cache
OSS
Data Catalog
ETL
Meta
Access Control
RDBM
S
NoSQL
MaxCompute
Filesystem
OSS
Data
9. 湖仓一体的关键技术
• Share Everything 架构
• 统一 IO 层(智能 Cache)
• 安全增强
• DataWorks
10. Share Everything + 云原生 = 极致的弹性算力
Shared Nothing
计算
虚拟机
物理机
存储
Shared Storage
物理机
虚拟机
Shared Everything
容器 容器 容器
容器 容器 容器
虚拟机
物理机
云存储
云存储
11. 统一 IO 层(智能 Cache)
SQL
PAI
Spark
Common IO
Meta
Cache
Network
基于历史数据预读
OSS
屏蔽网络条件差别
HDFS
MEM
NVME
SATA
智能选取 cache 介质
数据格式兼容
屏蔽内外表差别
12. 智能 Cache 效果
Benchmark 整体加速 63%,IO 加速一倍
来自某客户生产作业对比实测
13. 安全增强
MaxCompute
业务层 • 源端细粒度授权(表、列级别)
• 目的端访问控制策略(Path)
应用层 • Kerberos(身份)
• STS 授权策略(Bucket)
网络层 • 安全组策略(IP/Port)
OSS
Hadoop
14. DataWorks
统一数据资产
统一数据血缘
15. DataWorks
统一的引擎系统对接管理
统一开发平台及工作流编排调度
16.
17. 阿里云湖仓一体成功案例
• 弹性算力场景
• 机器学习场景
• 数据中台场景一
• 数据中台场景二
18. 弹性算力场景:国内某知名互联网社交媒体公司
业务介绍:
• 主要做社交媒体领域里的推荐 / 排序、文本 /
应用业务层
图片推荐
关注
视频推荐
图像分类、反垃圾 / 反作弊等。在开源
Hadoop数据湖的基础上,借助阿里巴巴
SQL计算服务
征工程、模型训练等性能问题,形成了
机器学习服务
MaxCompute 和Hadoop数据湖共存的格局
• 数据同步安排专人专项负责,工作量巨大
• 训练数据体量大,导致耗时多,无法满足实时训
练要求
• 新写 SQL 数据处理 query,无法复用 Hive
SQL 原有 query
价值:
•
封装构建AI计算中台,极大提升该团队的业务
支撑能力
实时计算服务
计算引擎层
MC
SQL
MC
Spark
PAI TF
MC Meta Service
热
数
据
PAI
GNN
Hive
SQL
存储引擎层
MaxC数仓内置优化存储
Spark
物料
特征
智能Cache,冷热分层
HDFS数据湖
异构集群层
MaxCompute集群
PrivateAccess Link
Flink
Hive Meta Service
元数据透视
Cache
移,原有生产作业无缝灵活调度MaxCompute
•
深度学习服务
通过湖仓一体,无须进行数据搬迁和作业迁
集群和 EMR 集群中,且性能有提升
内容理解
内容安全
AI计算中台层
MaxCompute和PAI,解决了超大规模下的特
痛点:
反欺诈
EMR Hadoop集群
样本
19. 数据中台一:国内某知名互联网游戏公司
其他业务方
创新业务:广告算法团队
业务介绍:
•
Serverless Spark
PAI (Studio+ EAS)
客户广告算法团队是湖仓一体主要客户,主要应用
是机器学习DW + MC + PAI + EAS 在线模型服
务
MaxComput
e
ClickHouse
痛点:
•
算法团队想更集中在业务和算法上,需要自服务程
度高、一站式的机器学习平台
•
EMR
Hadoop 集群是多团队共用,使用集群管控较严,
无法短时间支撑大workload 的创新业务
价值:
•
OSS
通过湖仓一体将新业务平台与原有数据平台打通,
PAI on MaxCompute + DataWorks 为客户创新
业务提供敏捷、一站式机器学习模型开发、训练、
RDS
模型发布,大规模计算能力、EAS 模型发布流程
•
并复制到其他业务线,起到好的示范作用
数据中台团队
SLS
20. 数据中台二:国内某知名互联网金融公司
业务介绍:
• 丰富的大数据平台建设经验,持续进行平台的迭
EMR
代升级以满足业务不断发展的需求。从国外某厂
数据中台
商迁移到阿里云后,积极建设和改造数据湖架构
痛点:
•第一代数据湖是 EMR + OSS,公司引入的数据
EMR ETLX
EMR LOG
中台的执行引擎和存储是Maxcompute,两套异
MaxCompute MaxCompute Hologres交
ODS
CDM
互式分析
构的执行引擎带来存储冗余、元数据不统一、权
限不统一、湖仓计算不能自由流动
价值:
•
EMR Presto
EMR ML
MaxCompute
PDW
MaxCompute
ADS
将 EMR 的元数据统一到DLF,底层使用 OSS
作统一存储,并通过湖仓一体打通EMR数据湖
和MaxCompute数仓两套体系,让数据和计算
数据湖DLF(元数据管理、用户管理、权限管理)
在湖和仓之间自由流动
•
实现湖仓数据分层存储。数据中台对数据湖数
据进行维度建模的中间表存储在MaxCompute
上,EMR或其他引擎消费ADS层
OSS对象存储
MaxCompute存储
其他异构
计算引擎
21. 未来展望
22. 湖仓一体技术加速融合
01 非结构化
• 内置的非结构化数据存储、计算能力
• 半结构化数据处理能力增强
• 非结构化数据的资产统一管理
02 治理、管理
• 三层模型,
从 database 到 catalog
• 账号、权限体系融合
03 应用场景
• update/delete
• 面向 BI 场景的加速查询
• 业务数据库实时同步
23.
24. Share Everything + 云原生 = 极致的弹性算力
Shared Nothing
Shared Storage
Shared Everything
25. 数据仓库和数据湖
对比维度
数据湖 数据仓库
方法论 事后建模
Schema-on-read 事前建模
Schema-on-Write
存储类型 结构化/半结构化/非结构化 结构化/半结构化
灵活性
企业级能力
计算引擎 向所有引擎开放
各引擎有限优化
向特定引擎开放
易获得高度优化
成本 易启动
难运维管理 难启动
易运维管理(甚至免运维管理)
数据治理 质量低
难管理使用 质量高
易管理使用
26.
27. Thanks