阿里云湖仓一体最佳实践

1. 阿里云湖仓一体最佳实践 - 李睿博（艺卓）阿里云 – 通用计算平台 2021/11

2.

3. - 今天的大数据——数据仓库？数据湖？湖仓一体！湖仓一体关键技术目录阿里云湖仓一体成功案例未来展望

4. 今天的大数据 • 用户视角看大数据 • 数据仓库模式 • 数据湖模式 • 湖仓一体新模式

5. 用户/业务视角看大数据大数据日志 ADS 报表 DWS 业务数据库开源开源 DWD 外部数据源节流探查 ODS 机器学习

6. 基于数据湖的大数据系统在节流过程中的常见痛点版本控制人员基线、报警超大规模作业计算资源规划及管理运维数据建模数据发现数据血缘权限控制开发引擎性能数据质量数据生命周期管理数据开发、生产隔离

7. 数据仓库和数据湖系统的增长曲线数据湖性长成云数据仓库客户如何才能同时享受数据湖的灵活性和云数据仓库的成长性？性活灵特定规模前，数据湖灵活性占优，之后数仓成长性占优业务规模

8. 阿里云湖仓一体架构角色数据分析师大数据工程师仓优化场景湖优化场景应用业务非结构化数据分析 Machine Learning Ad-hoc / BI 数据科学家 Reporting Realtime DWH ETL DataWorks 开发IDE 任务调度数据安全数据资产管理数据服务开放及定制数据统一开发管理 Open Source Hadoop Local IDC On ECS SQL/Spark HMS /DLF HDF S PAI TF/ GNN MC Meta Service HMS VPC Alibaba EMR Python /Mars MaxComput e Private Access link VPC 热数据 3 rd Applications 3 rd engine (CUPID) DL F Cache OSS Data Catalog ETL Meta Access Control RDBM S NoSQL MaxCompute Filesystem OSS Data

9. 湖仓一体的关键技术 • Share Everything 架构 • 统一 IO 层（智能 Cache） • 安全增强 • DataWorks

10. Share Everything + 云原生 = 极致的弹性算力 Shared Nothing 计算虚拟机物理机存储 Shared Storage 物理机虚拟机 Shared Everything 容器容器容器容器容器容器虚拟机物理机云存储云存储

11. 统一 IO 层（智能 Cache） SQL PAI Spark Common IO Meta Cache Network 基于历史数据预读 OSS 屏蔽网络条件差别 HDFS MEM NVME SATA 智能选取 cache 介质数据格式兼容屏蔽内外表差别

12. 智能 Cache 效果 Benchmark 整体加速 63%，IO 加速一倍来自某客户生产作业对比实测

13. 安全增强 MaxCompute 业务层 • 源端细粒度授权（表、列级别） • 目的端访问控制策略（Path）应用层 • Kerberos（身份） • STS 授权策略（Bucket）网络层 • 安全组策略（IP/Port） OSS Hadoop

14. DataWorks 统一数据资产统一数据血缘

15. DataWorks 统一的引擎系统对接管理统一开发平台及工作流编排调度

16.

17. 阿里云湖仓一体成功案例 • 弹性算力场景 • 机器学习场景 • 数据中台场景一 • 数据中台场景二

18. 弹性算力场景：国内某知名互联网社交媒体公司业务介绍： • 主要做社交媒体领域里的推荐 / 排序、文本 / 应用业务层图片推荐关注视频推荐图像分类、反垃圾 / 反作弊等。在开源 Hadoop数据湖的基础上，借助阿里巴巴 SQL计算服务征工程、模型训练等性能问题，形成了机器学习服务 MaxCompute 和Hadoop数据湖共存的格局 • 数据同步安排专人专项负责，工作量巨大 • 训练数据体量大，导致耗时多，无法满足实时训练要求 • 新写 SQL 数据处理 query，无法复用 Hive SQL 原有 query 价值： • 封装构建AI计算中台，极大提升该团队的业务支撑能力实时计算服务计算引擎层 MC SQL MC Spark PAI TF MC Meta Service 热数据 PAI GNN Hive SQL 存储引擎层 MaxC数仓内置优化存储 Spark 物料特征智能Cache，冷热分层 HDFS数据湖异构集群层 MaxCompute集群 PrivateAccess Link Flink Hive Meta Service 元数据透视 Cache 移，原有生产作业无缝灵活调度MaxCompute • 深度学习服务通过湖仓一体，无须进行数据搬迁和作业迁集群和 EMR 集群中，且性能有提升内容理解内容安全 AI计算中台层 MaxCompute和PAI，解决了超大规模下的特痛点：反欺诈 EMR Hadoop集群样本

19. 数据中台一：国内某知名互联网游戏公司其他业务方创新业务：广告算法团队业务介绍： • Serverless Spark PAI (Studio+ EAS）客户广告算法团队是湖仓一体主要客户，主要应用是机器学习DW + MC + PAI + EAS 在线模型服务 MaxComput e ClickHouse 痛点： • 算法团队想更集中在业务和算法上，需要自服务程度高、一站式的机器学习平台 • EMR Hadoop 集群是多团队共用，使用集群管控较严，无法短时间支撑大workload 的创新业务价值： • OSS 通过湖仓一体将新业务平台与原有数据平台打通， PAI on MaxCompute + DataWorks 为客户创新业务提供敏捷、一站式机器学习模型开发、训练、 RDS 模型发布，大规模计算能力、EAS 模型发布流程 • 并复制到其他业务线，起到好的示范作用数据中台团队 SLS

20. 数据中台二：国内某知名互联网金融公司业务介绍： • 丰富的大数据平台建设经验，持续进行平台的迭 EMR 代升级以满足业务不断发展的需求。从国外某厂数据中台商迁移到阿里云后，积极建设和改造数据湖架构痛点： •第一代数据湖是 EMR + OSS，公司引入的数据 EMR ETLX EMR LOG 中台的执行引擎和存储是Maxcompute，两套异 MaxCompute MaxCompute Hologres交 ODS CDM 互式分析构的执行引擎带来存储冗余、元数据不统一、权限不统一、湖仓计算不能自由流动价值： • EMR Presto EMR ML MaxCompute PDW MaxCompute ADS 将 EMR 的元数据统一到DLF，底层使用 OSS 作统一存储，并通过湖仓一体打通EMR数据湖和MaxCompute数仓两套体系，让数据和计算数据湖DLF（元数据管理、用户管理、权限管理）在湖和仓之间自由流动 • 实现湖仓数据分层存储。数据中台对数据湖数据进行维度建模的中间表存储在MaxCompute 上，EMR或其他引擎消费ADS层 OSS对象存储 MaxCompute存储其他异构计算引擎

21. 未来展望

22. 湖仓一体技术加速融合 01 非结构化 • 内置的非结构化数据存储、计算能力 • 半结构化数据处理能力增强 • 非结构化数据的资产统一管理 02 治理、管理 • 三层模型，从 database 到 catalog • 账号、权限体系融合 03 应用场景 • update/delete • 面向 BI 场景的加速查询 • 业务数据库实时同步

23.

24. Share Everything + 云原生 = 极致的弹性算力 Shared Nothing Shared Storage Shared Everything

25. 数据仓库和数据湖对比维度数据湖数据仓库方法论事后建模 Schema-on-read 事前建模 Schema-on-Write 存储类型结构化/半结构化/非结构化结构化/半结构化灵活性企业级能力计算引擎向所有引擎开放各引擎有限优化向特定引擎开放易获得高度优化成本易启动难运维管理难启动易运维管理（甚至免运维管理）数据治理质量低难管理使用质量高易管理使用

26.

27. Thanks