阿里云湖仓一体最佳实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 阿里云湖仓一体最佳实践 - 李睿博(艺卓) 阿里云 – 通用计算平台 2021/11
2.
3. - 今天的大数据——数据仓库?数据湖?湖仓一体! 湖仓一体关键技术 目录 阿里云湖仓一体成功案例 未来展望
4. 今天的大数据 • 用户视角看大数据 • 数据仓库模式 • 数据湖模式 • 湖仓一体新模式
5. 用户/业务视角看大数据 大数据 日志 ADS 报表 DWS 业务数据库 开源 开源 DWD 外部数据源 节流 探查 ODS 机器学习
6. 基于数据湖的大数据系统在节流过程中的常见痛点 版本控制 人员 基线、报警 超大规模作业 计算资源规划及管理 运维 数据建模 数据发现 数据血缘 权限控制 开发 引擎性能 数据质量 数据生命周期管理 数据 开发、生产隔离
7. 数据仓库和数据湖系统的增长曲线 数据湖 性 长 成 云数据 仓库 客户如何才能同时享受数据湖的灵活 性和云数据仓库的成长性? 性 活 灵 特定规模前,数据湖灵活性占优,之后数仓成长性占优 业务规模
8. 阿里云湖仓一体架构 角色 数据分析师 大数据工程师 仓优化场景 湖优化场景 应用业务 非结构化数据分析 Machine Learning Ad-hoc / BI 数据科学家 Reporting Realtime DWH ETL DataWorks 开发IDE 任务调度 数据安全 数据资产管理 数据服务 开放及定制 数据统一开发管理 Open Source Hadoop Local IDC On ECS SQL/Spark HMS /DLF HDF S PAI TF/ GNN MC Meta Service HMS VPC Alibaba EMR Python /Mars MaxComput e Private Access link VPC 热 数 据 3 rd Applications 3 rd engine (CUPID) DL F Cache OSS Data Catalog ETL Meta Access Control RDBM S NoSQL MaxCompute Filesystem OSS Data
9. 湖仓一体的关键技术 • Share Everything 架构 • 统一 IO 层(智能 Cache) • 安全增强 • DataWorks
10. Share Everything + 云原生 = 极致的弹性算力 Shared Nothing 计算 虚拟机 物理机 存储 Shared Storage 物理机 虚拟机 Shared Everything 容器 容器 容器 容器 容器 容器 虚拟机 物理机 云存储 云存储
11. 统一 IO 层(智能 Cache) SQL PAI Spark Common IO Meta Cache Network 基于历史数据预读 OSS 屏蔽网络条件差别 HDFS MEM NVME SATA 智能选取 cache 介质 数据格式兼容 屏蔽内外表差别
12. 智能 Cache 效果 Benchmark 整体加速 63%,IO 加速一倍 来自某客户生产作业对比实测
13. 安全增强 MaxCompute 业务层 • 源端细粒度授权(表、列级别) • 目的端访问控制策略(Path) 应用层 • Kerberos(身份) • STS 授权策略(Bucket) 网络层 • 安全组策略(IP/Port) OSS Hadoop
14. DataWorks 统一数据资产 统一数据血缘
15. DataWorks 统一的引擎系统对接管理 统一开发平台及工作流编排调度
16.
17. 阿里云湖仓一体成功案例 • 弹性算力场景 • 机器学习场景 • 数据中台场景一 • 数据中台场景二
18. 弹性算力场景:国内某知名互联网社交媒体公司 业务介绍: • 主要做社交媒体领域里的推荐 / 排序、文本 / 应用业务层 图片推荐 关注 视频推荐 图像分类、反垃圾 / 反作弊等。在开源 Hadoop数据湖的基础上,借助阿里巴巴 SQL计算服务 征工程、模型训练等性能问题,形成了 机器学习服务 MaxCompute 和Hadoop数据湖共存的格局 • 数据同步安排专人专项负责,工作量巨大 • 训练数据体量大,导致耗时多,无法满足实时训 练要求 • 新写 SQL 数据处理 query,无法复用 Hive SQL 原有 query 价值: • 封装构建AI计算中台,极大提升该团队的业务 支撑能力 实时计算服务 计算引擎层 MC SQL MC Spark PAI TF MC Meta Service 热 数 据 PAI GNN Hive SQL 存储引擎层 MaxC数仓内置优化存储 Spark 物料 特征 智能Cache,冷热分层 HDFS数据湖 异构集群层 MaxCompute集群 PrivateAccess Link Flink Hive Meta Service 元数据透视 Cache 移,原有生产作业无缝灵活调度MaxCompute • 深度学习服务 通过湖仓一体,无须进行数据搬迁和作业迁 集群和 EMR 集群中,且性能有提升 内容理解 内容安全 AI计算中台层 MaxCompute和PAI,解决了超大规模下的特 痛点: 反欺诈 EMR Hadoop集群 样本
19. 数据中台一:国内某知名互联网游戏公司 其他业务方 创新业务:广告算法团队 业务介绍: • Serverless Spark PAI (Studio+ EAS) 客户广告算法团队是湖仓一体主要客户,主要应用 是机器学习DW + MC + PAI + EAS 在线模型服 务 MaxComput e ClickHouse 痛点: • 算法团队想更集中在业务和算法上,需要自服务程 度高、一站式的机器学习平台 • EMR Hadoop 集群是多团队共用,使用集群管控较严, 无法短时间支撑大workload 的创新业务 价值: • OSS 通过湖仓一体将新业务平台与原有数据平台打通, PAI on MaxCompute + DataWorks 为客户创新 业务提供敏捷、一站式机器学习模型开发、训练、 RDS 模型发布,大规模计算能力、EAS 模型发布流程 • 并复制到其他业务线,起到好的示范作用 数据中台团队 SLS
20. 数据中台二:国内某知名互联网金融公司 业务介绍: • 丰富的大数据平台建设经验,持续进行平台的迭 EMR 代升级以满足业务不断发展的需求。从国外某厂 数据中台 商迁移到阿里云后,积极建设和改造数据湖架构 痛点: •第一代数据湖是 EMR + OSS,公司引入的数据 EMR ETLX EMR LOG 中台的执行引擎和存储是Maxcompute,两套异 MaxCompute MaxCompute Hologres交 ODS CDM 互式分析 构的执行引擎带来存储冗余、元数据不统一、权 限不统一、湖仓计算不能自由流动 价值: • EMR Presto EMR ML MaxCompute PDW MaxCompute ADS 将 EMR 的元数据统一到DLF,底层使用 OSS 作统一存储,并通过湖仓一体打通EMR数据湖 和MaxCompute数仓两套体系,让数据和计算 数据湖DLF(元数据管理、用户管理、权限管理) 在湖和仓之间自由流动 • 实现湖仓数据分层存储。数据中台对数据湖数 据进行维度建模的中间表存储在MaxCompute 上,EMR或其他引擎消费ADS层 OSS对象存储 MaxCompute存储 其他异构 计算引擎
21. 未来展望
22. 湖仓一体技术加速融合 01 非结构化 • 内置的非结构化数据存储、计算能力 • 半结构化数据处理能力增强 • 非结构化数据的资产统一管理 02 治理、管理 • 三层模型, 从 database 到 catalog • 账号、权限体系融合 03 应用场景 • update/delete • 面向 BI 场景的加速查询 • 业务数据库实时同步
23.
24. Share Everything + 云原生 = 极致的弹性算力 Shared Nothing Shared Storage Shared Everything
25. 数据仓库和数据湖 对比维度 数据湖 数据仓库 方法论 事后建模 Schema-on-read 事前建模 Schema-on-Write 存储类型 结构化/半结构化/非结构化 结构化/半结构化 灵活性 企业级能力 计算引擎 向所有引擎开放 各引擎有限优化 向特定引擎开放 易获得高度优化 成本 易启动 难运维管理 难启动 易运维管理(甚至免运维管理) 数据治理 质量低 难管理使用 质量高 易管理使用
26.
27. Thanks

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 18:01
浙ICP备14020137号-1 $Carte des visiteurs$