货拉拉大数据存储实践与AI时代的应对

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 货拉拉大数据存储 实践与AI时代的应对 章啸 货拉拉大数据基础架构存储
2. 目录 01 02 03 04 背景介绍 大数据数据灾备 大数据存储 跨云迁移 AI时代下存储的 挑战与应对
3.
4. 01 背景介绍
5. 货拉拉介绍 • 2024年全球闭环货运交易总值最大的物流交易平台 • 2024年全球闭环货运GTV最大的同城物流交易平台 • 2024年全球已完成订单数量最多的物流交易平台 • 2024年全球平均月活商户最多的物流交易平台 7.79亿 1670W 168W 11 400+ 6+ 全球 年订单 全球 月活用户 全球 月活司机 全球 市场 城市 DC
6. 货拉拉大数据 4+ 2000+ 40PB+ 20K+ IDC 机器数 存储量 日均任务数
7. 货拉拉大数据 辅助决策类应用 应用层 数据 应用 经营分析 赋能业务类应用 用户分析 实时报表 鹰眼监控 智能营销 数据服务工具 数据应用支撑服务工具 数据工具箱 可视化 自助分析 固定报表 数据上报 用户画像 快速报表 指标库管理 数据研发平台 AB Test 数据 云服务 集市层 数据治理平台 标签画像体系 特征体系 指标体系 元数据管理 DIM维表层 数据质量管理 DWS公共汇总服务层 DIM DWB明细数据整合层 IDP数据集成开发 数据安全管理 DWD明细数据层 飞流实时开发 特征平台 数据成本管理 ODS贴源数据层 接入层 数据接入平台 离线数据接入 基础层 大数据 基础平台 离线计算(Hive/Spark/Presto/...) 实时计算(Flink) OLAP多维分析(Druid/CK/Doris) 资源管理(YARN/K8S) 离线存储(HDFS/COS) 在线存储(HBase/ES) 实时数据接入 埋点数据接入 数据门户 门户 首页 权限 中心 AI平台 数据资产 BQ数据即席查询 平台层 &数仓 …… 数据智能支撑工具 快捷分析 大数据分析平台 服务层 智能广告投放 数据对账 数据链路监控 知识库 个人 中心 内容 管理 建议 反馈
8. 大数据存储-体系介绍 自建+云服务混合 风控 数据 API 画像 实时看板 BQ 即席查询 在线存储 Redis OLAP 分析 OLAP MySQL HBase Phoenix Druid Doris ClickHouse 实时计算 批计算 成本 治理 元数据 管理 IDP 数据集成 开发平台 Hive/Tez/MR Spark Spark SQL COS/Azure Blob Storage Spark Streaming Presto Flink Kafka HDFS 飞流 实时 开发 平台 Flume Canal Flink CDC 神策 自研数据库采集组件 RDBMS NoSQLs MQ Logs HTTP
9. 02 大数据数据灾备
10. 灾备-背景 误删 勒索 机房灾难
11. 灾备-数据误删 三层防护,历史误删场景数据追回率100%
12. 灾备-数据勒索与机房灾难 多 AZ 存储 vs 数据复制 方案 描述 多 AZ 存储 多个AZ存在完整副本 数据备份与恢复时效高 多个桶存在多份拷贝 兼容多类型存储 数据复制 自研灾备系统 Kirk • PB级数据灾备 • 全链路灾备:数据 + 元数据 + 链路任务 • 灵活管控:全量/部分,实时/延迟灾备 优点 缺点 多版本只支持对象协议 多版本无法控制版本数量,成本不可控 数据备份与恢复时效低
13. 灾备-数据勒索与机房灾难 多 AZ 存储 vs 数据复制 方案 描述 多 AZ 存储 多个AZ存在完整副本 数据备份与恢复时效高 多个桶存在多份拷贝 兼容多类型存储 数据复制 自研灾备系统 Kirk • PB级数据灾备 • 全链路灾备:数据 + 元数据 + 链路任务 • 灵活管控:全量/部分,实时/延迟灾备 优点 缺点 多版本只支持对象协议 多版本无法控制版本数量,成本不可控 数据备份与恢复时效低
14. 03 大规模存储跨云迁移
15. 腾讯云数据平台解决方案架构 Apps 数据接入 Data Ingest 数据加速 Data Accelerator Computer Side 数据迁移 MSP HDFS POSIX 数据智理 Data Insight POSIX GooseFS-Cache GooseFS-Lite Storage-Less Gateway Data Ingest Service 数据万象 MetaInsight Data Catalog POSIX GooseFS-X Provisioned-Cluster 全球加速 Data Ingest Accelerator Storage Side HDFS COS/S3 Metadata Accelerator COS Accelerator COS Data Store Data Engine Data Process
16. 跨云迁移-方案比对 Kirk 基于业务视角,粒度、节奏更可控 方案 适用场景 功能(实现思路) 1. 表结构同步:获取源端库表的建表语句,目标端执行建表操作 Kirk 按库表分区 迁移 2. 数据拷贝:通过distcp任务将数据拷贝到目标端 3. 数据校验:对比元信息和数据,校验失败的可再次执行增量迁移 1. 待迁移文件列表:根据源桶生成需要迁移的文件列表,并进行数 据迁移 COS DistCp 按目录迁移 2. 文件清单比对,对比源桶和目标桶,找出差异的文件列表 3. 数据拷贝:对 step 2 的待拷贝的文件清单进行数据拷贝与删 除 数据准确性校验 1. 表schema比对 2. 表分区数比对 3. 文件比对(文件数,时间、大小,内容) 4. 表count比对 1. none(不校验) 2. length(长度) 3. checksum(CRC 值) 4. length-checksum(长度 + CRC 值)
17. 跨云迁移-具体实践 开着飞机换引擎,0故障完成40PB+大数据基建搬迁
18. 跨云迁移-成果 COS 助力货运报表产出提前40min,任务提速10% • 迁移0数据质量问题和0延迟故障 • 存储稳定运行无故障
19. 04 AI 时代下存储的挑战与应对
20. 货拉拉大数据存储AI挑战 AI与大数据离线混合部署 大规模数据处理 跨云模型训练 数据统一存储在单一COS桶,AI业务占用 大量带宽,造成离线链路稳定性风险。 AI训练通常访问大量的数据,要求数据存 储和处理系统具有高吞吐量和低延迟 在离线跨云架构下,模型训练拉取数据大 量占用跨云单宽
21. 分桶而治,专项优化 存储层按照应用拆分不同桶,迁移单个模型带宽下降8%
22. GooseFS-Cache:近计算端缓存,提供高性能数据缓存服务 • 数据本地存储,提供计算亲和性 • 任务就近调度,提升节点内流量 • 丰富缓存策略,精细化管理数据流动, 提升加速效果 • 客户端缓存即时命中加速 • 支持数据预读和并行 IO,减少 GPU 等待时间 • 网络开销优化,支持 RDMA 网络 • 元数据节点平行扩展,均衡海量请求 • 高效线程模型,优化内存分配,减少请 求积压 • 高并发高吞吐 KV DB 实现
23. 混合云大模型训练平台,一份Dataset,多地训练 数据持久化存储在COS Data Lake中,训练数据按需通过GooseFS拉取到云上或者IDC计算端,做到一份Dataset,多地训练 Tencent Public Cloud IDC / Private Cloud GooseFS GooseFS 0000010100101000100101001010010100101 00101000100101101001010001001 COS Data 0101001 Lake GooseFS GooseFS 0000010100101000100101001010010100101010100101
24. Thank You 「代码传递思想.技术创造回响」

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-10-20 18:45
浙ICP备14020137号-1 $访客地图$