云原生数据湖存储的架构发展和数据治理

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 云原生数据湖存储架构 发展和数据治理 数据湖存储负责人 / 程力
2.
3. 腾讯云数据湖存储GooseFS • 介绍腾讯云原生数据湖存储的架构 • 数据湖存储GooseFS大数据业务实践 • 数据湖存储GooseFS模型训练业务实践 • 数据湖存储架构演进
4. GooseFS数据湖三层加速架构: • 近计算端缓存: 计算端 - 缓存加速 • 元数据加速: 数据端 - 元数据加速 • COS加速器: 存储端 - 数据加速 大数据 AI Hadoop Compatibl e 智能缓存 HPC FUSE Compatibl e 高可用架构 基因 渲染 S3 Compatibl e Native FS Interface 监控告警 集群化部署 COS 加速器 鉴权认证 元数据加速 Data Lake 对象存储 COS 日志管理
5. 数据湖存储GooseFS拓扑 GooseFS:Cache Accelerator: • 运行在EMR/AI/ML/K8S集群内,基于集群 AZ 1 AZ 2 EMR | AI | ML |K8S EMR | AI | ML |K8S MEM/SSD资源,提供Data Cache能力; • 热数据缓存在Cache中,对象存储保存全量数据; Iceberg • 针对各种计算引擎,提供Data Locality能力; • 提供磁盘模式和内存模式,支持淘汰 GooseFS (Cache Accelerator) Iceberg 计 算 端 加 速 GooseFS (Cache Accelerator) COS加速器:Data Accelerator: • AZ级部署,全SSD存储介质,热数据读加速; • 提供Tbps带宽,满足高吞吐需求; 数据加速器(Data Accelerator) AZ 端 加 速 数据加速器(Data Accelerator) • 提供ms级别时延; 元数据加速器:Metadata Accelerator: • 提供文件系统级别元数据操作能力; • Rename操作,无需Copy/Delete数据; • List操作,无频控; • 每个Bucket,提供10万 QPS; 元数据加速器(Metadata Accelerator) COS 对象存储 存 储 端 加 速
6. GooseFS 大数据业务加速 Data Cache: • 支持Hive Table Level预热,面向业务加速; Metadata Cache :元数据被 缓存到计算节点Metadata • 支持Iceberg Table Leve预热; Cache中,并通过RocksDB进 行持久化。 • 支持Prefix Level预热,按目录加速; • 支持多种数据缓存淘汰策略,LRU/LRFU/TTL; Metadata Cache(RAM / SSD / HDD) • 支持缓存数据同步/异步写入COS; Data Cache(RAM / SSD / HDD) Metadata Cache: • 避免了大量的list operations; Tables • 提高了Metadata 访问性能; prefix sub-prefix(Partitions) Prefix 预 热 :COS对象存储中 对应Prefix的Objects,被加载 到计算节点Data Cache中。 Files Hive/Iceberg Table 预 热 : Table相关的数据从COS对象 存储中,被加载到计算节点 Data Cache中。 Hive MetaStore / DLF MetaStore COS 对象存储
7. GooseFS on EMR (Spark/Hive/Presto/Impala) • • • GooseFS Master:和Yarn RM同节 点;支持元数据持久化;支持Raft Based HA;支持Ranger GooseFS Worker:Worker和计算 Executor/Worker同节点,保证类似 HDFS的数据本地性;支持内存模式 和磁盘模式混合 GooseFS client:Shaded client打入 计算fat jar,同时支持原生的COSN schema和GooseFS schema开启三 层加速特性 Client Node EMR Core Node Spark Context Yarn Node Manager Executor EMRMaster node Executor Spark Executor GooseFS Worker GooseFS Client Spark Driver Yarn Resource Manager GooseFS Master COS 对象存储 EMR Core Node Yarn Node Manager Executor Spark Executor GooseFS Client GooseFS Worker
8. GooseFS 支持数据湖结构化 Incremental Processing Datab ase C hange s ts n e Ev Batch Interactive Real Time Query Near-Real Time Ingestion Read Optimized Goose FS (Cache Accelerator) COS 对象存储 Real Time
9. GooseFS Table(Hive/Iceberg) gfs://sales/data/… Create N amespace: #goosefs #goosefs #goosefs #goosefs #goosefs table table table table table attachdb hive thrift://HOSTNAME:9083 hive_db_name ls db_name table_name load db_name table_name free db_name table_name stat db_name table_name CREATE EXTERNAL TABLE `sales`( `cs_sold_time_sk` int, `cs_ship_date_sk` int, `cs_bill_customer_sk` int, `cs_bill_cdemo_sk` int, `cs_bill_hdemo_sk` int, ......... PARTITIONED BY ( `cs_sold_date_sk` string) LOCATION 'cosn://bucket_1/data/catalog_sales' #goosefs ns create sales cosn://bucket_1 /data Attach Database: #goosefs table attachdb hive thrift://HOSTNAME:9083 db_sales Load Table: #goosefs table load db_sales sales cosn://bucket_1 /data/catalog_sales' GooseFS(Cache Accelerator) catalog_sales sales GooseFS(Cache Accelerator) catalog_sales sales GooseFS(Cache Accelerator) Tables Free Table: #goosefs table free db_sales sales Detach Database: Hive Meta Store #goosefs table detachdb db_sales catalog_sales sales GooseFS(Cache Accelerator)
10. 腾讯云AIGC大模型训练场景能力矩阵 腾讯云高性能计算集群HCC、TACO训练加速、GooseFS数据加速,构建AIGC大模型训练和推理应用平台 GooseFS Accelerated 0101001010100100 101111001010101010001010010010100 0101001001000010010101010001001 COS Data Lake 0100001010001001010010100100 010100010001000100101100 010010100100101101 010101001 Training Dataset CUDA Accelerated TACO Accelerated A800/H800 RDMA/DL Framework Data MEM/NVME SSD Trained Model 数据读取快:GooseFS数据加速,提供高性能存储,为AI集群训练快速提供数据 训练速度快:高性能计算集群HCC通过自研服务器提供最新代次A800、H800实例。通过TACO Train加速套件,提供软硬件协同优化,支持训练性能提升30%以上 网络交换快:基于自研星脉网络架构,提供最高3.2Tbps RDMA网络,结合自研拥塞控制算法及TCCL集合通信库加速分布式训练通信效率
11. 数据湖存储GooseFS提升训练过程中的数据访问性能 面向AIGC多种业务场景,根据Dataset大小、性能需求,GooseFS提供包括MEM、NVME SSD等多种缓存加速方案 GPU Node GPU Node GPU COS ~EB,Raw Data,Training Data NVME SSD AZ-Based,1~10PB, Auto Drive|Life Sciences NVME SSD-Based,100TB~1PB, ViT| Diffusion | DALL-E … GooseFS L1 Cache MEM MEM-Based,10~100TB,NLP|GPT GPU Mem CPU GPU GPU Mem MEM NVME SSD GooseFS L2 Cache GooseFS L3 Cache SSD CPU 00010111101010101011110010101010100010100100101001001010001010010100101011 10001001001000101010001010100010101001000101001000100010001010101001001010 010010100101010010100100010010101010101010100100100101 COS Data 010100100100001001010101000100100100001001001010001 Lake 010100010001000100101001010010100101 01010010100
12. GooseFS根据训练DataSet调度加速资源 数据湖存储GooseFS,通过对数据进行缓存和调度,从海量数据中提取有价值的数据,高效投递到计算节点,实现算存融合 智能 缓存 4. launch 1. query data TKE: Tencent Kubernetes GooseFS Catalog 算存 融合 数据 流动 高效 调度 2. deliver dataset GooseFS Data Pods Collections D D D D D Proc Pods CSI D Collections D D D D D 3. load dataset 00010111101010101011110010101010100010100100101001001010001010010100101011100010010010001010100 010101000101010010001010010001000100010101010010010100100101001010100101001000100101010101 0101001010100010001000001011010100100100001001010101000100100100001001001010001 01010100010111110001000100001010100010001000100101001010010100101 COS Data Lake 010001000100101111111000100100101001010001001 0101001
13. GooseFS云原生数据湖存储实现按需弹性扩缩容 GooseFS 具备弹性伸缩能力,根据业务对性能的需求,实时在线扩缩容。业务结束后,可以选择将GooseFS销毁,降低成本。 核心功能特性: 1. Scale up:性能(吞吐、IOPS)和容量同时扩容; 2. Scale down:性能(吞吐、IOPS)和容量同时缩容; Scale down 3. Destroy:实例被销毁; Scale up Small 8x large, etc… 0001011110101010101111001010101010001010010010100100101000101001010010101110001001 00100010101000101010001010100100010100100010001000101010100100101001001 010100100100001001010101000100100100001001001010001 Dataset 010100010001000100101001010010100101 0101001010001001 0101001 COS Data Lake
14. GooseFS数据湖搭建混合云大模型训练平台 数据持久化存储在COS Data Lake中,训练数据按需通过GooseFS拉取到云上或者IDC计算端,做到一份Dataset,多地训练 IDC / Private Cloud Tencent Public Cloud GooseFS GooseFS GooseFS 0000010100101000100101001010010100101 00101000100101101001010001001 COS Data Lake 0101001 GooseFS 0000010100101000100101001010010100101010100101
15. GooseFS :完善的运维、监控能力 GooseFS 提供 部署、安全、监控、告警等全流程运维能力以及对应工具。
16. 腾讯云数据万象内容审核,为AIGC数据安全保驾护航 国家网信办就《生成式人工智能服务管理办法(征求意见稿)》公开征求意见,强调利用生成式人工智能生成的内容, 要符合合规要求 数据万象内容审核 AIGC模型 图片审核 Text -> Image 色情内容 政治敏感 广告营销 暴力恐怖 违禁违法 特殊物品 性感 宗教 Prompt Text input 请画一幅日落的山水画 Generate Content 视频审核 Text -> Video 文本审核 Text -> Text 音频审核 Model output
17. 自动驾驶训练场景数据湖存储  客户需求 腾讯云 训练任务集群 (黑石 GPU + GooseFS) 训练集数据预处理服务 (EKS: serverless kubernetes)  数据增长快,年100PB量级,不具备大规模存储自建和运维条件;  业务涉及多计算平台,需要支持多种协议同时访问数据;  训练平台需要高性能存储,提升训练效率;  方案描述  GPU GPU GooseFS Worker 标注后的 图片训练集 Preprocessing 原始路采车数据,以及预处理后的数据。合肥本地数据中心,通过 OneCOS提供百PB存储空间,存储短期热数据;  GooseFS Worker Pod Pod Pod 海量数据存储:公有云COS数据湖提供弹性、低成本存储服务,存储全量 数据预处理平台:TKE + GooseFS,做为图片处理(截帧,转换,脱敏) 平台,处理后的数据存放到COS,用于自动驾驶模型训练;  自动驾驶训练平台:COS上的训练数据,通过GooseFS提前预热,加速 GPU训练IO性能,提升训练效率; GooseFS Worker 训练数据缓存到 GooseFS GooseFS Master  方案价值  户数据快速增长需求。通过100Gb专线,数据在COS和OneCOS之间自由流 动,帮助客户构建了自动驾驶混合云平台; 路采车原始数据 Datasets Images … annotations COS 对象存储 公有云COS和本地OneCOS为用户提供了海量、低成本存储服务,解决客  Raw data 处理后训练数据 GooseFS作为高性能存储缓存服务,通过HDFS,POSIX,对接数据预处理 和训练平台,通过数据缓存能力,帮助自动驾驶训练性能提高30%; camera Radar LIdar COS 对象存储 100Gb专线 IDC数据中心 专线 TStor OneCOS
18. 自动驾驶训练各流程如何使用GooseFS ETL:对原始采集数据进行预处理,借助于大数据平台,GooseFS通过HDFS接口访问数据,大文件读,小文件写,高带宽; Labeling:对预处理后的数据进行标注,借助AI自动化平台、或人工平台,GooseFS通过POSIX接口访问数据,小文件写,低时延; Training:对标注后的训练集数据进行自动驾驶模型训练,借助训练平台,GooseFS通过POSIX接口访问数据,小文件读,高IOPS,低时延; Scenario Repo:通过预处理后的数据来模拟特定场景,验证感知算法,GooseFS通过POSIX接口访问数据,大文件读,高带宽; Endurance Run:通过使用原始数据回放来进行仿真,验证自动驾驶模型算法,GooseFS提供POSIX接口访问数据,大文件读,高带宽; 数 据 预 处 理 、 标 注 、 模 型 训 练 感 知 验 证 仿 真 验 证 ETL Labeling Training ETL Scenario Repo HDFS POSIX POSIX HDFS POSIX Endurance Run POSIX COS/S3 Volume Raw Valid Dataset Volume Raw Valid Valid
19. GooseFS PageStore模式优化小文件随机读
20. GooseFS备机读取优化元数据OPS GooseFS单集群目前元数据OPS是主要瓶颈。 GooseFS是主从结构,在高可用模式下,有一个Leader Master和若干 Follower Master做备份,下个迭代GooseFS支持Follower Master承载跟 Leader一样的读流量,元数据OPS成倍数增加。 测试环境元数据List QPS同比提升将近4倍。 优化后高于HDFS元数据List QPS
21. GooseFS元数据卸载TiKV • GooseFS元数据管理从本地Memory+RocksDB升级到分布式TiKV。 • 利用CVM支持的Numa绑核绑内存部署TiKV进程,单节点可以部署多个 TiKV进程。 • 节点占用单盘三副本文件数压测稳定在54亿,双盘稳定在102亿文件 总量。
22. GooseFS元数据性能:RocksDB vs TiKV * 灰线为单盘RocksDB;蓝线为单盘TIKV;红线为双盘TiKV
23. 更多产品信息 欢迎参考腾讯云存储公众号 !

ホーム - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 06:09
浙ICP备14020137号-1 $お客様$