云原生数据湖存储的架构发展和数据治理
如果无法正常显示,请先停止浏览器的去广告插件。
1. 云原生数据湖存储架构
发展和数据治理
数据湖存储负责人 / 程力
2.
3. 腾讯云数据湖存储GooseFS
• 介绍腾讯云原生数据湖存储的架构
• 数据湖存储GooseFS大数据业务实践
• 数据湖存储GooseFS模型训练业务实践
• 数据湖存储架构演进
4. GooseFS数据湖三层加速架构:
• 近计算端缓存: 计算端 - 缓存加速
• 元数据加速: 数据端 - 元数据加速
• COS加速器: 存储端
- 数据加速
大数据
AI
Hadoop
Compatibl e
智能缓存
HPC
FUSE
Compatibl e
高可用架构
基因
渲染
S3
Compatibl e
Native
FS Interface
监控告警
集群化部署
COS 加速器
鉴权认证
元数据加速
Data Lake
对象存储 COS
日志管理
5. 数据湖存储GooseFS拓扑
GooseFS:Cache Accelerator:
• 运行在EMR/AI/ML/K8S集群内,基于集群
AZ 1 AZ 2
EMR | AI | ML |K8S EMR | AI | ML |K8S
MEM/SSD资源,提供Data Cache能力;
• 热数据缓存在Cache中,对象存储保存全量数据;
Iceberg
• 针对各种计算引擎,提供Data Locality能力;
• 提供磁盘模式和内存模式,支持淘汰
GooseFS (Cache Accelerator)
Iceberg
计 算 端 加 速
GooseFS (Cache Accelerator)
COS加速器:Data Accelerator:
• AZ级部署,全SSD存储介质,热数据读加速;
• 提供Tbps带宽,满足高吞吐需求;
数据加速器(Data Accelerator)
AZ 端 加 速
数据加速器(Data Accelerator)
• 提供ms级别时延;
元数据加速器:Metadata Accelerator:
• 提供文件系统级别元数据操作能力;
• Rename操作,无需Copy/Delete数据;
• List操作,无频控;
• 每个Bucket,提供10万 QPS;
元数据加速器(Metadata Accelerator)
COS 对象存储
存 储 端 加 速
6. GooseFS 大数据业务加速
Data Cache:
• 支持Hive Table Level预热,面向业务加速;
Metadata Cache :元数据被
缓存到计算节点Metadata
• 支持Iceberg Table Leve预热;
Cache中,并通过RocksDB进
行持久化。
• 支持Prefix Level预热,按目录加速;
• 支持多种数据缓存淘汰策略,LRU/LRFU/TTL;
Metadata Cache(RAM / SSD / HDD)
• 支持缓存数据同步/异步写入COS;
Data Cache(RAM / SSD / HDD)
Metadata Cache:
• 避免了大量的list operations;
Tables
• 提高了Metadata 访问性能;
prefix
sub-prefix(Partitions)
Prefix 预 热 :COS对象存储中
对应Prefix的Objects,被加载
到计算节点Data Cache中。
Files
Hive/Iceberg Table 预 热 :
Table相关的数据从COS对象
存储中,被加载到计算节点
Data Cache中。
Hive MetaStore /
DLF MetaStore
COS 对象存储
7. GooseFS on EMR (Spark/Hive/Presto/Impala)
•
•
•
GooseFS Master:和Yarn RM同节
点;支持元数据持久化;支持Raft
Based HA;支持Ranger
GooseFS Worker:Worker和计算
Executor/Worker同节点,保证类似
HDFS的数据本地性;支持内存模式
和磁盘模式混合
GooseFS client:Shaded client打入
计算fat jar,同时支持原生的COSN
schema和GooseFS schema开启三
层加速特性
Client Node
EMR Core Node
Spark Context
Yarn
Node
Manager
Executor
EMRMaster node
Executor
Spark Executor
GooseFS
Worker
GooseFS
Client
Spark Driver
Yarn Resource
Manager
GooseFS Master
COS 对象存储
EMR Core Node
Yarn
Node
Manager
Executor
Spark Executor
GooseFS
Client
GooseFS
Worker
8. GooseFS 支持数据湖结构化
Incremental Processing
Datab
ase C
hange
s
ts
n
e
Ev
Batch
Interactive Real Time Query
Near-Real Time Ingestion
Read
Optimized
Goose FS (Cache Accelerator)
COS 对象存储
Real
Time
9. GooseFS Table(Hive/Iceberg)
gfs://sales/data/…
Create N amespace:
#goosefs
#goosefs
#goosefs
#goosefs
#goosefs
table
table
table
table
table
attachdb hive thrift://HOSTNAME:9083 hive_db_name
ls db_name table_name
load db_name table_name
free db_name table_name
stat db_name table_name
CREATE EXTERNAL TABLE `sales`(
`cs_sold_time_sk` int,
`cs_ship_date_sk` int,
`cs_bill_customer_sk` int,
`cs_bill_cdemo_sk` int,
`cs_bill_hdemo_sk` int,
.........
PARTITIONED BY (
`cs_sold_date_sk` string)
LOCATION
'cosn://bucket_1/data/catalog_sales'
#goosefs ns create sales cosn://bucket_1 /data
Attach Database:
#goosefs table attachdb hive
thrift://HOSTNAME:9083 db_sales
Load Table:
#goosefs table load db_sales sales
cosn://bucket_1 /data/catalog_sales'
GooseFS(Cache Accelerator)
catalog_sales
sales
GooseFS(Cache Accelerator)
catalog_sales
sales
GooseFS(Cache Accelerator)
Tables
Free Table:
#goosefs table free db_sales sales
Detach Database:
Hive Meta Store
#goosefs table detachdb db_sales
catalog_sales
sales
GooseFS(Cache Accelerator)
10. 腾讯云AIGC大模型训练场景能力矩阵
腾讯云高性能计算集群HCC、TACO训练加速、GooseFS数据加速,构建AIGC大模型训练和推理应用平台
GooseFS
Accelerated
0101001010100100
101111001010101010001010010010100
0101001001000010010101010001001
COS Data Lake
0100001010001001010010100100
010100010001000100101100
010010100100101101
010101001
Training Dataset
CUDA
Accelerated TACO
Accelerated
A800/H800 RDMA/DL Framework
Data
MEM/NVME SSD
Trained Model
数据读取快:GooseFS数据加速,提供高性能存储,为AI集群训练快速提供数据
训练速度快:高性能计算集群HCC通过自研服务器提供最新代次A800、H800实例。通过TACO Train加速套件,提供软硬件协同优化,支持训练性能提升30%以上
网络交换快:基于自研星脉网络架构,提供最高3.2Tbps RDMA网络,结合自研拥塞控制算法及TCCL集合通信库加速分布式训练通信效率
11. 数据湖存储GooseFS提升训练过程中的数据访问性能
面向AIGC多种业务场景,根据Dataset大小、性能需求,GooseFS提供包括MEM、NVME SSD等多种缓存加速方案
GPU Node
GPU Node
GPU
COS
~EB,Raw Data,Training Data
NVME
SSD
AZ-Based,1~10PB,
Auto Drive|Life Sciences
NVME SSD-Based,100TB~1PB,
ViT| Diffusion | DALL-E
…
GooseFS L1 Cache
MEM
MEM-Based,10~100TB,NLP|GPT
GPU
Mem
CPU
GPU
GPU
Mem
MEM
NVME
SSD
GooseFS L2 Cache
GooseFS L3 Cache
SSD
CPU
00010111101010101011110010101010100010100100101001001010001010010100101011
10001001001000101010001010100010101001000101001000100010001010101001001010
010010100101010010100100010010101010101010100100100101
COS Data
010100100100001001010101000100100100001001001010001
Lake
010100010001000100101001010010100101
01010010100
12. GooseFS根据训练DataSet调度加速资源
数据湖存储GooseFS,通过对数据进行缓存和调度,从海量数据中提取有价值的数据,高效投递到计算节点,实现算存融合
智能
缓存
4. launch
1. query data
TKE: Tencent Kubernetes
GooseFS Catalog
算存
融合
数据
流动
高效
调度
2. deliver dataset
GooseFS
Data Pods
Collections D
D D
D
D
Proc Pods
CSI
D
Collections
D
D
D
D
D
3. load dataset
00010111101010101011110010101010100010100100101001001010001010010100101011100010010010001010100
010101000101010010001010010001000100010101010010010100100101001010100101001000100101010101
0101001010100010001000001011010100100100001001010101000100100100001001001010001
01010100010111110001000100001010100010001000100101001010010100101
COS Data Lake
010001000100101111111000100100101001010001001
0101001
13. GooseFS云原生数据湖存储实现按需弹性扩缩容
GooseFS 具备弹性伸缩能力,根据业务对性能的需求,实时在线扩缩容。业务结束后,可以选择将GooseFS销毁,降低成本。
核心功能特性:
1. Scale up:性能(吞吐、IOPS)和容量同时扩容;
2. Scale down:性能(吞吐、IOPS)和容量同时缩容;
Scale down
3. Destroy:实例被销毁;
Scale up
Small
8x large, etc…
0001011110101010101111001010101010001010010010100100101000101001010010101110001001
00100010101000101010001010100100010100100010001000101010100100101001001
010100100100001001010101000100100100001001001010001
Dataset
010100010001000100101001010010100101
0101001010001001
0101001
COS Data Lake
14. GooseFS数据湖搭建混合云大模型训练平台
数据持久化存储在COS Data Lake中,训练数据按需通过GooseFS拉取到云上或者IDC计算端,做到一份Dataset,多地训练
IDC / Private Cloud
Tencent Public Cloud
GooseFS
GooseFS
GooseFS
0000010100101000100101001010010100101
00101000100101101001010001001
COS Data
Lake
0101001
GooseFS
0000010100101000100101001010010100101010100101
15. GooseFS :完善的运维、监控能力
GooseFS 提供 部署、安全、监控、告警等全流程运维能力以及对应工具。
16. 腾讯云数据万象内容审核,为AIGC数据安全保驾护航
国家网信办就《生成式人工智能服务管理办法(征求意见稿)》公开征求意见,强调利用生成式人工智能生成的内容,
要符合合规要求
数据万象内容审核
AIGC模型
图片审核
Text -> Image
色情内容 政治敏感
广告营销 暴力恐怖
违禁违法 特殊物品
性感 宗教
Prompt
Text input
请画一幅日落的山水画
Generate Content
视频审核
Text -> Video
文本审核
Text -> Text
音频审核
Model output
17. 自动驾驶训练场景数据湖存储
客户需求
腾讯云
训练任务集群
(黑石 GPU + GooseFS)
训练集数据预处理服务
(EKS: serverless kubernetes)
数据增长快,年100PB量级,不具备大规模存储自建和运维条件;
业务涉及多计算平台,需要支持多种协议同时访问数据;
训练平台需要高性能存储,提升训练效率;
方案描述
GPU
GPU
GooseFS Worker
标注后的
图片训练集
Preprocessing
原始路采车数据,以及预处理后的数据。合肥本地数据中心,通过
OneCOS提供百PB存储空间,存储短期热数据;
GooseFS Worker
Pod
Pod
Pod
海量数据存储:公有云COS数据湖提供弹性、低成本存储服务,存储全量
数据预处理平台:TKE + GooseFS,做为图片处理(截帧,转换,脱敏)
平台,处理后的数据存放到COS,用于自动驾驶模型训练;
自动驾驶训练平台:COS上的训练数据,通过GooseFS提前预热,加速
GPU训练IO性能,提升训练效率;
GooseFS Worker
训练数据缓存到
GooseFS
GooseFS
Master
方案价值
户数据快速增长需求。通过100Gb专线,数据在COS和OneCOS之间自由流
动,帮助客户构建了自动驾驶混合云平台;
路采车原始数据
Datasets
Images
…
annotations
COS 对象存储
公有云COS和本地OneCOS为用户提供了海量、低成本存储服务,解决客
Raw data
处理后训练数据
GooseFS作为高性能存储缓存服务,通过HDFS,POSIX,对接数据预处理
和训练平台,通过数据缓存能力,帮助自动驾驶训练性能提高30%;
camera
Radar
LIdar
COS 对象存储
100Gb专线
IDC数据中心
专线
TStor OneCOS
18. 自动驾驶训练各流程如何使用GooseFS
ETL:对原始采集数据进行预处理,借助于大数据平台,GooseFS通过HDFS接口访问数据,大文件读,小文件写,高带宽;
Labeling:对预处理后的数据进行标注,借助AI自动化平台、或人工平台,GooseFS通过POSIX接口访问数据,小文件写,低时延;
Training:对标注后的训练集数据进行自动驾驶模型训练,借助训练平台,GooseFS通过POSIX接口访问数据,小文件读,高IOPS,低时延;
Scenario Repo:通过预处理后的数据来模拟特定场景,验证感知算法,GooseFS通过POSIX接口访问数据,大文件读,高带宽;
Endurance Run:通过使用原始数据回放来进行仿真,验证自动驾驶模型算法,GooseFS提供POSIX接口访问数据,大文件读,高带宽;
数 据 预 处 理 、 标 注 、 模 型 训 练
感 知 验 证
仿 真 验 证
ETL Labeling Training ETL Scenario
Repo
HDFS POSIX POSIX HDFS POSIX
Endurance
Run
POSIX
COS/S3
Volume Raw
Valid
Dataset
Volume Raw
Valid
Valid
19. GooseFS PageStore模式优化小文件随机读
20. GooseFS备机读取优化元数据OPS
GooseFS单集群目前元数据OPS是主要瓶颈。
GooseFS是主从结构,在高可用模式下,有一个Leader Master和若干
Follower Master做备份,下个迭代GooseFS支持Follower Master承载跟
Leader一样的读流量,元数据OPS成倍数增加。
测试环境元数据List QPS同比提升将近4倍。
优化后高于HDFS元数据List QPS
21. GooseFS元数据卸载TiKV
• GooseFS元数据管理从本地Memory+RocksDB升级到分布式TiKV。
• 利用CVM支持的Numa绑核绑内存部署TiKV进程,单节点可以部署多个
TiKV进程。
• 节点占用单盘三副本文件数压测稳定在54亿,双盘稳定在102亿文件
总量。
22. GooseFS元数据性能:RocksDB vs TiKV
* 灰线为单盘RocksDB;蓝线为单盘TIKV;红线为双盘TiKV
23. 更多产品信息
欢迎参考腾讯云存储公众号 !