高性能全闪文件系统的设计与实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 性能全闪
件系统的设计与实践
2. 录
01
模型时代的存储挑战
YRCloudFile的设计
03 级运维特性
04 AI训练推理解决
05 总结和未来规划
案
案
3.
4. 01
模型时代的存储挑战
5. AI数据增
的挑战
6. AI 数据处理的挑战
数据预处理
数据训练
推理
• 多协议访问 • 量读请求 • 模型部署
• 宽带 •
• 容量 • 数据检索
• 并发 • IO
• 宽带 • IO 读写混合
混合
• 海量
件
宽带
• KV Cache 卸载
数据归档
• 数据
命周期管理
• 低成本
• 随时可访问
7. AI 存储
海量
件
横向扩展
容量和成本
8. 02
YRCloudFile的设计
案
9. YRCloudFile 核
组件
POSIX私有客户端(CLIENT)
集群管理服务(MGR)
元数据管理服务(MDS)
数据管理服务(OSS)
10. 性能的基
OSD
11. 增强性能优化
幅提升
RDMA read/write
RDMA send/recv
,带来更稳定的读写延迟
和更低的CPU负载
12. 全闪
体机 F9000X
持 E3.S/ U.2 PCIe 5.0 TLC
和 QLC NVMe SSD
持 GDS
级特性
Multi Channel 性能优化
13. 海量
14. 元数据集群|元数据操作优化
客户端
lookup
stat
getxattr
cache
open
cache
read
close
readonly
lazy close
page cache
元数据集群
数据集群
15. 元数据集群|性能线性扩展
16. 件性能对
元数据集群|海量
17. 规模集群和海量客户端
client
client
18. 智能数据分层|极致的性价
file1#C#N
file6#C#1
file6#C#2
对象存储2
file6#C#N
19. 智能数据加载|加速混合云数据流转
件存储
20. YRCloudFile整体架构
21. 03
级运维特性
22. 级运维特性和优化
案
案
23. 如何实现多租户管理
配额管理
基于
流量控制
录的配额管理,允许管理员给不
同的租户设置存储空间和
维度的使
件数量两个
限制。配合监控告警功能,
让管理员和租户能够实时感知空间使
情况
基于
录级的流量控制,让管理员给租
挂载权限认证
提供 ip
名单和 token 认证两种
户设置存储访问流量上线,避免某个租 式,让管理员给不同的
户访问流量过 挂载权限,让租户只能挂载和访问
,影响其他租户
的存储空间
录设置不同的
24. 如何实现数据访问安全
录都可以设置
个回
收站和回收站清理策略
3.
定义回收站清理周期,并且可以
动态调整清理周期
4. 对性能的影响在5%以内
回收站能够恢复
户误删除的数据
25. 弹性数据
络
26. 特定场景的性能优化
段
Page Cache
针对单流业务,
如说拷
Cache HardLimit
的数据集,内存已经 法缓存 限制某个低速客户端的带宽,降低对整
Page Cache的预读和写缓存可以极 整个数据集,但是缓存的置换 会导致 个存储集群的性能影响,
提升拷 数据访问的延迟增加,针对
性能
数据,开启
对于超
pagecache和mmap的缓存进
络中由于低速
硬限
制,避免cache强制置换导致的延迟陡
增
客户端限速
来解决IB
络引发的拥塞问题
27. 04
AI训练推理解决
案
28. 全闪存储加速
标准存储
Bucket
焱融数据湖存储系统
归档存储
Bucket
归档存储
Bucket
归档存储
Bucket
归档存储
Bucket
29. KVCache 以存换算,提升推理效率
‣ 提升 KV Cache 缓存命中率
• 突破 GPU 显存空间上限
• 提供 PB 级的 KV Cache 缓存空间
• 多节点共享 KV Cache
• 提供单节点 40GBps 带宽,保证 KV Cache 访问延迟
‣ 提升推理效率
• 缓存命中后避免重复计算
• 相
缓存不命中情况下,缓存命中 TTFT 延迟降低90%以上
• 降低计算成本,提供更
的 token 吞吐
30. KV Cache 对 测试
在
上下
场景中,使
YRCloudFile KVCache 可实现
的 TTFT 性能提升。这
模数据的快速处理能
显著优化得益于其
,为
达 13 倍
效缓存命中率和对
模型推理提供了更优的性能
持
规
在较
并发数下,对于不同的上下
的 TTFT 延迟可缩
4 倍以上;这表明 YRCloudFile KVCache 在
景下,能够有效优化推理性能,显著减少延迟,提升
https://mp.weixin.qq.com/s/ynQe1F6cW2Q8hIDZBYhK9Q
度,YRCloudFile KVCache 所提供
户体验
并发场
31. DataInsight 加速数据流转,保持数据新鲜
32. 05
总结和未来规划
33. 总结
元数据性能
分布式元数据集群
元数据操作优化
智能分层
多租户管理
性能
运维
GPU Direct Storage
NVMe
数据性能
RDMA
Multi-Channel
数据安全访问
弹性数据
成本
络
数据加载
34. 未来规划
推理场景的增强,
前在推出 KV Cache 解决 案
降低成本,今年下半年开始主推 Erasure Coding 和 QLC 的组合
将客户端卸载到 DPU ,降低计算节点的负载
具和
持更丰富的运维
运维增强,
段
35.
36. THANKS
模型正在重新定义软件
Large Language Model Is Redefining The Software