AI技术与云存储结合应用实践
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2. AI技术与云存储结合应用实践
腾讯 吉永光 2021.5.21
3. 大纲
• 云存储面临的挑战
• AI能给云存储带来的价值
• AI在Histor的落地实践
• 后续展望
4. 云存储面临的挑战
成本
成本
大规模
可用性
传统存
储
数据安
全
性能
运营
性能
云存储
云存储面临更多的挑战
集群装 数据安
箱 全
可用性
海量的运营规模,故障如家常便饭,如何进一步提升数据安全和服务可用性?
众多的存储集群,如何进行有效的资源装箱,均衡负载,进一步提升运营效率降低运营成本?
5. 如何应对云场景的挑战
数据安全方面
• 在系统可靠性不变的前提下,提前进行硬件故障预测
运营方面
• 通过有效的装箱策略,实现集群间的负载均衡,避免过载
• 通过有效的调度策略,持续优化集群间负载,避免过载,提升资源售卖率
• 建立专家系统,有效快速的发现和处理线上问题(AIOPS,由其他同事在对应专场分享介绍)
如何实现有效的预测和智能化的策略?
6. AI能给云存储带来什么?
人工智能(AI)技术与云存
储系统结合的智能存储,可
通过持续学习云环境下各项
监控指标的变化,从而为运
营提供更好的策略,并反馈
到系统进行自动调节。
可靠性
运营
性能
• 故障预测
• 故障诊断
• 高效资源利用
• 过载预测
• 冷热数据感知
7. AI在Histor的落地实践
应用层
数据库
云计算/虚拟化/容器
接口层
CBS
块设备接口
iSCSI/Virtio
CFS
文件接口
NFS/CIFS/Lustre
大数据分析
Cynosdb
DB接口
SQL
Histor是腾讯自主研发的高性能
分布式存储平台,它通过高性能
存储网络将服务器组成存储资源
池,是腾讯云块存储,文件存储
以及分布式数据库的存储底座。
具体落地实践:
• 磁盘故障智能预测巡检
存储层
设备层
Histor
分布式存储资源池化
……
• 智能用户装箱
• 智能数据调度
8. 基于神经网络的分层预测巡检
Ø 在磁盘层面,基于LSTM神经网络对磁盘的风险等
级进行预测,根据预测结果对不同风险等级的磁盘
自适应地调节巡检速率
Ø 在扇区层面,基于扇区故障的局部性,增加历史故
障扇区的巡检率,加速巡检磁盘中故障风险更高的
区域
Ø 在I/O层面,提出一种捎带策略的巡检技术,减少
磁头移动,从而进一步提高巡检效率。
Ø 通过提前修复硬盘坏块可减少30%硬盘故障对用
户的影响,提升服务质量。
9. LSTM神经网络的设计
《Tier-Scrubbing: An Adaptive and Tiered Disk Scrubbing Scheme with Improved MTTD and Reduced Cost》
10. 智能装箱
Ø 存储资源以集群形式管理,装箱
指为用户新购云盘分配到合适的
集群中进行存储。
Ø 传统的装箱局限于单一维度,无法实
现容量、带宽以及IOPS的多维资源
均衡。
Ø 利用机器学习中的聚类、分类器,预
测用户购买云盘的多维资源使用大小,
实现一维到多维的跨越。
11. 智能装箱
在线装箱
离线训练
新购云盘
用户历史数据集
特征
特征
所属业务
标签
容量
所属用户
云盘配置
训练
预测器
预测
多维装箱策略
读写IOPS
读写带宽
分配
Histor存储集群
…
12. 智能调度
Ø 云盘迁移指通过底层数据调度系统,从一个集群
在线的迁移到另外一个集群中。调度的目标是选
择合适的云盘迁移到合适的集群中。
迁移
Ø 一次云盘迁移影响存储系统多维度、多方面的表
现,传统的调度方式存在低效率、低性能的缺点。
Ø 云盘迁移动作直接影响存储系统的负载分布。智能
调度决策系统利用AI算法辅助决策,指导云盘进行
高效、合理的迁移。
迁移后
容量
IOPS
带宽
13. 智能调度
Ø 通过监控系统采集目前存储系
统的负载状态,识别高负载、
负载不均衡等问题的集群。
数据监控
容量
数据监控 IOPS 带宽
售卖率 业务
分布 集群
寿命
数据采集
智能调度决策
Histore存储集群
优化目标配置
迁移计划
存储集群
集群
空间
发起迁移
容量
均衡 IOP
S
均衡 带宽
均衡
售卖率
均衡 业务
均衡 寿命
保证
存储集群
多目标进化算法
Ø 通过监控数据对集群发起迁移
请求,智能调度决策系统设定
多个优化目标,通过多目标进
化算法计算出能同时优化多个
目标的迁移计划。
Ø Histore存储集群按照迁移计
划执行云盘迁移,从而均衡集
群间的负载。
《A Smart Cloud Disk Allocation Approach in Cloud Block Storage System 》
14. 未来展望
15. 智能缓存分配
Ø 多租户的云存储场景下,缓存作为共享资源被
多租户争用
Ø 未来可以通过机器学习方法对共享缓存建立性
能预测模型,以预测特定负载下缓存的性能
Ø 基于预测模型实现动态的缓存分配,提高缓存
服务性能
16. 智能系统调参
Ø 存储系统中存在众多可调参数,对系统性能存在极大影响
Ø 基于强化学习的智能调参技术已经在腾讯云数据库中得到应用(CDBTune,如上
图),其性能可高于DBA配置的云数据库实例
Ø 未来智能调参技术还可以应用于云文件系统中
17. 智能性能感知
Ø 目前的智能调度基于固定阈值实现,存储节点的性能上限是动态变化的
Ø
影响因素:网络状态、存储设备状态,服务器状态,负载特征
Ø 未来基于机器学习方法对存储节点性能进行建模,可以在很大程度上优化目
前调度策略、流控策略、副本选择策略的性能
18.