AI技术与云存储结合应用实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2. AI技术与云存储结合应用实践 腾讯 吉永光 2021.5.21
3. 大纲 • 云存储面临的挑战 • AI能给云存储带来的价值 • AI在Histor的落地实践 • 后续展望
4. 云存储面临的挑战 成本 成本 大规模 可用性 传统存 储 数据安 全 性能 运营 性能 云存储 云存储面临更多的挑战 集群装 数据安 箱 全 可用性 海量的运营规模,故障如家常便饭,如何进一步提升数据安全和服务可用性? 众多的存储集群,如何进行有效的资源装箱,均衡负载,进一步提升运营效率降低运营成本?
5. 如何应对云场景的挑战 数据安全方面 • 在系统可靠性不变的前提下,提前进行硬件故障预测 运营方面 • 通过有效的装箱策略,实现集群间的负载均衡,避免过载 • 通过有效的调度策略,持续优化集群间负载,避免过载,提升资源售卖率 • 建立专家系统,有效快速的发现和处理线上问题(AIOPS,由其他同事在对应专场分享介绍) 如何实现有效的预测和智能化的策略?
6. AI能给云存储带来什么? 人工智能(AI)技术与云存 储系统结合的智能存储,可 通过持续学习云环境下各项 监控指标的变化,从而为运 营提供更好的策略,并反馈 到系统进行自动调节。 可靠性 运营 性能 • 故障预测 • 故障诊断 • 高效资源利用 • 过载预测 • 冷热数据感知
7. AI在Histor的落地实践 应用层 数据库 云计算/虚拟化/容器 接口层 CBS 块设备接口 iSCSI/Virtio CFS 文件接口 NFS/CIFS/Lustre 大数据分析 Cynosdb DB接口 SQL Histor是腾讯自主研发的高性能 分布式存储平台,它通过高性能 存储网络将服务器组成存储资源 池,是腾讯云块存储,文件存储 以及分布式数据库的存储底座。 具体落地实践: • 磁盘故障智能预测巡检 存储层 设备层 Histor 分布式存储资源池化 …… • 智能用户装箱 • 智能数据调度
8. 基于神经网络的分层预测巡检 Ø 在磁盘层面,基于LSTM神经网络对磁盘的风险等 级进行预测,根据预测结果对不同风险等级的磁盘 自适应地调节巡检速率 Ø 在扇区层面,基于扇区故障的局部性,增加历史故 障扇区的巡检率,加速巡检磁盘中故障风险更高的 区域 Ø 在I/O层面,提出一种捎带策略的巡检技术,减少 磁头移动,从而进一步提高巡检效率。 Ø 通过提前修复硬盘坏块可减少30%硬盘故障对用 户的影响,提升服务质量。
9. LSTM神经网络的设计 《Tier-Scrubbing: An Adaptive and Tiered Disk Scrubbing Scheme with Improved MTTD and Reduced Cost》
10. 智能装箱 Ø 存储资源以集群形式管理,装箱 指为用户新购云盘分配到合适的 集群中进行存储。 Ø 传统的装箱局限于单一维度,无法实 现容量、带宽以及IOPS的多维资源 均衡。 Ø 利用机器学习中的聚类、分类器,预 测用户购买云盘的多维资源使用大小, 实现一维到多维的跨越。
11. 智能装箱 在线装箱 离线训练 新购云盘 用户历史数据集 特征 特征 所属业务 标签 容量 所属用户 云盘配置 训练 预测器 预测 多维装箱策略 读写IOPS 读写带宽 分配 Histor存储集群 …
12. 智能调度 Ø 云盘迁移指通过底层数据调度系统,从一个集群 在线的迁移到另外一个集群中。调度的目标是选 择合适的云盘迁移到合适的集群中。 迁移 Ø 一次云盘迁移影响存储系统多维度、多方面的表 现,传统的调度方式存在低效率、低性能的缺点。 Ø 云盘迁移动作直接影响存储系统的负载分布。智能 调度决策系统利用AI算法辅助决策,指导云盘进行 高效、合理的迁移。 迁移后 容量 IOPS 带宽
13. 智能调度 Ø 通过监控系统采集目前存储系 统的负载状态,识别高负载、 负载不均衡等问题的集群。 数据监控 容量 数据监控 IOPS 带宽 售卖率 业务 分布 集群 寿命 数据采集 智能调度决策 Histore存储集群 优化目标配置 迁移计划 存储集群 集群 空间 发起迁移 容量 均衡 IOP S 均衡 带宽 均衡 售卖率 均衡 业务 均衡 寿命 保证 存储集群 多目标进化算法 Ø 通过监控数据对集群发起迁移 请求,智能调度决策系统设定 多个优化目标,通过多目标进 化算法计算出能同时优化多个 目标的迁移计划。 Ø Histore存储集群按照迁移计 划执行云盘迁移,从而均衡集 群间的负载。 《A Smart Cloud Disk Allocation Approach in Cloud Block Storage System 》
14. 未来展望
15. 智能缓存分配 Ø 多租户的云存储场景下,缓存作为共享资源被 多租户争用 Ø 未来可以通过机器学习方法对共享缓存建立性 能预测模型,以预测特定负载下缓存的性能 Ø 基于预测模型实现动态的缓存分配,提高缓存 服务性能
16. 智能系统调参 Ø 存储系统中存在众多可调参数,对系统性能存在极大影响 Ø 基于强化学习的智能调参技术已经在腾讯云数据库中得到应用(CDBTune,如上 图),其性能可高于DBA配置的云数据库实例 Ø 未来智能调参技术还可以应用于云文件系统中
17. 智能性能感知 Ø 目前的智能调度基于固定阈值实现,存储节点的性能上限是动态变化的 Ø 影响因素:网络状态、存储设备状态,服务器状态,负载特征 Ø 未来基于机器学习方法对存储节点性能进行建模,可以在很大程度上优化目 前调度策略、流控策略、副本选择策略的性能
18.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 17:17
浙ICP备14020137号-1 $Map of visitor$