Kimi 稳定高效的 LLM 基础设施构建之道

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. Kimi 稳定
2. 录 03 04 01 规模训推集群的挑战 全链路稳定性提升 效资源利 强化学习中的混合部署
3.
4. 01 规模训推集群的挑战
5. 规模训推集群的挑战 效的资源使 范式 资源使 不够 线上推理呈现 常明显的 潮汐效应,资源需要能动 workload,需要平衡 态的根据时间进 的资源占 分配, 避免资源浪费 效 强化学习中存在训推两种 推理潮汐效应 防 者 资源分配 不均衡 RL 资源分配不均
6. 02 全链路稳定性提升 The more you stabilize, the more you save
7. Varys
8. PreCheck、周期巡检 集群 动进 检流程, 动
9. 调 栈全链路监控 CPU 调 栈监控 • 周期记录 py 调 栈 • 任务奔溃之后记录 torch 调 • 提供聚类信息供 栈 户查看是否有 异常代码或机器 GPU 调 • 分级插 栈监控 CUDA event • 导出 event 信息整合成时序图
10. 智能 志分析 离线 志聚合查询 • 从任务的各种 志中查询,匹配 特殊的模式,寻找报错的实际 • 和机器故障联动,展示导致 些 志 个任务 故障的所有诱因 在线 志监控 • 从 tensorboard、机器巡检等在线监 控指标中寻找当前任务是否有异常
11. 连续异步 checkpoint
12. 03 效资源利
13. 全 动 清理 弹性 •统 托管 tensorboard • 优化读取速率, 持任意实验之 间的 tensorboard 对 • 持 实验 merge,merge 之 后的实验互相对
14. 跨机房推理模型分发
15. 训推多级潮汐系统 线上 Kimi 推理服务 不可抢占训练任务 Spot 训练任务 低优先级离线推理 重保服务,必须保证稳定运 优先级训练任务 低优任务,使 潮汐资源 插空调度,随时被抢占
16. 训推多级潮汐系统
17. 04 强化学习中的混合部署 RL Hybrid Deployment
18. 强化学习 Infra 的挑战 RL 有复杂的计算流程 训推是两种不同的模式 • 训推 pipeline 流程较复杂 • 训练和推理框架跑的是两套代码,各 • 训推计算流对硬件的要求可能是不 • Rollout 期间由于请求回复 了 度不 样的 致造成 尾问题导致整体速度变慢和资源浪费 各 的优化 • 训推任务 不 案,较难融合 者的 checkpoint 格式不 致 • 训推任务互相切换造成 GPU 闲置浪费 • 训推并 有 样 模式不 致,需要的资源可能也
19. k1.5 RL System Overview and Partial Rollout
20. k1.5 Hybrid Deployment •利 sidecar 隔离环境 • 训推共享资源,避免资源闲置 • 不落盘传输 weight • 兼容训推不同的并 策略
21. Greedy Rollout 优势 •最 化利 空闲和异构资源,提 rollout 速度 重点问题 • 多机推理和 weights 传输中动态 调整 RDAM QoS • Rollout 请求需要做动态负载均衡 • Isolated Pod 和 Core Pod 可能 是异构的
22.
23. THANKS 模型正在重新定义软件 Large Language Model Is Redefining The Software

Главная - Вики-сайт
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-27 18:52
浙ICP备14020137号-1 $Гость$