PPIO 模型平台出海实战,跨地域业务扩展中的技术优化之道

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 出海中的技术优化之道 PPIO派欧云模型平台出海实战 PPIO派欧云 联合创始人 & CTO 王闻宇
2.
3. The Next China is Chinese
4. 王闻宇 技术型连续创业者,2004年参与中国第一代互联网视频服务 PPTV(PPlive)的创立,从第一行代码构建了 PPTV 的分布 式视频服务,并创新多项 P2P 直播技术,服务全球近5亿用 户; 2014年二次创业极豆车联网,研发了中国首个车载智能系统 “极豆OS”,产品服务于奥迪、宝马、奔驰等国际知名车厂; 2018年联合创办 PPIO派欧云,聚焦分布式算力。技术领域主 要聚焦在分布式计算、云原生、AI Infra 等。 拥有20多年的分布式网络技术和音视频云服务架构经验,发表 边缘计算、人工智能、大模型相关 SCI 论文15篇(其中CCF- A/中科院1区8篇),申请并授权发明专利20余件。
5. PPIO派欧云:整合分布式资源 PaaS 接入网 就近连接 音视频类 IaaS 实时云渲染类 边缘容器云 AI推理类 云原生 云边协同 边缘裸金属云 提供服务 整合资源 节点间SDN互联 MAN/LAN/ 5G RAN 分布式 调度管理 区域 DC 汇聚 机房 闲置数据机房空间 接入 机房 运营商 机房 中小企业 机房 企业闲置算力资源 挖矿闲置 ……
6. 我们为什么要出海 需求在出海 大量成功出海 App 开放自由的市场 中国工程师红利
7. 中美科技博弈
8. 我们的AI出海分布式云产品 架构 API Model-Hosting https://novita.ai Serverless Pods https://infrai.com BareMetal
9. https://novita.ai
10. https://infrai.com
11. 出海的过程中有哪些困难 SLG Sales lead growth PLG Product lead growth 人生地不熟 语言问题 文化问题 宗教问题 FLG Founder lead growth
12. 抓住不变的需求 找到“第一性原理” 推理一直持续的需求,未来的推理成本一定持续降低,并伴随着用量规 模的持续增加 我们要十年时间持续做的事情就是,怎么在做到满足需求的情况,让推 理的性价比足够高
13. 为什么推理成本会持续很贵 生产资料昂贵 Scaling Law LLM 参数和序列 都还在扩大 视频生成的到来 超长序列 推理优化深挖还 不够
14. 分布式云,生产资料不同地方成本不同
15. 我们在是怎么把推理成本降下来的 降低生产资料 成本 降低 GPU 成本 降低电费 推理加速 模型压缩 降低其他 场地/运维 全球网络加速 分布式云 Serverless
16.
17. 中美海底光缆的发展 CUCN: 2000年启用,中美海缆(China-US Cable Network,CUCN),1.28Tbps;2016年退役; TPE: 2008年9月建成,跨太平洋快线(Trans-Pacific Express,TPE),又称横太平洋快速海缆,达 5.12Tbps NCP: 2018年建成投产,新跨太平洋海缆(New Cross Pacific Cable Network,简称:NCP)是第一代 CUCN 的容量的1050倍,82Tbps
18. 中国到东南亚海底光缆的发展 APCN-2 AAG APG ADC 2001年投产,亚太2 号海底电缆;总容 量 2.56Tbps 2009年11月10日就 绪,亚太直达海底 光缆 2.88Tbps 亚太直达海缆,2016 年就绪,54.8Tbps, 使得 CUCN 正式退 休 亚洲直达海缆,香 港段,2023年建 成。可承载超过 140 Tbps
19. 其实跨国网络非常复杂 虽然海底光缆在不断的扩大容量,但是中国出海网络仍然面临巨大挑战 丢包率高 晚高峰 15-20%,甚至 40% 延迟高 晚高峰 250ms 左右 速率限制大 忙时比闲时下降明显
20. 我们需要在上层构造一个智能跨国加速 如何构建一个低延时、大带宽、低抖动、低成本的网络是我们的一个命题 动态最优路径选择 + UDP 可靠传输 + 传输协议优化 是最优的解决方案
21. 优化1: 动态最优路近选择 • KSP 最短路径 水位上报 RouterCenter RouterCenter 依据转发服务上报的水位信息,使 用KSP算法定期生成最短路径 路径下发 加速服务 Agent 上车点(A) 目 标 下一 跳 权重 C B1 100 C B2 30 质量探 测 • 分段路径下发 中转服务 (B1) 目 标 下一 跳 权重 C C 100 中转服务 (B2) 目 标 下一 跳 权重 C C 100 下车点(C) 定期进行路径下发,将最优路径拆分并分别下发给 加速网络 • 去中心化能力 加速网络拥有去中心化的能力,可以在 RouterCenter 异常时正常服务 质量探测 • 节点自治能力 节点间质量的自动探测,保证链路质量的可用性
22. 优化2: 因地制宜,实现可控的 UDP 传输 协议 背景&特点 拥塞算法 优点 缺点 UDT UDT 被广泛用于高性能计算,用 于光纤网络上的高速数据传输 NACK、ACK2 基于对数的动态 AIMD 高吞吐量、低 延迟 不适合高延迟网络 uTP BitTorrent 公司开发,用于 P2P 文件共享 LEDBAT 简单、轻量级 不适合拥塞的网络 UNA + ACK 非延迟 ACK RTO 不翻倍 低延迟、低丢 包率 不适合高延迟网络 广泛用于网络游戏、游戏加速器、 KCP 视频推流等场景 Quic 多路复用、连接迁移、0-1RTT Cubic、BBR、PCC 可插拔 安全、可靠 实现复杂,性能开 销较大
23. 优化3:我们基于 ACNP 来优化传输协议 ACNP QUIC HTTP1/2 TLS TCP HTTP3 应用层 多路复用 QPACK 连接迁移 TLS 数据加密 • 化繁为简 多路复用、多路传输、QPACK、简化协议头 • 拥塞控制 低延时模式 vs 大带宽模式 流控制/拥塞控制 流控制/拥塞控制 UDP UDP IP 比 QUIC 更轻量化!! 比 KCP 更完善&安全 !! • ARQ 更高效和支持更大范围的 SACK 乱序度优化的 RACK • FEC 低延时模式下,利用空闲带宽发送 FEC 大带宽模式下,重传包使用 FEC
24. 效果展示 – 跨国 API 请求 比 QUIC, 延时降低 ↓ 40% 比 KCP,延时降低 ↓ 20%
25. 单进程下载:50-100倍速度提升 多进程下载:500倍速度提升,速率可达1000Mbps
26. Serverless 架构理念 • 弹性伸缩,自动按需扩缩容,极高的弹性 • 按需付费,用多少资源就花多少钱,不用 为闲置资源来买单 • 免运维,不需要管理底层资源,以及高度 的自动化和自愈能力
27. 分布式 Serverless 推理平台 传统的 GPU 容器云解决了算力的使用问题,但没有解决算力的易用问题 Serverless Inference Platform Client Serverless Inference Endpoint Serverless Automtic Scaling Unified Docker Runtime Distributed Infrastructure Management Serverless 的本质是为客户提供更好的用户体验 • 提供 Serverless Inference Endpoint,客户直接访 问 API,减少客户在业务无关层面上的投入,使客户更 加聚焦业务 • 降低客户资源成本,弹性按需使用算力资源,不使用则 0成本 但 Serverless 也会对云服务提供方带来一些挑战 • 面对海量突发的流量请求,云平台需要高效的调度请求 和扩缩容服务 • 消除底层异构资源差异,提供标准的统一的容器环境 • 资源全部由云服务托管,需要解决资源不足的问题,想 要的时候就能获得算力资源
28. 我们怎么实现的 Serverless –弹性调度 • 完全按需弹性,无使用无成本 • 基于池技术,首实例秒级启动 • 故障自愈,异常请求重调度 • 实例状态实时监测,自动负载均衡
29. 我们怎么实现的 Serverless –跨云扩容 • 可弹性扩容至第三方云 • 理论上可无限扩容 • 基于多云实现容灾 • 平衡稳定性与成本
30. 我们怎么实现的 Serverless –虚拟运行环境 • 兼容常见四种算力资源 • 提供统一虚拟运行环境 • 遵循容器运行时规范 • 支持主动健康检查 • 支持任务的快速切换
31. 通过网络加速 +Serverless 的效果 裸金属实例 Serverless 120% 100% 80% 60% 40% 40% 60% 70% 90% 20% 0% 启动时间 请求异常率 算力成本 项目上线时间 线上 T O P1 出海客户数据,每日GPU峰值80卡
32. 制约性能的三要素: 显存、算力、带宽 13B fp16 多卡并行使MBU变小 多卡并行让理论时延变长 显存 算力 带宽
33. 派欧算力云: 推理优化,数倍加速 Quantization Basic Optimization FlashAttention: 4x up Q K V Weight-Only & KV Cached: 2x up Fused Attention in SRAM O INPUT FP16 Weight INT8 O(N 2 ) => O(N) Weight INT4 ContinuousBatching: 8x up seq 1 padding seq 1 seq 2 padding seq 2 seq 3 seq 4 padding padding Sparsity computing seq 3 seq 4 TensorCore FP16 OutPUT FP16 KV Cache Weight FP16 KV-Cache INT8 O(T 2 ) => O(TL) FP8 End-to-End: 4x up (Ada & Hopper) seq 7 INPUT FP8 seq 8 padding removed Sparse Activation: 8x up LLM Weights seq 5 seq 6 Sparse KV-Cache: 10x up Weight FP8 Transformer Self Atten FP8 KV Cache FP8 FFN FP8 Act. FP8 TensorCore FP8 CPU for Cold neuron OUTPUT FP16 GPU for Cold neuron
34. 算子融合基础:注意力及 KV-Cache 注意力:本质是 Query/Key/Value 三个矩阵的运算 自回归(AutoRegressive):当前 Query 需要 遍历序列中所有历史 Token Key&Value 的缓存非常有必要:避免每次生 成(decode)新 Token 时重复计算历史 Token ABCDEFG context auto regressive Concat(K), Concat(V) decode append k and v Attention & MLP KV Cache
35. 我们实践过的无损压缩方案 FlashAttention: 4x up Q K V PageAttention: 4x up Fused Attention in SRAM O O(N 2 ) => O(N) ContinuousBatching: 8x up seq 1 padding seq 1 seq 2 padding seq 2 seq 3 seq 4 padding padding seq 3 seq 4 Prefix Caching: 4x up seq 5 seq 6 seq 7 seq 8 padding removed
36. 浮点数和 GPU 的支持 Blackwell Hopper Ada Lovelace Ampere Tensor Core FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4 FP64, TF32, BF16, FP16, FP8, INT8 FP64, TF32, BF16, FP16, FP8, INT8, INT4 FP64, TF32, BF16, FP16, INT8, INT4 , INT1 CUDA Core FP64, TF32, BF16, FP16 FP64, TF32, BF16, FP16, INT8 FP64, TF32, BF16, FP16, INT8 FP64, FP32, FP16, BF16,INT8 B100, B200 H100, H800, H20 L20, L40S,RTX4090 A100, RTX3090 代表型号
37. FP8 全链路量化,存储和计算的全面提升 End-to-End FP8 inference FP16 weights x N FP8 FP8 KV-Cache Activation FP8 TensorCore FP8 FP8 weights FP8 E convert Token FP8让吞吐提升4倍
38. 稀疏化的硬件优化
39. 稀疏化计算:权重稀疏,减少计算量 Weights CPU Inference(rarely) Cold neuron network (90%) load Offline Solver light train Calibrate Data Attention split Activate merge Hot neuron network (10%) GPU Inference(mostly) Attention Activate Output
40. 稀疏化计算:KV Cache 稀疏,减少存储,支持长窗口 在有限长度的 KV Cache 中,驱逐与 Query 相关度低 的 KV 值 永久保留 KV Cache 中靠前 的 KV 值 Decoding 时用较少的 KV 实 现较长 KV 的效果
41.
42.
43. 下一步还有的优化空间 AMD ROCm 推理加速优化 昇腾 Atlas 推理方案适配和优化 燧原 S60 推理方案适配和优化 专门推理芯片的支持 线性注意力机制 Medusa机制 优化 Softmax 算子,使用少量中间状态对全局注 意力信息建模,复杂度降低到线性 在隐藏层增加多个 Head,让其并行解码后面的 内容,组合输出结果,提高效率 线性KVCache机制 前瞻编码 优化 KVCache 存储算法,仅保存一层键值数 据,将缓存空间复杂度降低到线性 将模型解码分成多个预测分支和一个验证分支, 预测分支并行解码,最后交由验证分支统一输 出,提高并行度和效率 共享注意力机制 针对显存优化,通过细粒度切分,让注意力数据 更容易共享,提升显存利用率 Transformer算法深度 优化 多阶段投机解码 将草稿模型按重要性重构为树形结构,从而分阶 段执行投机解码,提升解码有效性和总体效率 投机采样
44. 回顾过去30年:在线音视频的发展 网络传输成本 音视频编解码 分布式云+Serverless AI推理加速/模型压缩
45. 未来 “Affordability” is all you need AIGC 流量 推理成本大幅下降(10X-100X) 推理算力爆发 训练算力爆发 AI 推理成本 2023 2025 2027 2029
46.
47. 欢迎扫码 交个朋友

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.138.0. UTC+08:00, 2024-12-22 09:19
浙ICP备14020137号-1 $Map of visitor$