PPIO 模型平台出海实战，跨地域业务扩展中的技术优化之道

1. 出海中的技术优化之道 PPIO派欧云模型平台出海实战 PPIO派欧云联合创始人 & CTO 王闻宇

2.

3. The Next China is Chinese

4. 王闻宇技术型连续创业者，2004年参与中国第一代互联网视频服务 PPTV（PPlive）的创立，从第一行代码构建了 PPTV 的分布式视频服务，并创新多项 P2P 直播技术，服务全球近5亿用户； 2014年二次创业极豆车联网，研发了中国首个车载智能系统 “极豆OS”，产品服务于奥迪、宝马、奔驰等国际知名车厂； 2018年联合创办 PPIO派欧云，聚焦分布式算力。技术领域主要聚焦在分布式计算、云原生、AI Infra 等。拥有20多年的分布式网络技术和音视频云服务架构经验，发表边缘计算、人工智能、大模型相关 SCI 论文15篇（其中CCF- A/中科院1区8篇），申请并授权发明专利20余件。

5. PPIO派欧云：整合分布式资源 PaaS 接入网就近连接音视频类 IaaS 实时云渲染类边缘容器云 AI推理类云原生云边协同边缘裸金属云提供服务整合资源节点间SDN互联 MAN/LAN/ 5G RAN 分布式调度管理区域 DC 汇聚机房闲置数据机房空间接入机房运营商机房中小企业机房企业闲置算力资源挖矿闲置 ……

6. 我们为什么要出海需求在出海大量成功出海 App 开放自由的市场中国工程师红利

7. 中美科技博弈

8. 我们的AI出海分布式云产品架构 API Model-Hosting https://novita.ai Serverless Pods https://infrai.com BareMetal

9. https://novita.ai

10. https://infrai.com

11. 出海的过程中有哪些困难 SLG Sales lead growth PLG Product lead growth 人生地不熟语言问题文化问题宗教问题 FLG Founder lead growth

12. 抓住不变的需求找到“第一性原理” 推理一直持续的需求，未来的推理成本一定持续降低，并伴随着用量规模的持续增加我们要十年时间持续做的事情就是，怎么在做到满足需求的情况，让推理的性价比足够高

13. 为什么推理成本会持续很贵生产资料昂贵 Scaling Law LLM 参数和序列都还在扩大视频生成的到来超长序列推理优化深挖还不够

14. 分布式云，生产资料不同地方成本不同

15. 我们在是怎么把推理成本降下来的降低生产资料成本降低 GPU 成本降低电费推理加速模型压缩降低其他场地/运维全球网络加速分布式云 Serverless

16.

17. 中美海底光缆的发展 CUCN： 2000年启用，中美海缆（China-US Cable Network，CUCN），1.28Tbps；2016年退役； TPE： 2008年9月建成，跨太平洋快线（Trans-Pacific Express，TPE），又称横太平洋快速海缆，达 5.12Tbps NCP： 2018年建成投产，新跨太平洋海缆（New Cross Pacific Cable Network，简称:NCP）是第一代 CUCN 的容量的1050倍，82Tbps

18. 中国到东南亚海底光缆的发展 APCN-2 AAG APG ADC 2001年投产，亚太2 号海底电缆；总容量 2.56Tbps 2009年11月10日就绪，亚太直达海底光缆 2.88Tbps 亚太直达海缆,2016 年就绪，54.8Tbps, 使得 CUCN 正式退休亚洲直达海缆，香港段，2023年建成。可承载超过 140 Tbps

19. 其实跨国网络非常复杂虽然海底光缆在不断的扩大容量，但是中国出海网络仍然面临巨大挑战丢包率高晚高峰 15-20%，甚至 40% 延迟高晚高峰 250ms 左右速率限制大忙时比闲时下降明显

20. 我们需要在上层构造一个智能跨国加速如何构建一个低延时、大带宽、低抖动、低成本的网络是我们的一个命题动态最优路径选择 + UDP 可靠传输 + 传输协议优化是最优的解决方案

21. 优化1: 动态最优路近选择 • KSP 最短路径水位上报 RouterCenter RouterCenter 依据转发服务上报的水位信息，使用KSP算法定期生成最短路径路径下发加速服务 Agent 上车点(A) 目标下一跳权重 C B1 100 C B2 30 质量探测 • 分段路径下发中转服务 (B1) 目标下一跳权重 C C 100 中转服务 (B2) 目标下一跳权重 C C 100 下车点(C) 定期进行路径下发，将最优路径拆分并分别下发给加速网络 • 去中心化能力加速网络拥有去中心化的能力，可以在 RouterCenter 异常时正常服务质量探测 • 节点自治能力节点间质量的自动探测，保证链路质量的可用性

22. 优化2: 因地制宜，实现可控的 UDP 传输协议背景&特点拥塞算法优点缺点 UDT UDT 被广泛用于高性能计算，用于光纤网络上的高速数据传输 NACK、ACK2 基于对数的动态 AIMD 高吞吐量、低延迟不适合高延迟网络 uTP BitTorrent 公司开发，用于 P2P 文件共享 LEDBAT 简单、轻量级不适合拥塞的网络 UNA + ACK 非延迟 ACK RTO 不翻倍低延迟、低丢包率不适合高延迟网络广泛用于网络游戏、游戏加速器、 KCP 视频推流等场景 Quic 多路复用、连接迁移、0-1RTT Cubic、BBR、PCC 可插拔安全、可靠实现复杂，性能开销较大

23. 优化3：我们基于 ACNP 来优化传输协议 ACNP QUIC HTTP1/2 TLS TCP HTTP3 应用层多路复用 QPACK 连接迁移 TLS 数据加密 • 化繁为简多路复用、多路传输、QPACK、简化协议头 • 拥塞控制低延时模式 vs 大带宽模式流控制/拥塞控制流控制/拥塞控制 UDP UDP IP 比 QUIC 更轻量化！！比 KCP 更完善&安全！！ • ARQ 更高效和支持更大范围的 SACK 乱序度优化的 RACK • FEC 低延时模式下，利用空闲带宽发送 FEC 大带宽模式下，重传包使用 FEC

24. 效果展示 – 跨国 API 请求比 QUIC，延时降低 ↓ 40% 比 KCP，延时降低 ↓ 20%

25. 单进程下载：50-100倍速度提升多进程下载：500倍速度提升，速率可达1000Mbps

26. Serverless 架构理念 • 弹性伸缩，自动按需扩缩容，极高的弹性 • 按需付费，用多少资源就花多少钱，不用为闲置资源来买单 • 免运维，不需要管理底层资源，以及高度的自动化和自愈能力

27. 分布式 Serverless 推理平台传统的 GPU 容器云解决了算力的使用问题，但没有解决算力的易用问题 Serverless Inference Platform Client Serverless Inference Endpoint Serverless Automtic Scaling Unified Docker Runtime Distributed Infrastructure Management Serverless 的本质是为客户提供更好的用户体验 • 提供 Serverless Inference Endpoint，客户直接访问 API，减少客户在业务无关层面上的投入，使客户更加聚焦业务 • 降低客户资源成本，弹性按需使用算力资源，不使用则 0成本但 Serverless 也会对云服务提供方带来一些挑战 • 面对海量突发的流量请求，云平台需要高效的调度请求和扩缩容服务 • 消除底层异构资源差异，提供标准的统一的容器环境 • 资源全部由云服务托管，需要解决资源不足的问题，想要的时候就能获得算力资源

28. 我们怎么实现的 Serverless –弹性调度 • 完全按需弹性，无使用无成本 • 基于池技术，首实例秒级启动 • 故障自愈，异常请求重调度 • 实例状态实时监测，自动负载均衡

29. 我们怎么实现的 Serverless –跨云扩容 • 可弹性扩容至第三方云 • 理论上可无限扩容 • 基于多云实现容灾 • 平衡稳定性与成本

30. 我们怎么实现的 Serverless –虚拟运行环境 • 兼容常见四种算力资源 • 提供统一虚拟运行环境 • 遵循容器运行时规范 • 支持主动健康检查 • 支持任务的快速切换

31. 通过网络加速 +Serverless 的效果裸金属实例 Serverless 120% 100% 80% 60% 40% 40% 60% 70% 90% 20% 0% 启动时间请求异常率算力成本项目上线时间线上 T O P1 出海客户数据，每日GPU峰值80卡

32. 制约性能的三要素: 显存、算力、带宽 13B fp16 多卡并行使MBU变小多卡并行让理论时延变长显存算力带宽

33. 派欧算力云：推理优化，数倍加速 Quantization Basic Optimization FlashAttention: 4x up Q K V Weight-Only & KV Cached: 2x up Fused Attention in SRAM O INPUT FP16 Weight INT8 O(N 2 ) => O(N) Weight INT4 ContinuousBatching: 8x up seq 1 padding seq 1 seq 2 padding seq 2 seq 3 seq 4 padding padding Sparsity computing seq 3 seq 4 TensorCore FP16 OutPUT FP16 KV Cache Weight FP16 KV-Cache INT8 O(T 2 ) => O(TL) FP8 End-to-End: 4x up (Ada & Hopper) seq 7 INPUT FP8 seq 8 padding removed Sparse Activation: 8x up LLM Weights seq 5 seq 6 Sparse KV-Cache: 10x up Weight FP8 Transformer Self Atten FP8 KV Cache FP8 FFN FP8 Act. FP8 TensorCore FP8 CPU for Cold neuron OUTPUT FP16 GPU for Cold neuron

34. 算子融合基础：注意力及 KV-Cache 注意力：本质是 Query/Key/Value 三个矩阵的运算自回归(AutoRegressive)：当前 Query 需要遍历序列中所有历史 Token Key&Value 的缓存非常有必要：避免每次生成(decode)新 Token 时重复计算历史 Token ABCDEFG context auto regressive Concat(K), Concat(V) decode append k and v Attention & MLP KV Cache

35. 我们实践过的无损压缩方案 FlashAttention: 4x up Q K V PageAttention: 4x up Fused Attention in SRAM O O(N 2 ) => O(N) ContinuousBatching: 8x up seq 1 padding seq 1 seq 2 padding seq 2 seq 3 seq 4 padding padding seq 3 seq 4 Prefix Caching: 4x up seq 5 seq 6 seq 7 seq 8 padding removed

36. 浮点数和 GPU 的支持 Blackwell Hopper Ada Lovelace Ampere Tensor Core FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4 FP64, TF32, BF16, FP16, FP8, INT8 FP64, TF32, BF16, FP16, FP8, INT8, INT4 FP64, TF32, BF16, FP16, INT8, INT4 , INT1 CUDA Core FP64, TF32, BF16, FP16 FP64, TF32, BF16, FP16, INT8 FP64, TF32, BF16, FP16, INT8 FP64, FP32, FP16, BF16，INT8 B100, B200 H100, H800, H20 L20, L40S,RTX4090 A100, RTX3090 代表型号

37. FP8 全链路量化，存储和计算的全面提升 End-to-End FP8 inference FP16 weights x N FP8 FP8 KV-Cache Activation FP8 TensorCore FP8 FP8 weights FP8 E convert Token FP8让吞吐提升4倍

38. 稀疏化的硬件优化

39. 稀疏化计算：权重稀疏，减少计算量 Weights CPU Inference(rarely) Cold neuron network (90%) load Offline Solver light train Calibrate Data Attention split Activate merge Hot neuron network (10%) GPU Inference(mostly) Attention Activate Output

40. 稀疏化计算：KV Cache 稀疏，减少存储，支持长窗口在有限长度的 KV Cache 中，驱逐与 Query 相关度低的 KV 值永久保留 KV Cache 中靠前的 KV 值 Decoding 时用较少的 KV 实现较长 KV 的效果

41.

42.

43. 下一步还有的优化空间 AMD ROCm 推理加速优化昇腾 Atlas 推理方案适配和优化燧原 S60 推理方案适配和优化专门推理芯片的支持线性注意力机制 Medusa机制优化 Softmax 算子，使用少量中间状态对全局注意力信息建模，复杂度降低到线性在隐藏层增加多个 Head，让其并行解码后面的内容，组合输出结果，提高效率线性KVCache机制前瞻编码优化 KVCache 存储算法，仅保存一层键值数据，将缓存空间复杂度降低到线性将模型解码分成多个预测分支和一个验证分支，预测分支并行解码，最后交由验证分支统一输出，提高并行度和效率共享注意力机制针对显存优化，通过细粒度切分，让注意力数据更容易共享，提升显存利用率 Transformer算法深度优化多阶段投机解码将草稿模型按重要性重构为树形结构，从而分阶段执行投机解码，提升解码有效性和总体效率投机采样

44. 回顾过去30年：在线音视频的发展网络传输成本音视频编解码分布式云+Serverless AI推理加速/模型压缩

45. 未来 “Affordability” is all you need AIGC 流量推理成本大幅下降（10X-100X) 推理算力爆发训练算力爆发 AI 推理成本 2023 2025 2027 2029

46.

47. 欢迎扫码交个朋友