PPIO 模型平台出海实战,跨地域业务扩展中的技术优化之道
如果无法正常显示,请先停止浏览器的去广告插件。
1. 出海中的技术优化之道
PPIO派欧云模型平台出海实战
PPIO派欧云 联合创始人 & CTO 王闻宇
2.
3. The Next China is Chinese
4. 王闻宇
技术型连续创业者,2004年参与中国第一代互联网视频服务
PPTV(PPlive)的创立,从第一行代码构建了 PPTV 的分布
式视频服务,并创新多项 P2P 直播技术,服务全球近5亿用
户;
2014年二次创业极豆车联网,研发了中国首个车载智能系统
“极豆OS”,产品服务于奥迪、宝马、奔驰等国际知名车厂;
2018年联合创办 PPIO派欧云,聚焦分布式算力。技术领域主
要聚焦在分布式计算、云原生、AI Infra 等。
拥有20多年的分布式网络技术和音视频云服务架构经验,发表
边缘计算、人工智能、大模型相关 SCI 论文15篇(其中CCF-
A/中科院1区8篇),申请并授权发明专利20余件。
5. PPIO派欧云:整合分布式资源
PaaS
接入网
就近连接
音视频类
IaaS
实时云渲染类
边缘容器云
AI推理类
云原生
云边协同
边缘裸金属云
提供服务
整合资源
节点间SDN互联
MAN/LAN/
5G RAN
分布式
调度管理
区域
DC
汇聚
机房
闲置数据机房空间
接入
机房
运营商
机房
中小企业
机房
企业闲置算力资源
挖矿闲置 ……
6. 我们为什么要出海
需求在出海
大量成功出海 App
开放自由的市场
中国工程师红利
7. 中美科技博弈
8. 我们的AI出海分布式云产品
架构
API
Model-Hosting
https://novita.ai
Serverless
Pods
https://infrai.com
BareMetal
9. https://novita.ai
10. https://infrai.com
11. 出海的过程中有哪些困难
SLG
Sales lead growth
PLG
Product lead growth
人生地不熟
语言问题
文化问题
宗教问题
FLG
Founder lead growth
12. 抓住不变的需求
找到“第一性原理”
推理一直持续的需求,未来的推理成本一定持续降低,并伴随着用量规
模的持续增加
我们要十年时间持续做的事情就是,怎么在做到满足需求的情况,让推
理的性价比足够高
13. 为什么推理成本会持续很贵
生产资料昂贵
Scaling Law
LLM 参数和序列
都还在扩大
视频生成的到来
超长序列
推理优化深挖还
不够
14. 分布式云,生产资料不同地方成本不同
15. 我们在是怎么把推理成本降下来的
降低生产资料
成本
降低 GPU
成本
降低电费
推理加速
模型压缩
降低其他
场地/运维
全球网络加速
分布式云
Serverless
16.
17. 中美海底光缆的发展
CUCN:
2000年启用,中美海缆(China-US Cable
Network,CUCN),1.28Tbps;2016年退役;
TPE:
2008年9月建成,跨太平洋快线(Trans-Pacific
Express,TPE),又称横太平洋快速海缆,达
5.12Tbps
NCP:
2018年建成投产,新跨太平洋海缆(New Cross
Pacific Cable Network,简称:NCP)是第一代
CUCN 的容量的1050倍,82Tbps
18. 中国到东南亚海底光缆的发展
APCN-2 AAG APG ADC
2001年投产,亚太2
号海底电缆;总容
量 2.56Tbps 2009年11月10日就
绪,亚太直达海底
光缆 2.88Tbps 亚太直达海缆,2016
年就绪,54.8Tbps,
使得 CUCN 正式退
休 亚洲直达海缆,香
港段,2023年建
成。可承载超过
140 Tbps
19. 其实跨国网络非常复杂
虽然海底光缆在不断的扩大容量,但是中国出海网络仍然面临巨大挑战
丢包率高
晚高峰 15-20%,甚至 40%
延迟高
晚高峰 250ms 左右
速率限制大
忙时比闲时下降明显
20. 我们需要在上层构造一个智能跨国加速
如何构建一个低延时、大带宽、低抖动、低成本的网络是我们的一个命题
动态最优路径选择 + UDP 可靠传输 + 传输协议优化 是最优的解决方案
21. 优化1: 动态最优路近选择
• KSP 最短路径
水位上报
RouterCenter
RouterCenter 依据转发服务上报的水位信息,使
用KSP算法定期生成最短路径
路径下发
加速服务
Agent
上车点(A)
目
标 下一
跳 权重
C B1 100
C B2 30
质量探
测
• 分段路径下发
中转服务
(B1)
目
标 下一
跳 权重
C C 100
中转服务
(B2)
目
标 下一
跳 权重
C C 100
下车点(C)
定期进行路径下发,将最优路径拆分并分别下发给
加速网络
• 去中心化能力
加速网络拥有去中心化的能力,可以在
RouterCenter 异常时正常服务
质量探测
• 节点自治能力
节点间质量的自动探测,保证链路质量的可用性
22. 优化2: 因地制宜,实现可控的 UDP 传输
协议 背景&特点 拥塞算法 优点 缺点
UDT UDT 被广泛用于高性能计算,用
于光纤网络上的高速数据传输 NACK、ACK2
基于对数的动态 AIMD 高吞吐量、低
延迟 不适合高延迟网络
uTP BitTorrent 公司开发,用于 P2P
文件共享 LEDBAT 简单、轻量级 不适合拥塞的网络
UNA + ACK
非延迟 ACK
RTO 不翻倍 低延迟、低丢
包率 不适合高延迟网络
广泛用于网络游戏、游戏加速器、
KCP
视频推流等场景
Quic
多路复用、连接迁移、0-1RTT
Cubic、BBR、PCC
可插拔
安全、可靠
实现复杂,性能开
销较大
23. 优化3:我们基于 ACNP 来优化传输协议
ACNP
QUIC
HTTP1/2
TLS
TCP
HTTP3 应用层
多路复用
QPACK 连接迁移
TLS 数据加密
• 化繁为简
多路复用、多路传输、QPACK、简化协议头
• 拥塞控制
低延时模式 vs 大带宽模式
流控制/拥塞控制 流控制/拥塞控制
UDP UDP
IP
比 QUIC 更轻量化!! 比 KCP 更完善&安全 !!
• ARQ
更高效和支持更大范围的 SACK
乱序度优化的 RACK
• FEC
低延时模式下,利用空闲带宽发送 FEC
大带宽模式下,重传包使用 FEC
24. 效果展示 – 跨国 API 请求
比 QUIC, 延时降低 ↓ 40%
比 KCP,延时降低 ↓ 20%
25. 单进程下载:50-100倍速度提升
多进程下载:500倍速度提升,速率可达1000Mbps
26. Serverless 架构理念
• 弹性伸缩,自动按需扩缩容,极高的弹性
• 按需付费,用多少资源就花多少钱,不用
为闲置资源来买单
• 免运维,不需要管理底层资源,以及高度
的自动化和自愈能力
27. 分布式 Serverless 推理平台
传统的 GPU 容器云解决了算力的使用问题,但没有解决算力的易用问题
Serverless Inference Platform
Client
Serverless
Inference
Endpoint
Serverless
Automtic Scaling
Unified Docker Runtime
Distributed Infrastructure Management
Serverless 的本质是为客户提供更好的用户体验
• 提供 Serverless Inference Endpoint,客户直接访
问 API,减少客户在业务无关层面上的投入,使客户更
加聚焦业务
• 降低客户资源成本,弹性按需使用算力资源,不使用则
0成本
但 Serverless 也会对云服务提供方带来一些挑战
• 面对海量突发的流量请求,云平台需要高效的调度请求
和扩缩容服务
• 消除底层异构资源差异,提供标准的统一的容器环境
• 资源全部由云服务托管,需要解决资源不足的问题,想
要的时候就能获得算力资源
28. 我们怎么实现的 Serverless –弹性调度
• 完全按需弹性,无使用无成本
• 基于池技术,首实例秒级启动
• 故障自愈,异常请求重调度
• 实例状态实时监测,自动负载均衡
29. 我们怎么实现的 Serverless –跨云扩容
• 可弹性扩容至第三方云
• 理论上可无限扩容
• 基于多云实现容灾
• 平衡稳定性与成本
30. 我们怎么实现的 Serverless –虚拟运行环境
• 兼容常见四种算力资源
• 提供统一虚拟运行环境
• 遵循容器运行时规范
• 支持主动健康检查
• 支持任务的快速切换
31. 通过网络加速 +Serverless 的效果
裸金属实例
Serverless
120%
100%
80%
60%
40%
40%
60%
70%
90%
20%
0%
启动时间
请求异常率
算力成本
项目上线时间
线上 T O P1 出海客户数据,每日GPU峰值80卡
32. 制约性能的三要素: 显存、算力、带宽
13B fp16
多卡并行使MBU变小
多卡并行让理论时延变长
显存
算力
带宽
33. 派欧算力云: 推理优化,数倍加速
Quantization
Basic Optimization
FlashAttention: 4x up
Q
K
V
Weight-Only & KV Cached: 2x up
Fused
Attention
in SRAM
O
INPUT
FP16
Weight
INT8
O(N 2 ) => O(N)
Weight
INT4
ContinuousBatching: 8x up
seq 1 padding seq 1
seq 2 padding seq 2
seq 3
seq 4
padding
padding
Sparsity computing
seq 3
seq 4
TensorCore
FP16
OutPUT
FP16
KV Cache
Weight
FP16
KV-Cache
INT8
O(T 2 ) => O(TL)
FP8 End-to-End: 4x up (Ada & Hopper)
seq 7
INPUT
FP8
seq 8
padding removed
Sparse Activation: 8x up
LLM Weights
seq 5
seq 6
Sparse KV-Cache: 10x up
Weight
FP8
Transformer
Self Atten
FP8
KV Cache
FP8
FFN
FP8
Act.
FP8
TensorCore
FP8
CPU for Cold neuron
OUTPUT
FP16
GPU for Cold neuron
34. 算子融合基础:注意力及 KV-Cache
注意力:本质是 Query/Key/Value 三个矩阵的运算
自回归(AutoRegressive):当前 Query 需要
遍历序列中所有历史 Token
Key&Value 的缓存非常有必要:避免每次生
成(decode)新 Token 时重复计算历史 Token
ABCDEFG
context
auto regressive
Concat(K), Concat(V)
decode
append k and v
Attention & MLP
KV
Cache
35. 我们实践过的无损压缩方案
FlashAttention: 4x up
Q
K
V
PageAttention: 4x up
Fused
Attention
in SRAM
O
O(N 2 ) => O(N)
ContinuousBatching: 8x up
seq 1 padding seq 1
seq 2 padding seq 2
seq 3
seq 4
padding
padding
seq 3
seq 4
Prefix Caching: 4x up
seq 5
seq 6
seq 7
seq 8
padding removed
36. 浮点数和 GPU 的支持
Blackwell
Hopper
Ada Lovelace
Ampere
Tensor
Core FP64, TF32, BF16, FP16,
FP8, INT8, FP6, FP4 FP64, TF32, BF16, FP16,
FP8, INT8 FP64, TF32, BF16, FP16,
FP8, INT8, INT4 FP64, TF32, BF16, FP16,
INT8, INT4 , INT1
CUDA
Core FP64, TF32, BF16, FP16 FP64, TF32, BF16, FP16,
INT8 FP64, TF32, BF16, FP16,
INT8 FP64, FP32, FP16,
BF16,INT8
B100, B200 H100, H800, H20 L20, L40S,RTX4090 A100, RTX3090
代表型号
37. FP8 全链路量化,存储和计算的全面提升
End-to-End FP8 inference
FP16 weights
x N
FP8
FP8
KV-Cache Activation
FP8 TensorCore
FP8
FP8 weights
FP8
E
convert
Token
FP8让吞吐提升4倍
38. 稀疏化的硬件优化
39. 稀疏化计算:权重稀疏,减少计算量
Weights
CPU Inference(rarely)
Cold neuron
network (90%)
load
Offline Solver
light train
Calibrate Data
Attention
split
Activate
merge
Hot neuron
network (10%)
GPU Inference(mostly)
Attention
Activate
Output
40. 稀疏化计算:KV Cache 稀疏,减少存储,支持长窗口
在有限长度的 KV Cache
中,驱逐与 Query 相关度低
的 KV 值
永久保留 KV Cache 中靠前
的 KV 值
Decoding 时用较少的 KV 实
现较长 KV 的效果
41.
42.
43. 下一步还有的优化空间
AMD ROCm 推理加速优化
昇腾 Atlas 推理方案适配和优化
燧原 S60 推理方案适配和优化
专门推理芯片的支持
线性注意力机制 Medusa机制
优化 Softmax 算子,使用少量中间状态对全局注
意力信息建模,复杂度降低到线性 在隐藏层增加多个 Head,让其并行解码后面的
内容,组合输出结果,提高效率
线性KVCache机制 前瞻编码
优化 KVCache 存储算法,仅保存一层键值数
据,将缓存空间复杂度降低到线性 将模型解码分成多个预测分支和一个验证分支,
预测分支并行解码,最后交由验证分支统一输
出,提高并行度和效率
共享注意力机制
针对显存优化,通过细粒度切分,让注意力数据
更容易共享,提升显存利用率
Transformer算法深度
优化
多阶段投机解码
将草稿模型按重要性重构为树形结构,从而分阶
段执行投机解码,提升解码有效性和总体效率
投机采样
44. 回顾过去30年:在线音视频的发展
网络传输成本 音视频编解码
分布式云+Serverless AI推理加速/模型压缩
45. 未来
“Affordability” is all you need
AIGC 流量
推理成本大幅下降(10X-100X)
推理算力爆发
训练算力爆发
AI 推理成本
2023
2025
2027
2029
46.
47. 欢迎扫码
交个朋友