Media over QUIC:AI 多模态聊天中的低延迟传输探索
如果无法正常显示,请先停止浏览器的去广告插件。
1. Media Over QUIC
AI多模态聊天中的低延迟传输探索
蚂蚁终端体验科技大会
2. 自我介绍
彭 堂(花名:巴格) 阿 巴巴淘天集团终端平台 级技术专家,2009年毕业
于北京航空航天 学信息与计算科学专业。2013年加 阿 巴巴 今,拥
有超过10年的移动端技术架构经验。曾深度参与虾
乐、 机天猫、
机淘宝等核 移动客户端的架构设计与性能优化 作。在移动端性能保
障、 络传输优化、多媒体技术等领域有着丰富的实战经验和深 的技术
洞察。
3. /01 背景
AI多模态面临的技术挑战
传统网络方案的局限性
/02 MOQ协议介绍
QUIC协议基础介绍
Media Over Quic协议设计
/03 淘宝MOQ实践
技术架构设计
服务端设计
客户端设计
数据对比
未来展望
4. ★全球对话式AI市场预计从2025年的170.5亿美元增
到2031年的498亿美元
★语 助 市场预计以13.6%的CAGR增
2033年达到148亿美元
★语 AI代理市场预计以34.8%的CAGR增
2034年达到475亿美元
,到
,到
✓ 传统 持电话更 效的交互
✓ 减少 户学习成本的简单界
✓ 多模态交互能 , 持语 与其他输
式结合
★ 多模态数据传输需要更 带宽,特别是 清图像和视频
★ 移动 络环境下带宽不稳定,影响多模态数据传输
★ 多模态数据压缩与优化成为关键挑战
★ 需要智能带宽分配策略,优先保障关键模态数据
✤ 实时多模态交互要求端到端延迟低于500ms
✤ 传统HTTP/TCP协议的队头阻塞问题导致延迟波动
✤ 多模态数据同步处理增加了系统复杂性
✤ 需要优化的传输协议以满 低延迟要求
AI实时多模态应用
5. 多模态AI聊天的延迟要求
语
本交互
✓ 理想延迟: <500ms
✓ 可接受延迟: <1000ms
✓ 打字指示器可缓解延迟感知
交互
视觉交互
✓ 理想延迟: <200ms
✓ 可接受延迟: <500ms
✓ 超过1000ms严重影响对话流畅度
传统协议对
HTTP
1~3秒
RTMP
1~3秒
0.5~1.0秒
WebSocket
延迟传统
延迟多数传统协议缺乏内置加密机制,需要额外的安全层
中延迟
低延迟
0.2~0.5秒
WebRTC
✓ 理想延迟: <300ms
✓ 可接受延迟: <800ms
户容忍度
✓ 加载指示器可提
主要局限性
延迟
传统网络解决方案的局限性
络协议延迟普遍偏
,
法满
实时交互诉求
安全性不
连接体验差
在移动设备中
法
动切换WIF和蜂窝, 重连耗时
协议复杂度
Webrtc的P2P协议需要STUN/TURN服务器穿透,但是AI聊天C/S就可以
6. WebRTC介绍
在AI多模态聊天场景中,传统媒体传输协议面临的挑战
点对点连接: WebRTC主要设计 于端点之间的直接通信,通过P2P
连接减少服务器负担,适合
规模的实时通信场景。
信令服务器: 需要外部信令服务器协助建 连接,交换会话描述协议
(SDP)信息,但信令协议本身不是WebRTC标准的
部分。
NAT穿透组件: 包含ICE、STUN和TURN等组件, 于解决NAT穿透
问题,确保在复杂
对于AI多模态应用这种适合C/S架构
的场景,有什么更好的解决方案呢?
络环境下也能建
连接。
7. /02 MOQ协议介绍
QUIC协议基础介绍
Media Over Quic协议设计
8. QUIC协议发展历程
从Google实验到互联网标准的演进之路
2012-2013: 起源
“QUIC最初是作为 个实验性协议开发的,旨在解决TCP协议在现代互联
环境中的局限性”
— Jim Roskind, Google
QUIC协议由Google的Jim Roskind设计,2012年 次实施和部署,2013年
公开宣布并开始在Chrome浏览器中进 实验
2015年7 ,Google展示了QUIC为超过92%的连接提供服务的测量结果
2016年,Akamai部署了Google QUIC,成为除Google外最 的QUIC部署
2015-2016: 扩展
QUIC开始在Google服务中
始关注并测试QUIC协议
2018-2019: 标准化
27 ,IETF发布RFC 9000,QUIC传输协议的标准化版本
2022年9 ,发布RFC 9308,讨论QUIC传输协议的适 性
型公司开
2021-2022: 正式标准
QUIC成为正式的互联 标准,RFC 9000发布,主流浏览器和服务器开始
全
持QUIC和HTTP/3
从实验到标准
9年
2012-2021
全球QUIC流量占
~30%
截 2025年
,其他
2018年11 ,IETF成员将HTTP over QUIC重命名为HTTP/3,标志着协议
标准化的重要 程碑
2019年,多家CDN和浏览器 商开始实验性 持QUIC和HTTP/3
IETF开始QUIC标准化进程,HTTP over QUIC被重命名为HTTP/3,标志着
QUIC从专有协议向互联 标准的转变
2021年5
泛部署,流量占 迅速增
主要采 企业
100+
包括Google、Facebook、Alibaba等
9. QUIC (Quick UDP Internet Connections) 是一种基于UDP的多路复用安全传输协议,旨在提供更低的连接延迟和更高的传输效率。
QUIC协议核心特性
基于UDP的传输协议
QUIC建 在UDP之上,避开了TCP的限制,同
时增加了可靠性机制
内置TLS 1.3加密
协议层 集成加密,提供更
件 扰
QUIC协议基础介绍
安全性,减少中间
0RTT连接建
★ 次连接仅需1-RTT,重连
可实现0-RTT
★通过会话恢复机制存储连接
参数
★显著减少连接建 延迟
★适 于频繁连接的场景多路复 与 队头阻塞
★单连接上 持多个独 数据
流
★流之间相互独 ,避免队头
阻塞
★单个流的丢包不影响其他流
★提 并发传输效率
连接迁移
★ 持IP地址和 络切换
IP:端
★连接ID标识连接流量控制与拥塞控制
★流级别和连接级别的流量控
制
★基于窗 的拥塞控制机制
★ 持多种拥塞控制算法
★更精细的丢包检测与恢复
★可选的前向纠错(FEC) 持
★移动设备 络切换时保持连
接
★提 移动场景下的连接稳定
性
10. Media Over Quic协议架构
MoQ是一种基于QUIC协议的新一代媒体传输协议,专为低延迟、高可扩展性和安全的实时媒体传输而设计
MOQ 协议架构
协议层次结构
★应
层: AI多模态聊天应
★发布者(Publisher): 负责将媒体内容发送到MoQ 络
★中继(Relay): 分发媒体内容,
★QUIC层: 流控制、拥塞控制、加密传输★订阅者(Subscriber): 接收和消费媒体内容的终端
持扇出和负载均衡
★对象(Object): 媒体内容的基本单位,具有唯
连接数据报传输
、直播、视频会议
组件
★MoQ层: 媒体对象、轨道、订阅、发布机制
★UDP:
核
标识
11. Media Over Quic使用示例
发布者API示例
// 创建发布者实例
const publisher = new MoQPublisher(transportCon g);
// 声明 个视频轨道
const trackId = publisher.declareTrack({
namespace: "public",
name: "video.main",
parameters: {
codec: "h264",
width: 1280,
height: 720
}
});
// 发布媒体对象
publisher.publishObject({
trackId: trackId,
groupId: 1,
sequenceNumber: 42,
timestamp: 1636000000,
data: videoFrameData
});
订阅者API示例
// 创建订阅者实例
const subscriber = new MoQSubscriber(transportCon g);
// 发现可 轨道
subscriber.discoverTracks()
.then(tracks => {
// 处理可 轨道列表
console.log("Available tracks:", tracks);
});
// 订阅 个轨道
const subscription = subscriber.subscribe({
namespace: "public",
name: "video.main",
startSequence: 42, // 从序列号42开始
priority: 10
// 优先级设置
});
// 处理接收到的对象
subscription.on('object', (object) => {
// 处理媒体对象
processVideoFrame(object.data);
});
12. 部分可靠性传输
可靠性级别选择
MoQ允许应 程序为不同类型的媒体内容选择不同级别的
可靠性,从完全可靠到完全不可靠之间的多个级别。FEC 作原理
发送冗余数据,使接收 能够在不请求重传的情况下恢复
少量丢失的数据包,减少延迟并提 流畅度。
实现机制实现技术
于完全可靠传输(如关键帧)
✓QUIC流
✓灵活擦除纠正(Flexible Erasure Correction)
适应FEC编码率,根据
络状况调整
于不可靠传输(如关键帧)✓
适应重传策略,基于帧重要性和络状况✓基于跳数(hop)特性的定制FEC策略
✓时间敏感数据优先传输,过期数据动丢弃✓与编解码器级别的丢包隐藏技术结合
✓QUIC数据报
✓
快速错误恢复
早期检测
基于序列号和时间戳的丢
包早期检测, 需等待超
时
Media over QUIC 可靠性设计
选择性重传
仅重传关键数据, 关键
数据可通过FEC恢复或直接
丢弃
并 恢复
多流并 恢复,单流错误不
影响其他流的传输和恢复
13. MoQ vs 传统流媒体协议
特性MoQWebRTCHLS
延迟极低 (<500ms)极低 (<500ms)(3-30s)
可扩展性极有限实现复杂度中等
浏览器
持
通过WebTransport
络适应性
低延迟与
扩展性
★ 持百万级并发观众的实时流媒体
规模AI多模态聊天场景
于
络适应性与效率
★多路复
:单连接传输多个媒体流
队头阻塞:单个流的丢包不影响
★
★保持HLS/DASH级别的
持
强
扩展性结合
(<500ms)
★适
原
极强
★同时实现WebRTC级别的低延迟
MoQ在多媒体传输中的优势
其他流
★连接迁移:
★弱
DASH
中-
极极
低中等
泛
持
泛
中等
环境下表现优异
持
中等
简化架构与安全性
★统
协议:采集和分发使
同
协议
★内置TLS 1.3加密:强安全性
★简化实现:
络切换时保持连接
(2-10s)
WebRTC更易于开发
★与CDN基础设施兼容
14. MOQ多路复WEBRTC的传输架构
Media over QUIC (MoQ) 使
个 QUIC 连接来同
时传输普通数据、 频和视频内容WebRTC 的 DataChannel 和 视频传输使 的是不同的
底层通道,但它们共享同 个 DTLS 连接。
QUIC 连接
├── Stream 1: 视频轨道
├── Stream 2: 频轨道
├── Stream 3: 元数据/控制信息
└── Stream 4: 其他数据通道
DTLS 连接(单个连接)
├── SRTP 通道
│ ├── 频 RTP 流
│ └── 视频 RTP 流
└── SCTP 通道
└── DataChannel(数据传输)
单连接多流传输
• QUIC 协议原
持在单个连接上创建多个独 的
流(streams)
• 每种媒体类型( 频、视频、数据)可以使 不
同的流进 传输
• 流之间相互独 , 个流的阻塞不会影响其他流
优势
• RTP 流之间可能存在队头阻塞(HOL blocking)
• SCTP 的多流 持有限制
• 不同协议间的协调较复杂
视频传输
• 使 RTP/SRTP 协议
• 针对实时媒体优化(允许丢包)
DataChannel
• 使 SCTP 协议
• 可以配置为可靠或不可靠传输
缺点
• 统 的 QUIC 流机制,架构简洁
• 所有数据类型使 相同的传输抽象
• 更容易实现和维护
MOQ和WebRTC传输架构对比
15. 关键技术差异
关键技术差异
协议层次
MoQ: 传输层协议,基于QUIC构建
WebRTC: 完整的通信框架,跨越多个协议层
架构模型
MoQ: 发布/订阅模型, 持 对多分发
WebRTC: 点对点通信模型,需要信令服务器
延迟性能
MoQ: 研究表明 WebRTC低约30%的延迟
WebRTC: 延迟较 ,特别是在连接建 阶段
连接建
MoQ: 0-RTT连接, WebRTC快约60%
WebRTC: 需要ICE协商,连接建 较慢
复杂性
MoQ: 相对简化的协议,实现更加轻量
WebRTC: 复杂但功能全 的框架
MOQ和WebRTC技术对比
Media over
QUIC
功能特性
连接建
度
速
WebRTC
说明
MoQ连接建
WebRTC快约60%
延迟性能MoQ在延迟
点对点通信WebRTC专为点对点通信设计,MoQ主要
服务器分发
规模分发
浏览器兼容
性
络适应性
WebRTC有约30%的改进
向
MoQ设计 于 规模媒体分发,WebRTC需要
额外的SFU/MCU
WebRTC在主流浏览器中得到 泛
仍在发展中
持,MoQ
MoQ在不稳定 络上提供更平滑的体验
协议复杂度MoQ提供简化的媒体传输模型,WebRTC协议
栈更复杂
成熟度WebRTC 2011年发布以来
在标准化过程中
泛应
,MoQ仍
16. MOQ和WebRTC性能对比分析
时间
带宽效率
在带宽利 率
,Media over QUIC和WebRTC表
现相近,但在不同场景下各有优势。在 带宽稳定
络环境中,两者的带宽利 率差异不 。
然 ,在带宽波动较 的 络环境中,MoQ的带宽适
应性更好,能够更快地调整到最佳传输速率。
WebRTC在低带宽环境下可能表现更好,因为它的
适应 特率控制机制更为成熟。
17. MoQ发展路线图
2021: QUIC协议标准化
IETF在RFC 9000中正式标准化QUIC协
议,为MoQ奠定基础
2024: MoQ 作组成
IETF成 Media over QUIC (moq) 作组,
开始开发低延迟媒体传输解决 案
2025: 个商业实现
Cloud are推出全球 个MoQ中继
在330+城市的服务器上
络,运
前MOQ协议还在初步发展阶段,基
本没有成熟的开源实现,淘宝团队在开
源XQUIC的基础上结合我们 些新的业
务,进 了 些尝试
MOQ协议的发展和开源实现
kixelated/moq
Rust
核 特性
• MoQ-lite协议的完整Rust实现
• 持通 实时数据传输,不仅
限于媒体
• 提供发布者和订阅者API
• 持WebTransport和原
QUIC
相关组件
• moq-relay: 转发和缓存服务器
• moq-web: WebAssembly实
现
• moq-karp: 媒体特定组件
meetecho/imquic
C
核 特性
• 专为多媒体应 设计的QUIC
库
持RTP Over QUIC
• 原
(RoQ)
• 持Media Over QUIC
(MoQ)
• 低延迟实时媒体传输
特 功能
• 与WebRTC互操作性
• 提供中继和订阅者演示
• 持轨道状态管理
• 实验性QUIC堆栈
18. /02 淘宝基于MOQ的AI多模态应用实践
技术架构设计
服务端设计
客户端设计
数据对比
未来展望
19. 客户端层频采集频播放
通信层MOQ实时通信DNS解析
服务层
数据层
淘宝基于MOQ的AI多模态应用实践 :系统架构总览
语
处理服务对话管理服务
户数据对话历史
语 识别(ASR)
语 合成(TTS)
意图识别
上下 管理
端侧VAD编解码
关负载均衡
模型服务户服务
MOQ
语
内容 成
知识检索户管理
个性化配置
知识库模型数据
志
20. XMOQ SDK
基于XQUIC SDK的MOQ协议实现(C/C++)
XMOQ
应
核
应 层
实现Media over QUIC应 协议,负责媒体流的分段、打包和传输控制。
持多种媒体格式,提供低延迟的实时媒体传输能 。
层
Media Over Quic 应
协议
XQUIC协议层
基于阿 巴巴开源的XQUIC实现,提供可靠的传输保障。包含四个核
件:
QUIC传输层:基于UDP的可靠传输, 持连接迁移和0-RTT连接建
TLS 1.3加密层:提供端到端加密,保障数据传输安全
拥塞控制: 适应拥塞控制算法,优化 络吞吐量
流量控制:多路复 流控制,避免队头阻塞问题
XQUIC协议层
QUIC传输层TLS 1.3加密层
拥塞控制流量控制
并发管理层
线程池
多线程管理层
实现 效的多线程并发处理,提升服务器性能:
线程池:动态调度线程资源,优化CPU利 率
SO_REUSEPORT: 持多线程同时监听同 端
SO_REUSEPORT
异步IO层
,实现负载均衡
异步IO层
提供 性能的事件驱动IO处理机制, 持两种异步IO库:
libevent:功能丰富的事件通知库,提供 级事件处理能
libev:轻量级事件循环库,提供更低的资源占
libev
libevent
组件说明
组
21. XQUIC SDK
XQUIC 是阿里自研的IETF QUIC标准化传输协议库
[1]
22. XMOQ 模块设计
23. XMOQ 服务端
多线程设计
线程池设计
动态线程管理
根据系统负载 动调整 作线程数量,确保资源 效利 。 持线程数量
的动态扩缩,适应流量波动。
任务队列优化
采
锁队列设计,减少线程间同步开销。实现任务优先级调度,确保关
键请求优先处理。
负载均衡策略
实现 作窃取算法,允许空闲线程从繁忙线程队列中获取任务。监控线程
负载,动态调整任务分配策略。
SO_REUSEPORT机制
内核级负载均衡
Linux内核实现的连接分发机制,允许多个线程/进程同时监听同 端 。内核根
据哈希算法均匀分配新连接,避免"惊群效应"。
性能优势
消除了传统多线程服务器中的锁竞争,显著提
并发场景下的性能。测试表
明,在 负载下可提升吞吐量30-50%,降低延迟波动。
实现 式
在socket创建后,bind前设置SO_REUSEPORT选项。每个 作线程独 创建
socket并绑定到相同端 ,内核负责分发连接。
24. 关层
XMOQ 服务端
动态路由转发
* 此 案允许根据业务 定义的路由字
段(如集群名称,机器ip等)进 动态
转发决策。
25. 基于加密连接ID (CID)的转发
● MoQ Proxy接收到客户端的Initial
Packet后,使
CID进
其本地存储的相同密钥对
解密。
● 解密成功后,提取出 标服务器的IP与
端
。
● 为保证内 安全,Proxy会校验该IP是
否存在于对应业务注册的VIP Server机器
列表中,防
恶意访问。
● 验证通过后,Proxy将该QUIC连接的所
有后续流量直接转发
该指定服务器。
26. 动态路由转发
27. 网络传输层优化
拥塞控制算法
SQP算法概述
SQP (Swift Queue Processing) 是由Google开发的 种
专为低延迟交互式视频流应 设计的拥塞控制算法,特
别适 于AR流媒体平台。
• 设计 标:最 化延迟同时保持 吞吐量
• 核 特点:基于队列感知的速率控制
• 应 场景:AR/VR、云游戏、远程桌
• 发布时间:2022年由Google研究团队发布
Pudica算法概述
Pudica是 种专为云游戏等低延迟交互式应 设计的拥
塞控制算法,由研究 员于2024年提出。其核
标是
实现近零排队延迟和 链路利 率,同时保持跨流公平
性。
核
设计
标
我们在线上环境进 了 AB 实验,相较于 WebRTC,
MoQ 案的平均码率
提升了约 40%,操作延时降低
了约 7%
• 实现近零排队延迟,提升交互式体验
• 保持 链路利 率,避免带宽浪费
• 尊重跨流公平性,与其他流量和谐共存
• 适应动态 络条件,快速响应变化
28. FEC(Forward Error Correction 前向纠错技术)是
种可以通过在发送正常数据包之外同时发送 些冗余
数据包,在部分原始数据包丢失的情况下,可以利
这些冗余数据包来快速恢复原始数据包,从 避免重
传的RTT,利 极 的额外带宽开销,来减少这 长
尾情况下重传的时延。
对于MOQ
,我们主要是以 个 频/视频帧来作为传
输的基本单位,也会 持在帧级别灵活的开启和关闭FEC
这 功能:对于视频
,I帧(关键帧) P帧(普通
帧)更为关键,I帧体积是明显 于P帧的,重传的代价更
。我们希望通过FEC来减少I帧重传带来的延迟; 对
于P帧传输或者 频传输的场景,则视具体情况由 户选
择是否开启FEC。
此外我们可以根据不同的业务场景来调整FEC冗余率的
,可以允许对不同场景下的重传率,调整FEC冗余率以
获得最低时延,达到最好的效果。 前,MOQ+FEC已经
在线上取得了 些传输效果的优化。我们能够以5%的冗
余率取得约10%左右的单向时延降低。
网络传输层优化
FEC+MOQ流程结构
29. 连接耗时 ( 次)连接耗时 (0RTT)单向通信延迟
150ms<50ms40~60ms
蜂窝和Wi
性能数据
麦克风初始化耗时389ms
络连接耗时23ms
次505ms
频数据发出耗时
络数据耗时
次收到可渲染
动切换
项
次收到
网络优化效果
本数据耗时
63ms
1737ms
30. 端到端语音处理流程
31. 3A算法
机操作系统(IOS/安卓/鸿蒙)都 带 频采集系统
API,并且提供了 频处理的 3A 算法实现,包括:
1.AEC(Acoustic Echo Cancellation,声学回声消除)
作 :在免提或会议场景中,扬声器的声 会被麦
克风再次拾取并形成回声。AEC 通过估计扬声器到
麦克风路径的回传信号并将其从麦克风信号中抵
消,去除回声。
2.AGC(Automatic Gain Control, 动增益控制) 作
:根据说话 声 的强弱 动放 或衰减 量,
使语 保持在相对恒定、合适的响度范围,避免忽
忽 。
3.ANS / NS(Automatic Noise Suppression 或 Noise
Suppression, 动噪声抑制 / 降噪) 作 :检测并
衰减背景噪声,如空调声、键盘声、风噪等,突出
语 本 ,提升清晰度和可懂度。
频引擎初始化
端侧VAD
回声消除
向性声
端侧音频引擎优化
录制
32. 音频引擎初始化
33. 什么是回声?
当扬声器发出的声 被
者时,就会产 回声。
克
捕获并传回给原始发送
回声消除的 标
识别并消除回声信号,同时保留原始语
性和清晰度。
回声产
信号的完整
的原因
1 声学耦合
扬声器和 克 之间的直接声学路径导致声 被重新
捕获。
2 环境反射
声 从墙壁、桌 和其他表 反射回 克 ,产 复
杂的回声路径。
3 设备特性
移动设备的 尺 使扬声器和 克 距离很近,增加
了回声 险。
4 线性失真
扬声器和 克 的 线性特性导致回声信号变形,增
加消除难度。
回声消除和方向性音频录制
作原理
• 声 以不同时间到达各个 克
• 通过计算时间差或相位差确定声源 向
时间延迟"补偿各 克 通道
•应 ”
• 合成处理后的信号,增强 标 向声
34. 端侧VAD可以有效控制成本
输
单价(每千Token)
模型名称
0.0016元0.025元0.006元0.0064元0.018元输出: 本+
频
仅 频计费
0.05元
0.0016元0.025元0.006元0.0064元0.018元0.05元
0.0016元0.025元0.006元0.0064元0.018元0.05元
输
qwen-omni-
turbo-realtime
qwen-omni-
turbo-realtime-
latest
qwen-omni-
turbo-
realtime-2025-0
Token和 频时
:
:
频
:图
/视
输出: 本
仅纯 本输输出: 本
多模态输
1秒
频的token数
1分钟
频的token数
Qwen3-Omni503,000
GPT-4o Audio1509,000
Gemini321,920
输
的对应关系
模型
本
输
频
输出单价(每千Token)
35. 端侧VAD技术架构采用模块化设计,通过流水线处理实现高效的语音活动检测。系统在保证实时性的同
时,平衡资源占用,适配iOS和Android平台的特性
语音活动检测技术在移动应用中有广泛的应用,
特别是在AI语音聊天应用中发挥关键作用。
语 助 交互
准确检测 户何时开始和结束说话,提 交互 然度
语 识别优化
过滤 语 段,提 语 识别准确率,减少错误识别
络带宽优化
仅传输有语 的 频段,减少数据传输量,节省带宽
电池寿命延
减少不必要的 频处理,降低设备能耗,延 电池寿命
核
SNAudioStreamAnalyzer
设计
频采集与预处理
VAD核
检测
• 频采集:16kHz采样率,16bit深度 • 特征提取:MFCC/Fbank/频谱特征
• 帧 :20-30ms,帧移:10-15ms
• 轻量级神经 络:CRNN/ResectNet
• 预加重、分帧、加窗处理
• 流式处理:逐帧实时决策
• 噪声抑制与 频增强。
• 模型量化:INT8/FP16优化
端侧语音VAD技术架构设计
场景
CPU内存延迟
8-17%30 MB< 100ms
多个分类器15-25%50 MB< 150ms
定义模型20-40%80 MB100-300ms
单个声
分类
36. 语音服务架构 ASR+LLM+TTS
核
技术
ASR
Whisper、Conformer等先进
模型, 持多语 识别LLM
接 Qwen、Claude、Llama
等 本 模型
TTS
VITS、FastSpeech2等模
型, 持 然语 合成流式处理
在语 输 过程中就开始处理,
减少等待时间
优化技术
多线程和并 执
LLM 成和TTS合成可并 操作,减少总体延迟
流式API
同时优化STT、LLM和TTS的流式处理,实现实时交互
组件共置
将ASR、LLM和TTS进程部署在同 服务器以减少 络延迟
模型量化和蒸馏
减 模型
,加快推理速度,降低资源消耗
缓存机制
常 响应和部分 成结果可以缓存以提 响应速度
37. 技术架构
核
能
多语
本
图像
频
视频
单
语
输出
语
开始和结
同时输出 本和
实时交互体验
端到端语处理
直接从语
转换步骤到语
然语
,实现流畅的
处理,
需中间
本
技术优势
✓简化架构:单
✓ 原 端到端多模态架构,单 模型处理多种输
✓ Thinker-Talker架构:Thinker负责推理,Talker
负责语 输出
✓ 基于先进Transformer架构,专为跨模态信息处
理优化
输
活动检测
内置VAD功能, 动检测语
束,提升交互 然度
多模态模型
本输出
实时流式响应
持
持119种 本语 ,19种语
和10种语 输出语
语
语音服务架构 多模态大模型
模型替代传统的ASR+LLM+TTS管道
✓更低延迟:端到端处理减少了模块间传递的延迟
✓更然的交互:实时流式响应使对话更加流畅
✓更效的资源利
:单
模型
多模型管道需要更少的计算资源
38. 核
对
适
ASR+ 本 模型+TTS
Qwen3 Omni Flash
架构复杂性(多模块串联)低 (单
端到端延迟(300-700ms)低 (可达200ms以下)
技术成熟度(成熟技术栈)中 (新兴技术)
定制化能(各组件可独 优化)低 (整体模型需重新训练)
模型)
资源消耗(多模型部署)中 (单
可解释性(模块化 为可追踪)低 (端到端 盒特性)
中 (模块间信息损失)
然度
对
维度
交互
两种方案优缺点对比
模型)
(保留语 特征)
场景
ASR+LLM+TTS适合:
✓ 需要
度定制化的应
✓ 需要频繁更新和迭代的系统
✓对
语种有特殊
持需求
Qwen3 Omni Flash适合:
✓ 需要极低延迟的实时对话
✓ 资源受限的部署环境
✓ 需要
然流畅交互体验
39. XMOQ
流式
qwen3-omni- ash-realtime
本输出
频打断
端侧VAD
基于XMOQ的AI多模态聊天Demo
40. 浏览器兼容性 (safari不
内置TLS加解密开销
态不够成熟
MOQ存在的问题
持)
服务端中间件兼容性
协议发展中,变化较
41. Media over QUIC 核
WebRTC 核
优势与局限
泛的浏览器 持
所有主流浏览器原
安装持,需插件或额外
队头阻塞和多路径 持
个包的丢失不会影响其他包的传输,提
了在不稳定 络环境下的性能成熟的 态系统
丰富的开发 具、库和社区
难度持,降低开发
规模分发能
发布-订阅模型和中继系统设计,天然 持
规模媒体分发强 的点对点能
为 型视频会议和
性能标准化进 中和兼容性问题
作为新兴技术,标准化 作仍在进
能 临变更复杂的协议栈
多种协议组合导致实现复杂,连接建
优势与局限
超低延迟
基于QUIC协议,提供约100ms的端到端延
迟, WebRTC低约30%
态系统不成熟
相 WebRTC,
总结
中,可
具、库和 持资源较少
对
通信场景提供优秀
规模分发挑战
需要额外的SFU/MCU服务器
体分发
持
时间
规模媒
42. 协议优化与标准化混合架构的兴起
MoQ将继续在IETF进 标准化,预计在未来 年内完成。同时,WebRTC将与
WebTransport、WebCodecs等新兴标准集成,提供更灵活的媒体处理能 。两
种技术都将持续优化其性能和安全性。随着技术的发展,我们可能会看到MoQ和
WebRTC在同 系统中协同 作的混合架构。
例如,使 MoQ进
规模媒体分发,同时利
WebRTC进
组互动。研究表明,这种互
操作性已经在实验室环境中得到了验证。
技术融合与互操作
随着标准化的推进,MoQ和WebRTC将实现更好的互操作性,允许两种技术在
同 系统中协同 作。研究表明,已有实际演示证明WebRTC和MoQ之间的互
操作性是可 的。
AI与实时通信结合
智能将与实时通信技术深度融合,提供更智能的媒体处理、 动内容分析、
实时翻译和个性化体验。WebRTC和MoQ都将受益于这 趋势。
市场增
与采
WebRTC市场预计在2025-2029年间增 2477亿美元,CAGR约为62.6%。同
时,随着Cloud are等 型企业推出MoQ服务,MoQ的采 率也将快速增 ,特
别是在 规模直播和内容分发领域
展望未来
互补
替代
MoQ和WebRTC更可能是互补关系
替代关
系。MoQ专注于 规模、低延迟的媒体分发,
WebRTC专注于点对点通信和 型会议。未
来的实时通信系统可能会根据具体场景动态选择
最适合的协议。
统
API的可能性
随着标准化的推进,我们可能会看到统 的API
出现,允许开发者 缝切换或同时使 MoQ和
WebRTC。这将
简化开发流程,并为不同
场景提供最佳性能。
43. 参考
https://www.meetecho.com/blog/moq-webrtc/
https://datatracker.ietf.org/group/moq/about/
https://blog.cloud are.com/moq/
https://www.streamingmedia.com/Articles/Editorial/Featured-Articles/Media-Over-QUIC-and-the-Future-of-High-
Quality-Low-Latency-Streaming-167165.aspx
https://www.qualabs.com/blog/media-over-quic-the-streaming-protocol-rede ning-low-latency-scalable-and-
secure-media-delivery
https://www.meetecho.com/blog/moq-webrtc/
44. Thanks