实时网络传输:多模态交互中的 RTC 实践与探索
如果无法正常显示,请先停止浏览器的去广告插件。
1. 实时网络传输
多模态交互中的RTC实践和探索
凯航
蚂蚁终端体验科技大会
2. 个人简介
尹呈(花名:凯航)
2016年入职阿里巴巴
蚂蚁集团实时互动
-多年静态资源处理&架构经验
-现聚焦AI多模态场景实时传输
3. 目录
洞察变化:AI多模态场景的交互升级
明确选择:我们的MRTC
探索实践:MRTC探索AI多模态新变化
展望未来:AI多模态的交互演变
4. AI多模态·数据与交互双重升级
从单一文本到音/视/文融合,构建业务交互新范式
数据多元化
单一文本交互
核心变化与诉求
交互升级
- 上行:控制指令/音频流/视频流/文本
- 下行:模型反馈/控制指令
传输诉求
- 流式实时传输-支持多模态数据传输&同步
-多模态数据同步-实时性与可靠性兼顾
- 关键数据高可靠保障
- 链路安全加密保障
交互方式
- 全双工交互,支持打断,低延迟响应
视觉识别
核身
全双工语音
多模态融合交互
如何选择传输方案
交互体验才“丝滑”?
5. 如何选择"丝滑"体验的方案
Websocket/WebRTC/MoQ的定位和特性对比
WebSocketWebRTCMoQ
双向通信管道实时通信解决方案(工具箱)新一代媒体传输标准(草案中)
基于TCP基于UDP,包含一组协议栈(SCTP/SRTP/RTCP/
TURN/DTLS等)基于QUIC(over UDP)
支持文本/信令/轻量小文件等传输支持音频/视频/数据等多模态流支持音频/视频/数据等多模态流
主流方案, 开箱即用,包含采集/编码/网络穿透/安全 可高效&低延迟传输媒体流,当前技术热点;但标
仅提供通道,无媒体处理能力,高丢包网络下延
传输/渲染等全链路能力,但复杂度高,深度定制和优 准制定中,应用层缺失,媒体处理等能力需依赖外
迟高
化成本高
部实现,需大量实践
6. 迈向"丝滑"体验:MRTC的融合之道
技术融合打造低延迟高可靠的实时通信体验
开箱即用
以WebRTC为能力基础,提供统一SDK与全
协议兼容
能力基础
(WebRTC)
传输理念
(MoQ)
控制中枢
WebSocket
/RPC/Quic
智能调度,按需融合
动态调配WebRTC能力和传输理
念,以WebSocket/RPC/Quic构建
可靠控制平面
超低延迟
MRTC
实现全双工、抗弱网的超低延迟传输,与
MoQ传输理念一致
深度定制
模块化架构支持媒体处理模块和传输策略
模块的灵活定制
安全可靠
提供端到端安全体系,增强网络韧性策略
7. 价值:一套SDK,双核赋能
8. 基石:灵活可扩展的服务架构
多场景实战验证,为业务快速迭代与高可用性提供坚实支撑
从实时交互到超低延迟控制
P2P架构P2P + CDN架构典型场景:双人音视频通话场景典型场景:直播连麦/连屏场景典型场景:云渲染
准实时(规模+互动兼顾)超低延迟
实时
SFU路由/异构融合/插件化设计
SFU-MCU混合架构/智能调度
C/S架构
协议深度优化/全链路调优
9. 核心:超低延迟QoS引擎
实现从”尽力而为"到“质量承诺”的技术保障
4
3
2
核
心
策
略
1
1 带宽评估与拥塞控制策略
- SQP + BBR组合算法:按需探测带
宽,快速响应拥塞,降低网络传输
延迟
2 抗丢包策略
FEC/ARQ/PLI/NACK
3 传输与编码协同策略
- 网络自适应编码:建立“网络
状态感知->动态调整编码参数->
提升整体传输质量”闭环
4 端云协同策略
-智能路由与就近接入
-端云QoS状态协同
10. 度量:可量化的评估体系
建立客观标准,驱动体验持续优化与能力可靠迭代
自动化测试框架
可用性
+
建联成功率|
通话成功率
网络场景
丢包|抖动|限宽|RTT
突发|随机
评估
QoE
+
分析维度
版本|平台|时间|业务|编
码类型|云控配置|…
+
现实模拟
地铁|电梯|高铁|…
水位
清晰度
音画
同步
MOS
端到端延迟
抗丢包 70%
端到端时延 XXms
流畅度
卡顿率
实时性
核心指标
可用性 >99.xx%
11. 探索:AI多模态新变化
拓宽MRTC技术实践新路径
场景交互之变
无“发起-接收”流程,
需实时发数据+秒级反馈
探索1
极速启动
做到需求一来,数据
就发,几乎没有等待
感
数据生产消费模
型之变
生产:人机对话 -> 1s = 10s数据
消费:对杂音或错误零容忍
交互主体之变
人人:以人主观体验为主
人机:以“模型识别有效性”为主
探索2探索3
全双工交互体验
优化弱网策略重构
解决语音双向交互时数
据/体验冲突
设计一套应对AI多模态场景
的抗弱网方案,提升韧性
12. 探索1:场景交互之变
架构升级与流程解耦,打造“零等待”的极速启动体验
问题
P2P架构的慢建联
sdp交互&ice连通 rtt次数多
优化
段
服
务
端
架
构
图
架构升级
1
P2P -> C/S
协议优化
2
首包融合传输,
实现0-RTT建联
效果
启动耗时 < XXms
全
链
路
流
程
图
流程解耦
3
4
通道连接&媒体
传输解耦合,连
接预加载,消除
等待延迟
13. 探索2:数据生产消费模型之变
实现全双工语音交互从“不好用”到“高可靠”的体验升级
困境:初期体验“不好用”
破局:全链路协同优化
- 误识别、误打断、丢字
- 体验不佳,核心指标偏低
全
链
基础链路优化(保障稳定性)算法策略优化(提升智能性)
设备层:解延时、稳帧率、控音量、提信噪比算法升级:换TTS、调信号、升3A、降损伤
信号层:播放器长开、消抖动、精对齐、保连续策略联动:3A与VAD/ASR联合优化,提识别&优打断
2
路
协
同
优
化
流
1
程
3
14. 探索3:交互主体之变
重构弱网策略,为AI识别成功率而优化
破局点
诉求1:数据保真
传输有效数据,而
非海量数据
诉求2:链路可靠
确保反馈必达,避免
交互断层
解决方案
智能链路优化(保障数据“质”) 1
2
3
◦ 快速感知 -> 前瞻决策:感知带宽,调整QoS策略
◦ 智能调度 -> 关键优先:优先级高数据保障
◦ 协同抗损 -> 主动抗扰:动态丢帧+抗丢包,对抗网络扰动
可靠传输保障(保障数据“达”) 4
◦ 自研传输协议:为AI反馈提供高可靠通道
成果
弱网下识别成功
XX%
率提升
15. 成果:MRTC实践AI多模态
从接入、传输到处理,全面赋能AI多模态交互场景
开箱即用
一套SDK覆盖AI多模态全场景,有效降低集成复杂度
超低延迟
智能交互引擎
应对数据模型变化,实现全双工语音的低延迟交互
深度定制
依场景动态定制弱网策略,显著提升AI识别成功率
安全可靠
构建端到端安全体系与网络韧性策略,保障业务永续
16. 展望
面向AI多模态场景的演进,构建下一代实时交互基石
交互之变:从单体终端到协同网络
演进方向:交互主体》手机->车载、家居、穿戴设备网络
用户价值:获得跨场景、连续一致的沉浸式体验
演进
数据之变:从孤立原料到融合环境
演进方向:数据》孤立原料 -> 用户+环境+设备的融合语境
核心能力:建立多模态数据的实时融合能力,为AI决策提供带有时空
背景的决策依据
传输之变:从被动管道到智能神经
演进方向:传输》被动管道 -> 主动感知与调度的神经中枢
业务价值:为关键应用(如自动驾驶、远程手术)提供确定性保障
应对
17. Thanks