实时网络传输:多模态交互中的 RTC 实践与探索

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 实时网络传输 多模态交互中的RTC实践和探索 凯航 蚂蚁终端体验科技大会
2. 个人简介 尹呈(花名:凯航) 2016年入职阿里巴巴 蚂蚁集团实时互动 -多年静态资源处理&架构经验 -现聚焦AI多模态场景实时传输
3. 目录 洞察变化:AI多模态场景的交互升级 明确选择:我们的MRTC 探索实践:MRTC探索AI多模态新变化 展望未来:AI多模态的交互演变
4. AI多模态·数据与交互双重升级 从单一文本到音/视/文融合,构建业务交互新范式 数据多元化 单一文本交互 核心变化与诉求 交互升级 - 上行:控制指令/音频流/视频流/文本 - 下行:模型反馈/控制指令 传输诉求 - 流式实时传输-支持多模态数据传输&同步 -多模态数据同步-实时性与可靠性兼顾 - 关键数据高可靠保障 - 链路安全加密保障 交互方式 - 全双工交互,支持打断,低延迟响应 视觉识别 核身 全双工语音 多模态融合交互 如何选择传输方案 交互体验才“丝滑”?
5. 如何选择"丝滑"体验的方案 Websocket/WebRTC/MoQ的定位和特性对比 WebSocketWebRTCMoQ 双向通信管道实时通信解决方案(工具箱)新一代媒体传输标准(草案中) 基于TCP基于UDP,包含一组协议栈(SCTP/SRTP/RTCP/ TURN/DTLS等)基于QUIC(over UDP) 支持文本/信令/轻量小文件等传输支持音频/视频/数据等多模态流支持音频/视频/数据等多模态流 主流方案, 开箱即用,包含采集/编码/网络穿透/安全 可高效&低延迟传输媒体流,当前技术热点;但标 仅提供通道,无媒体处理能力,高丢包网络下延 传输/渲染等全链路能力,但复杂度高,深度定制和优 准制定中,应用层缺失,媒体处理等能力需依赖外 迟高 化成本高 部实现,需大量实践
6. 迈向"丝滑"体验:MRTC的融合之道 技术融合打造低延迟高可靠的实时通信体验 开箱即用 以WebRTC为能力基础,提供统一SDK与全 协议兼容 能力基础 (WebRTC) 传输理念 (MoQ) 控制中枢 WebSocket /RPC/Quic 智能调度,按需融合 动态调配WebRTC能力和传输理 念,以WebSocket/RPC/Quic构建 可靠控制平面 超低延迟 MRTC 实现全双工、抗弱网的超低延迟传输,与 MoQ传输理念一致 深度定制 模块化架构支持媒体处理模块和传输策略 模块的灵活定制 安全可靠 提供端到端安全体系,增强网络韧性策略
7. 价值:一套SDK,双核赋能
8. 基石:灵活可扩展的服务架构 多场景实战验证,为业务快速迭代与高可用性提供坚实支撑 从实时交互到超低延迟控制 P2P架构P2P + CDN架构典型场景:双人音视频通话场景典型场景:直播连麦/连屏场景典型场景:云渲染 准实时(规模+互动兼顾)超低延迟 实时 SFU路由/异构融合/插件化设计 SFU-MCU混合架构/智能调度 C/S架构 协议深度优化/全链路调优
9. 核心:超低延迟QoS引擎 实现从”尽力而为"到“质量承诺”的技术保障 4 3 2 核 心 策 略 1 1 带宽评估与拥塞控制策略 - SQP + BBR组合算法:按需探测带 宽,快速响应拥塞,降低网络传输 延迟 2 抗丢包策略 FEC/ARQ/PLI/NACK 3 传输与编码协同策略 - 网络自适应编码:建立“网络 状态感知->动态调整编码参数-> 提升整体传输质量”闭环 4 端云协同策略 -智能路由与就近接入 -端云QoS状态协同
10. 度量:可量化的评估体系 建立客观标准,驱动体验持续优化与能力可靠迭代 自动化测试框架 可用性 + 建联成功率| 通话成功率 网络场景 丢包|抖动|限宽|RTT 突发|随机 评估 QoE + 分析维度 版本|平台|时间|业务|编 码类型|云控配置|… + 现实模拟 地铁|电梯|高铁|… 水位 清晰度 音画 同步 MOS 端到端延迟 抗丢包 70% 端到端时延 XXms 流畅度 卡顿率 实时性 核心指标 可用性 >99.xx%
11. 探索:AI多模态新变化 拓宽MRTC技术实践新路径 场景交互之变 无“发起-接收”流程, 需实时发数据+秒级反馈 探索1 极速启动 做到需求一来,数据 就发,几乎没有等待 感 数据生产消费模 型之变 生产:人机对话 -> 1s = 10s数据 消费:对杂音或错误零容忍 交互主体之变 人人:以人主观体验为主 人机:以“模型识别有效性”为主 探索2探索3 全双工交互体验 优化弱网策略重构 解决语音双向交互时数 据/体验冲突 设计一套应对AI多模态场景 的抗弱网方案,提升韧性
12. 探索1:场景交互之变 架构升级与流程解耦,打造“零等待”的极速启动体验 问题 P2P架构的慢建联 sdp交互&ice连通 rtt次数多 优化 段 服 务 端 架 构 图 架构升级 1 P2P -> C/S 协议优化 2 首包融合传输, 实现0-RTT建联 效果 启动耗时 < XXms 全 链 路 流 程 图 流程解耦 3 4 通道连接&媒体 传输解耦合,连 接预加载,消除 等待延迟
13. 探索2:数据生产消费模型之变 实现全双工语音交互从“不好用”到“高可靠”的体验升级 困境:初期体验“不好用” 破局:全链路协同优化 - 误识别、误打断、丢字 - 体验不佳,核心指标偏低 全 链 基础链路优化(保障稳定性)算法策略优化(提升智能性) 设备层:解延时、稳帧率、控音量、提信噪比算法升级:换TTS、调信号、升3A、降损伤 信号层:播放器长开、消抖动、精对齐、保连续策略联动:3A与VAD/ASR联合优化,提识别&优打断 2 路 协 同 优 化 流 1 程 3
14. 探索3:交互主体之变 重构弱网策略,为AI识别成功率而优化 破局点 诉求1:数据保真 传输有效数据,而 非海量数据 诉求2:链路可靠 确保反馈必达,避免 交互断层 解决方案 智能链路优化(保障数据“质”) 1 2 3 ◦ 快速感知 -> 前瞻决策:感知带宽,调整QoS策略 ◦ 智能调度 -> 关键优先:优先级高数据保障 ◦ 协同抗损 -> 主动抗扰:动态丢帧+抗丢包,对抗网络扰动 可靠传输保障(保障数据“达”) 4 ◦ 自研传输协议:为AI反馈提供高可靠通道 成果 弱网下识别成功 XX% 率提升
15. 成果:MRTC实践AI多模态 从接入、传输到处理,全面赋能AI多模态交互场景 开箱即用 一套SDK覆盖AI多模态全场景,有效降低集成复杂度 超低延迟 智能交互引擎 应对数据模型变化,实现全双工语音的低延迟交互 深度定制 依场景动态定制弱网策略,显著提升AI识别成功率 安全可靠 构建端到端安全体系与网络韧性策略,保障业务永续
16. 展望 面向AI多模态场景的演进,构建下一代实时交互基石 交互之变:从单体终端到协同网络 演进方向:交互主体》手机->车载、家居、穿戴设备网络 用户价值:获得跨场景、连续一致的沉浸式体验 演进 数据之变:从孤立原料到融合环境 演进方向:数据》孤立原料 -> 用户+环境+设备的融合语境 核心能力:建立多模态数据的实时融合能力,为AI决策提供带有时空 背景的决策依据 传输之变:从被动管道到智能神经 演进方向:传输》被动管道 -> 主动感知与调度的神经中枢 业务价值:为关键应用(如自动驾驶、远程手术)提供确定性保障 应对
17. Thanks

- 위키
Copyright © 2011-2025 iteam. Current version is 2.148.2. UTC+08:00, 2025-12-14 17:24
浙ICP备14020137号-1 $방문자$