Alipay xUI多模态智能交互引擎

如果无法正常显示，请先停止浏览器的去广告插件。

1. Alipay xUI 多模态智能交互引擎赵利超（鬼畏）・支付宝终端基础技术蚂蚁终端体验科技大会

2. /01 缘起 - AI Agent 技术发展历程 - 移动端 Agent 应用场景 - 支付宝对话式 Agent 应用 - 支付宝跨设备 Agent 互联 /02 当下 - 支付宝 Agent 应用的问题挑战 - 支付宝 Agent 应用的关键技术 - Alipay xUI 多模态智能交互引擎 - 生成式渲染技术 - 实时音视频技术 - 编解码混合技术 - 流式网络传输技术 - 智能体互联技术 - 多模态运行时技术 /03 探索 - 不只能问能答，还要有手有脚 - 通用 Agent 自主执行的技术现状 - 移动端自主执行的共性挑战 - 我们在 Agent 自主执行上的探索

3. AI Agent 技术发展历程 Agnet 初步落地 -> Agent 技术突破 -> Agent 场景应用 Agent 实验性探索（2023）代表产品 Agent 探索与实践（2024）侧重大模型基础能力Chatbot 技术相继成熟场景：信息检索场景：人机对话、内容生成 Agent 业务高速发展（2025~2026）编码效率深度研究 AI + 服务实用工具 … Agent 框架Agent 平台Prompt 工程RAG 工程Multi Agent推理优化MCP 市场训练框架部署架构模型微调LLM OpsWork owAgenticA2A 协作能力演进

4. 移动端 Agent 应用场景最先落地 C 端的，是互联网业务自身的演进 AI 对话AI 搜索 AI 内容生成AI 互动陪伴通用助手内容娱乐 AI 效率工具垂直领域 AI 生活服务 AI 医疗教育

5. 支付宝对话式 Agent 应用通过对话式 Agent 交互，升级服务检索方式，业务转化提升 & 用户体验提升搜索推荐场景出行酒旅场景医疗健康场景财富保险场景政企民生场景

6. 支付宝跨设备 Agent 互联通过跨设备 Agent 互联，升级生态合作模式，业务覆盖提升 & 科技体验提升支付 + 智慧出行场景、智能穿戴场景

7. 支付宝 Agent 应用的问题挑战全行业 Agent 产品化快跑：大模型还不够美好 vs 工程体系的滞后性生成式渲染增强富文本 -> Markdown ？Html ？-> 图形 Canvas ？动效 Mars ？音视频实时交互硬件碎片化 Mic/Speaker/Camera/Sensor、端云难协同 3A/VAD/ASR/TTS 网络传输与编解码WebSocket -> WebRTC -> GRPC over H3 ？Media over QUIC Transport ？多端可信通信协议A2A over IPC ？身份可信、行为可信、数据安全、重试/幂等、延时/缓存 …

8. 支付宝 Agent 应用的关键技术交互方式与研发方式，在悄然变化 PRD -> DSL -> Assemble -> Layout -> Compose -> Drawcall，未来 Page Only ？View Only ？时效性 CPU、GPU、IO、MEM ... 鲁棒性安全性网络、边云、框架、运行时、绘制、执行 … 通用性系统权限、数据隐私 …

9. Alipay xUI 多模态智能交互引擎人机交互，GUI -> CUI -> xUI AI 场景 / AI 应用生成式渲染技术实时音视频技术智能体互联技术多模态运行时技术编解码混合技术流式网络传输技术 AI 云服务 / AI 大模型 AI 生态多端 / 多设备

10. 生成式渲染技术 • 完整 Markdown 语法（Android、iOS、Harmony） • 多重流式渲染模式（流式全量、流式增量、全渲染） • 原生式富文本交互（点选、复制、表情、超链 ...） • 混合 HTML 标签渲染 • 自定义 CSS 样式扩展 • 分场景定制化样式集架构图场景

11. 实时音视频技术 • 实时多模态控制（三元组控制、动态分片、打断恢复、会话乱序重排） • 全流式传输与双工通话（单双工适应、同异步混合） • 硬件性能和鲁棒性优化（碎片化适配、信号抢占/同步） • 离在线联合推理 • 场景化效果增强架构图场景

12. 编解码混合技术 • 端到端生成式编码（文本/图片压缩率提升60%+） • 自适应损失偏好对齐（主观损失偏好、自适应损伤修复） • 端云协同 AI 修复（端侧模型计算结合后端算法、渲染前端侧画质增强）架构图场景

13. 流式网络传输技术 • 全双工多模态融合 • AI 场景网络体验（QUIC、流优先级、切换保持） • 全平台传输协议（gRPC/Websocket、 AppNative/AppH5/PCWeb） • RPC 语义化接入 • A2A/MCP 高阶协议架构图场景

14. 智能体互联技术 • 安全可信架构 • 跨设备轻量通信 • 账号系统高效互通 • 隐私数据高可靠 • 智能动态编排场景 • 跨厂商渲染一致性 • 一次接入多场景投放架构图

15. 多模态运行时技术 • AI 应用研发框架（Playground、Debugger、APM） • xUI Native & xUI Lite 双运行时（交互协议、对话容器、视觉组件） • 内置生成式交互能力（MD/DSL/H5、跨栈混排混渲） • 内置多模态交互能力（ASR/TTS、单次/多轮、实时对话） • 内置感知执行能力（Context/History、MCP/Use）架构图场景

16. 不只能问能答，还要有手有脚 AI 产品经理们对「点咖啡」的执念 * 信息来自网络来自 AI * 信息来自网络来自 AI

17. 通用 Agent 自主执行的技术现状泛化性 vs 准确性 vs 推理速度 vs 工具完备度工程架构模型选择优劣势 ChatGPT浏览器 + Sandbox + APIDeepResearch + O3强化通用性强，但Token消耗高 Sheet0浏览器 + 受限SandboxN/A爬虫任务，但无法操作网页 Fellou本地Sandbox + APIClaude + 意图小模型速度快，但无法脱离浏览器 Manus浏览器 + SandboxClaude可做复杂任务，但容易幻觉 GenSpark受限Sandbox + LLMClaude功能有限，且扩展性差

18. 移动端自主执行的共性挑战 Agent 工程，是不完美现实下的先遣队，将伴随大模型长跑移动端自主执行的交互范围 • 权限问题 • 时机问题 • 采集问题 • 耗时问题 • 混合技术栈问题 • 模型推理消耗问题 • 用户产品体验问题前端页面交互系统页面交互原生页面交互小程序技术栈 / H5 技术栈 App 应用 Android / iOS / Harmony

19. 我们在 Agent 自主执行上的探索大模型不断提升「规划/推理」能力，Agent 不断提升「感知/执行」能力 GUI Agent MCP Tools <—> 动线 <—> 控件 <—> 函数 <—> 请求 <—> 采集感知沙箱仿真引擎执行标注测评 1、泛化性 vs 垂类可达 2、服务分层 + 模态融合

20. 回顾与展望 Alipay xUI：AI 时期终端的下一代框架未来人机交互形态充满不确定性，但终端面向用户体验的技术内核不变

21. Thanks