Alipay xUI多模态智能交互引擎
如果无法正常显示,请先停止浏览器的去广告插件。
1. Alipay xUI 多模态智能交互引擎
赵利超(鬼畏) ・支付宝终端基础技术
蚂蚁终端体验科技大会
2. /01 缘起
- AI Agent 技术发展历程
- 移动端 Agent 应用场景
- 支付宝对话式 Agent 应用
- 支付宝跨设备 Agent 互联
/02 当下
- 支付宝 Agent 应用的问题挑战
- 支付宝 Agent 应用的关键技术
- Alipay xUI 多模态智能交互引擎
- 生成式渲染技术
- 实时音视频技术
- 编解码混合技术
- 流式网络传输技术
- 智能体互联技术
- 多模态运行时技术
/03
探索
- 不只能问能答,还要有手有脚
- 通用 Agent 自主执行的技术现状
- 移动端自主执行的共性挑战
- 我们在 Agent 自主执行上的探索
3. AI Agent 技术发展历程
Agnet 初步落地 -> Agent 技术突破 -> Agent 场景应用
Agent 实验性探索
(2023)
代表产品
Agent 探索与实践
(2024)
侧重大模型基础能力Chatbot 技术相继成熟
场景:信息检索场景:人机对话、内容生成
Agent 业务高速发展
(2025~2026)
编码效率
深度研究
AI + 服务
实用工具
…
Agent 框架Agent 平台Prompt 工程RAG 工程Multi Agent推理优化MCP 市场
训练框架部署架构模型微调LLM OpsWork owAgenticA2A 协作
能力演进
4. 移动端 Agent 应用场景
最先落地 C 端的,是互联网业务自身的演进
AI 对话AI 搜索
AI 内容生成AI 互动陪伴
通用助手
内容娱乐
AI 效率工具
垂直领域
AI 生活服务
AI 医疗教育
5. 支付宝对话式 Agent 应用
通过对话式 Agent 交互,升级服务检索方式,业务转化提升 & 用户体验提升
搜索推荐场景
出行酒旅场景
医疗健康场景
财富保险场景
政企民生场景
6. 支付宝跨设备 Agent 互联
通过跨设备 Agent 互联,升级生态合作模式,业务覆盖提升 & 科技体验提升
支付 +
智慧出行场景、智能穿戴场景
7. 支付宝 Agent 应用的问题挑战
全行业 Agent 产品化快跑:大模型还不够美好 vs 工程体系的滞后性
生成式渲染增强富文本 -> Markdown ?Html ?-> 图形 Canvas ?动效 Mars ?
音视频实时交互硬件碎片化 Mic/Speaker/Camera/Sensor、端云难协同 3A/VAD/ASR/TTS
网络传输与编解码WebSocket -> WebRTC -> GRPC over H3 ?Media over QUIC Transport ?
多端可信通信协议A2A over IPC ? 身份可信、行为可信、数据安全、重试/幂等、延时/缓存 …
8. 支付宝 Agent 应用的关键技术
交互方式与研发方式,在悄然变化
PRD -> DSL -> Assemble -> Layout -> Compose -> Drawcall,未来 Page Only ?View Only ?
时效性
CPU、GPU、IO、MEM ...
鲁棒性
安全性
网络、边云、框架、运行时、绘制、执行 …
通用性
系统权限、数据隐私 …
9. Alipay xUI 多模态智能交互引擎
人机交互,GUI -> CUI -> xUI
AI 场景 / AI 应用
生成式渲染技术
实时音视频技术
智能体
互联技术
多模态运行时技术
编解码混合技术
流式网络传输技术
AI 云服务 / AI 大模型
AI 生态
多端 /
多设备
10. 生成式渲染技术
• 完整 Markdown 语法
(Android、iOS、Harmony)
• 多重流式渲染模式
(流式全量、流式增量、全渲染)
• 原生式富文本交互
(点选、复制、表情、超链 ...)
• 混合 HTML 标签渲染
• 自定义 CSS 样式扩展
• 分场景定制化样式集
架构图
场景
11. 实时音视频技术
• 实时多模态控制
(三元组控制、动态分片、
打断恢复、会话乱序重排)
• 全流式传输与双工通话
(单双工适应、同异步混合)
• 硬件性能和鲁棒性优化
(碎片化适配、信号抢占/同步)
• 离在线联合推理
• 场景化效果增强
架构图
场景
12. 编解码混合技术
• 端到端生成式编码
(文本/图片压缩率提升60%+)
• 自适应损失偏好对齐
(主观损失偏好、自适应损伤修复)
• 端云协同 AI 修复
(端侧模型计算结合后端算法、
渲染前端侧画质增强)
架构图
场景
13. 流式网络传输技术
• 全双工多模态融合
• AI 场景网络体验
(QUIC、流优先级、切换保持)
• 全平台传输协议
(gRPC/Websocket、
AppNative/AppH5/PCWeb)
• RPC 语义化接入
• A2A/MCP 高阶协议
架构图
场景
14. 智能体互联技术
• 安全可信架构
• 跨设备轻量通信
• 账号系统高效互通
• 隐私数据高可靠
• 智能动态编排
场景
• 跨厂商渲染一致性
• 一次接入多场景投放
架构图
15. 多模态运行时技术
• AI 应用研发框架
(Playground、Debugger、APM)
• xUI Native & xUI Lite 双运行时
(交互协议、对话容器、视觉组件)
• 内置生成式交互能力
(MD/DSL/H5、跨栈混排混渲)
• 内置多模态交互能力
(ASR/TTS、单次/多轮、实时对话)
• 内置感知执行能力
(Context/History、MCP/Use)
架构图
场景
16. 不只能问能答,还要有手有脚
AI 产品经理们对「点咖啡」的执念
* 信息来自网络来自 AI
* 信息来自网络来自 AI
17. 通用 Agent 自主执行的技术现状
泛化性 vs 准确性 vs 推理速度 vs 工具完备度
工程架构模型选择优劣势
ChatGPT浏览器 + Sandbox + APIDeepResearch + O3强化通用性强,但Token消耗高
Sheet0浏览器 + 受限SandboxN/A爬虫任务,但无法操作网页
Fellou本地Sandbox + APIClaude + 意图小模型速度快,但无法脱离浏览器
Manus浏览器 + SandboxClaude可做复杂任务,但容易幻觉
GenSpark受限Sandbox + LLMClaude功能有限,且扩展性差
18. 移动端自主执行的共性挑战
Agent 工程,是不完美现实下的先遣队,将伴随大模型长跑
移动端自主执行的交互范围
• 权限问题
• 时机问题
• 采集问题
• 耗时问题
• 混合技术栈问题
• 模型推理消耗问题
• 用户产品体验问题
前端页面交互
系统
页面
交互
原生页面交互
小程序技术栈 / H5 技术栈
App 应用
Android / iOS / Harmony
19. 我们在 Agent 自主执行上的探索
大模型不断提升「规划/推理」能力,Agent 不断提升「感知/执行」能力
GUI Agent
MCP Tools
<—> 动线 <—> 控件 <—> 函数 <—> 请求 <—>
采集感知
沙箱仿真
引擎执行
标注测评
1、泛化性 vs 垂类可达
2、服务分层 + 模态融合
20. 回顾与展望
Alipay xUI:AI 时期终端的下一代框架
未来人机交互形态充满不确定性,但终端面向用户体验的技术内核不变
21. Thanks