Alipay xUI多模态智能交互引擎

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. Alipay xUI 多模态智能交互引擎 赵利超(鬼畏) ・支付宝终端基础技术 蚂蚁终端体验科技大会
2. /01 缘起 - AI Agent 技术发展历程 - 移动端 Agent 应用场景 - 支付宝对话式 Agent 应用 - 支付宝跨设备 Agent 互联 /02 当下 - 支付宝 Agent 应用的问题挑战 - 支付宝 Agent 应用的关键技术 - Alipay xUI 多模态智能交互引擎 - 生成式渲染技术 - 实时音视频技术 - 编解码混合技术 - 流式网络传输技术 - 智能体互联技术 - 多模态运行时技术 /03 探索 - 不只能问能答,还要有手有脚 - 通用 Agent 自主执行的技术现状 - 移动端自主执行的共性挑战 - 我们在 Agent 自主执行上的探索
3. AI Agent 技术发展历程 Agnet 初步落地 -> Agent 技术突破 -> Agent 场景应用 Agent 实验性探索 (2023) 代表产品 Agent 探索与实践 (2024) 侧重大模型基础能力Chatbot 技术相继成熟 场景:信息检索场景:人机对话、内容生成 Agent 业务高速发展 (2025~2026) 编码效率 深度研究 AI + 服务 实用工具 … Agent 框架Agent 平台Prompt 工程RAG 工程Multi Agent推理优化MCP 市场 训练框架部署架构模型微调LLM OpsWork owAgenticA2A 协作 能力演进
4. 移动端 Agent 应用场景 最先落地 C 端的,是互联网业务自身的演进 AI 对话AI 搜索 AI 内容生成AI 互动陪伴 通用助手 内容娱乐 AI 效率工具 垂直领域 AI 生活服务 AI 医疗教育
5. 支付宝对话式 Agent 应用 通过对话式 Agent 交互,升级服务检索方式,业务转化提升 & 用户体验提升 搜索推荐场景 出行酒旅场景 医疗健康场景 财富保险场景 政企民生场景
6. 支付宝跨设备 Agent 互联 通过跨设备 Agent 互联,升级生态合作模式,业务覆盖提升 & 科技体验提升 支付 + 智慧出行场景、智能穿戴场景
7. 支付宝 Agent 应用的问题挑战 全行业 Agent 产品化快跑:大模型还不够美好 vs 工程体系的滞后性 生成式渲染增强富文本 -> Markdown ?Html ?-> 图形 Canvas ?动效 Mars ? 音视频实时交互硬件碎片化 Mic/Speaker/Camera/Sensor、端云难协同 3A/VAD/ASR/TTS 网络传输与编解码WebSocket -> WebRTC -> GRPC over H3 ?Media over QUIC Transport ? 多端可信通信协议A2A over IPC ? 身份可信、行为可信、数据安全、重试/幂等、延时/缓存 …
8. 支付宝 Agent 应用的关键技术 交互方式与研发方式,在悄然变化 PRD -> DSL -> Assemble -> Layout -> Compose -> Drawcall,未来 Page Only ?View Only ? 时效性 CPU、GPU、IO、MEM ... 鲁棒性 安全性 网络、边云、框架、运行时、绘制、执行 … 通用性 系统权限、数据隐私 …
9. Alipay xUI 多模态智能交互引擎 人机交互,GUI -> CUI -> xUI AI 场景 / AI 应用 生成式渲染技术 实时音视频技术 智能体 互联技术 多模态运行时技术 编解码混合技术 流式网络传输技术 AI 云服务 / AI 大模型 AI 生态 多端 / 多设备
10. 生成式渲染技术 • 完整 Markdown 语法 (Android、iOS、Harmony) • 多重流式渲染模式 (流式全量、流式增量、全渲染) • 原生式富文本交互 (点选、复制、表情、超链 ...) • 混合 HTML 标签渲染 • 自定义 CSS 样式扩展 • 分场景定制化样式集 架构图 场景
11. 实时音视频技术 • 实时多模态控制 (三元组控制、动态分片、 打断恢复、会话乱序重排) • 全流式传输与双工通话 (单双工适应、同异步混合) • 硬件性能和鲁棒性优化 (碎片化适配、信号抢占/同步) • 离在线联合推理 • 场景化效果增强 架构图 场景
12. 编解码混合技术 • 端到端生成式编码 (文本/图片压缩率提升60%+) • 自适应损失偏好对齐 (主观损失偏好、自适应损伤修复) • 端云协同 AI 修复 (端侧模型计算结合后端算法、 渲染前端侧画质增强) 架构图 场景
13. 流式网络传输技术 • 全双工多模态融合 • AI 场景网络体验 (QUIC、流优先级、切换保持) • 全平台传输协议 (gRPC/Websocket、 AppNative/AppH5/PCWeb) • RPC 语义化接入 • A2A/MCP 高阶协议 架构图 场景
14. 智能体互联技术 • 安全可信架构 • 跨设备轻量通信 • 账号系统高效互通 • 隐私数据高可靠 • 智能动态编排 场景 • 跨厂商渲染一致性 • 一次接入多场景投放 架构图
15. 多模态运行时技术 • AI 应用研发框架 (Playground、Debugger、APM) • xUI Native & xUI Lite 双运行时 (交互协议、对话容器、视觉组件) • 内置生成式交互能力 (MD/DSL/H5、跨栈混排混渲) • 内置多模态交互能力 (ASR/TTS、单次/多轮、实时对话) • 内置感知执行能力 (Context/History、MCP/Use) 架构图 场景
16. 不只能问能答,还要有手有脚 AI 产品经理们对「点咖啡」的执念 * 信息来自网络来自 AI * 信息来自网络来自 AI
17. 通用 Agent 自主执行的技术现状 泛化性 vs 准确性 vs 推理速度 vs 工具完备度 工程架构模型选择优劣势 ChatGPT浏览器 + Sandbox + APIDeepResearch + O3强化通用性强,但Token消耗高 Sheet0浏览器 + 受限SandboxN/A爬虫任务,但无法操作网页 Fellou本地Sandbox + APIClaude + 意图小模型速度快,但无法脱离浏览器 Manus浏览器 + SandboxClaude可做复杂任务,但容易幻觉 GenSpark受限Sandbox + LLMClaude功能有限,且扩展性差
18. 移动端自主执行的共性挑战 Agent 工程,是不完美现实下的先遣队,将伴随大模型长跑 移动端自主执行的交互范围 • 权限问题 • 时机问题 • 采集问题 • 耗时问题 • 混合技术栈问题 • 模型推理消耗问题 • 用户产品体验问题 前端页面交互 系统 页面 交互 原生页面交互 小程序技术栈 / H5 技术栈 App 应用 Android / iOS / Harmony
19. 我们在 Agent 自主执行上的探索 大模型不断提升「规划/推理」能力,Agent 不断提升「感知/执行」能力 GUI Agent MCP Tools <—> 动线 <—> 控件 <—> 函数 <—> 请求 <—> 采集感知 沙箱仿真 引擎执行 标注测评 1、泛化性 vs 垂类可达 2、服务分层 + 模态融合
20. 回顾与展望 Alipay xUI:AI 时期终端的下一代框架 未来人机交互形态充满不确定性,但终端面向用户体验的技术内核不变
21. Thanks

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.148.2. UTC+08:00, 2025-12-14 06:41
浙ICP备14020137号-1 $访客地图$