TGUI-AIGC时代的GUI框架

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 2026.03.24 阿里巴巴全球总部_访客中心 中国杭州 HANGZHOU CHIA
2. TGUI-AIGC时代的 GUI 框架 TaoBao Generative UI:AI 时代 GUI 的框架探索
3. 主会场演讲嘉宾 李健⺠(敬鸣) 淘宝终端平台
4. 1背景 2TGUI 介绍 3未来与展望
5. 人机交互演进史 CLI CLI (命令行界面) GUI GUI (图形用户界 面) LUI LUI / VUI (语言/语 音用户界面) AIGUI AI GUI (AI 生成式界 面) 交互范式:精确指令交互范式:直观操作交互范式:对话理解交互范式:动态创造 说明:人机交互的起点,人类 需要学习机器的语言,通过 键盘输入精确的文本命令来 控制计算机。说明:革命性的⻜跃。机 器开始用图形来模拟现实 世界(如桌面等)说明:随着自然语言处 理技术的发展,机器开 始能理解人类的自然语 言。特点:人可以通过鼠标点 击等直观动作来与数字对 象互动。它极大地降低了 计算机的使用⻔槛说明: 由大模型驱动的新 纪元,机器不仅能理解你 的意图,更能为你动态地 “创造”内容和界面 特点:人可以通过自然 语言的方式跟机器进行 交互。特点:UI成为可以根据对 话上下文、用户偏好实时 生成、组合、甚至自我修 正的动态体验 特点:强大、高效,但⻔槛 高
6. 若⻚面交互由AI驱动,GUI的底座该⻓什么样?
7. 业界的表达形式
8. 用 Markdown 构建 AI GUI 遇到的三大障碍 功能鸿沟 无法表达丰富的、可交互的UI组 件,只能描述静态文本结构。 体验断崖昂贵的修改 Markdown的全量渲染,与AI流式输出 不和,导致输出的性能损耗和闪烁。无法局部更新,任何微调都需要对整 个UI进行整体重绘。
9. TGUI 简介 TGUI(TaoBao Generative UI)核心目标是:赋予 AI 构建⻚面级 UI 以及交互的能力
10. 架构解析
11. 第一基石:为 AI 输出建立规则标准 混乱 确定 我们的选择 标准化的Markdown 解析结果不一100% 确定性解析 渲染样式混乱AI 生成更稳定更可靠 输出质量不可控视觉主题可定制
12. 第二基石:超越 Markdown,注入原生「微组件」 通过扩展语法+自定义渲染 如<img-bg>毛呢外套</img-bg>
13. 内联“微组件”够了吗?
14. 第二基石:超越 Markdown,组件化渲染 AI 输出代码块指令 ```product-card\n``` 组件渲染
15. 协议映射 # TGUI 协议规范 TGUI 支持标准 Markdown 语法与自定义组件 的混合渲染,提供极致的原生体验。 - 原生渲染性能极致 - 支持流式动态更新 | 特性 | 支持度 | |----------|--------| | Markdown | 100% | | Patch | Full | ```productCard { "title": "双11 限定礼盒", "price": 299.00 } ```
16. 组件注册中心:让 AI 成为真正的"UI 编排师" AI 生成指令 → TGUI 框架 AI 输出 → ① ```product- card``` → TGUI 解析映射 解析与映射识别 AI 生成 指令 组件查找调用 → 业务组件生态 最终呈现 →→ ②③ 查找并 调用 商品卡片组件 原生 UI 渲染 渲染为 原生UI 组件注册中心 研发从"页面开发者"升级为"AI 可调度资产的创造者" 可交互的 原生商品卡片 📱
17. 第三基石:拥抱 AI Stream
18. Committed / Pending 双态分离 问题 逐步输入示意 大模型逐 Token 输出,如何高效解析? 解法 T1 输入列表 List Committed 已提交区 语法结构已完整闭合的文本前部 解析结果锁定,不重新解析 ↓ T2 输入段落 List Paragraph ↓ Pending 待定区 文本末尾的最后几个节点 每次新 Token 到来时实时重新解析 T3 输入代码 List Committed Paragraph Pending Code
19. 滑动窗口机制 滑动窗口示例(窗口大小 = 2) 窗口大小策略 随着 Token 输入,CommitPointer 不断右移,Pending 窗口始终固定大小 小窗口(如 2) 高性能 H1 P1 UL LI1 LI2 P2 Code … ⬇ Window ⬇ 解析范围更小,性能更优 T1 大窗口(如 4~6) 高容错 ↓ ↑ CP ⬇ Window ⬇ T2 容忍更多未完成的语法结构 ↓ ↑ CP ⬇ Window ⬇ T3 自适应窗口 根据当前节点类型动态调整 智能 ↑ CP ↓ ⬇ Window ⬇ T4 ↑ CP ↓ ⬇ Window ⬇ T5 ↑ CP Committed Pending 未到达
20. 滑动窗口:从 O(N²) 到 O(N) 解析耗时 vs 文本长度 传统方案 全量重解析 100字→解析100字 / 10000字→解析10000字 越写越卡,体验断崖式下降 全量解析 O(n²) 解 析 耗 时 TGUI 差距 滑动窗口解析 100字→解析~50字 / 10000字→解析~50字 TGUI O(n) 始终流畅,与文档长度无关 文本长度
21. 异步渲染流水线 ① Token 流入 ③ 轻量级异步 Diff ② 增量解析 → 大模型逐 Token 输出 Markdown 滑动窗口解析 Committed + Pending → 非阻塞 后台线程计算 新旧列表差异、增量渲染 ④ 主线程调度 → 执行 Insert / Update / Remove 顺序保证 ⑤ 用户看到 → 平滑打字机效果 无闪烁 最小化更新 60 FPS0< 2%O(1) 长文本闪烁次数CPU 增量单次解析复杂度
22. Token 预测:消除闪烁 问题:代码块的身份危机 ① 收到 ` ` ② ③ 收到 ``` 解析为普通文本 判断为代码块 收到 ```product-card``` 识别为组件 用户看到:文本 → 代码块 → 组件,连续闪烁 3 次 解法:先缓存,后裁决 1遇到 \n`进入预测 2暂存到缓冲区 3整行完毕统一提交
23. 流式语法补全 不处理 补全处理后 粗体 **粗体 → *斜体 [淘宝](https://ww 核心原则:只读不写(虚拟补全) 斜体 淘宝
24. 流式预测状态机 IDLE | * / _ EMPHASIS 1→2→3 ── ① 补全闭合标记 识别语法标记,进入对应状态 ↩ IDLE ↓ ` ` ` FENCED_CODE ── [ text ](──LINK # / - / =──HEADING / LIST 裁剪代码围栏文本 ↩ IDLE 截剪为纯文本↩ IDLE 保持原样↩ IDLE ② ↓ ③ **加粗 → 补全闭合标记 **加粗** ```jav → 缓存裁剪代码围栏 逐字符判断:升级、闭合或保持 根据当前状态,应用策略 [链接](url → 截剪为纯文本 链接
25. TGUI 流式协议:从一次性文本流 到 动态可编辑画布 TGUI 流式协议 原生流式 线性单向,不可逆 已输出的内容无法回头修改、删除或重排⻚面是一张只读胶片 → 赋予 AI 可编辑画布 AI 可追加、可替换、删除、移动,⻚面变成可编辑画布 支持的操作类型 Add添加元素Move移动内容(先 remove 再 add) Append追加内容Copy复制内容到新路径 Remove删除指定路径的内容ReplaceSubstr 子串替换 Replace替换指定路径的值
26. AI 作为"UI 画家"的工作流 "这是第一句话" → "这是第二句【错误】" 用户看到一半的内容 突然中断。 发现错误?只能关掉整个"水龙头"。 ↓ 转变 1. 画布初始状态 2. AI 创作第一句 → 3. AI 创作第二句 (不完美) → “这是第一句话。” 4. AI 发出“修正指令” → “这是第一句话。”“这是第一句话。” “第二句写错了。”“第二句现在对了。”
27. 还需要什么?
28. 端侧MCP——让大模型直接参与UI 交互 从意图到操作的跃迁 我们的目标:让大模型成为 App 的“操盘手”。 Agent 指令 反馈 • 痛点: 用户的意图必须手动完成 MCP 通 道 观测 执行 端侧 Tools • MCP 架构:大脑、手眼与神经 • 大脑 (云端 Agent): LLM 负责思考与规 划。 • 手眼 (端侧 MCP Tools): 封装的原生原 子能力 。 • 神经 (MCP 通道): 双向的指令与观测通 道。
29. 端侧 MCP —— 大模型直接参与 UI 交互 用户自然语言指令 → Agent 理解规划 → MCP 协议调度端侧能力 → 自动执行并反馈 ① ② 👤 ③ 🤖 ④ 🔗 📱 用户AgentMCP 通道端侧执行 发出指令云端 · 大模型驱动端云通信协议Client-Side "如何关闭视频自动播放" → 理解用户意图 分解为原子任务 → ↓ 下行:指令分发 ↑ 上行:结果回传 生成工具调用指令 ⟵ 结果反馈 · Agent 决策闭环 ⟵ → MCP Tools 解析指令 调用原子能力 执行 UI 操作
30. 大模型幻觉的容错处理 方案一:降级方案二:流式修复 当 AI 指令错误,无法解析时…当 AI 流式输出的内容需要修正时… 【错误指令】 比如拼写错误"...价格是 [计算中...]" ↓↓ 【安全模式】 跳过或替换为占位符"...价格是 ¥999" 核心价值:保障程序永不崩溃及 UI 可读性核心价值:提供无感、流畅的体验 通过「降级」与「流式修复」,为不确定的 AI 输出,提供了确定的用户体验
31. TGUI效果示例 通过大模型输出⻚面 大模型自主完成交互行为
32. UI 生产流程的变化与未来展望 传统模式 机器领域 ① ↓ ② ↓ ③ ↓ ④ ↓ ⑤ 产品规划终端设备 PM → PRD渲染 & 呈现 视觉交互设计 设计师 → 设计稿 前后端开发 工程师 → 代码 AI 驱动 ⇨ 人类领域 — 定义边界与指挥 转 型 研发/设计产品/运营用户 原子化组件Prompt 指挥实时指令 终端呈现 用户 → 反馈 监控与迭代 AI 领域 — 理解与创造 大语言模型 数据 → 迭代 理解意图 → 编排 UI 研发模式产运协同角色转变提效方式全新定义 UI 实现者 → AI 赋能者Prompt 指挥 AI 生成 UI超越千人千面,意愿驱动的界面 工作核心敏捷迭代交互方式 开发高质量、AI 可调用的原子化组件实现小时级 A/B 测试支持语音定制页面内容 未来展望 用户体验
33. 当前面临的挑战 AI 对⻬之困 组件生态之贫 团队心智之变 Prompt 工程:持续迭代,精确约束AI-Friendly 组件体系:沉淀最佳实践重塑研发流程:定义新的协作模式 模型微调:注入领域知识与规范完善工具链:降低接入与开发成本建立设计新范式:面向 AI 的组件设计 校验修复层:构建最后的防线开放与共建:鼓励生态繁荣布道与赋能:推动组织认知变化
34. THANKS

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.0. UTC+08:00, 2026-03-24 12:17
浙ICP备14020137号-1 $访客地图$