AI Coding 实践:PRD 到代码直出的探索
如果无法正常显示,请先停止浏览器的去广告插件。
1. AI Coding 实践:PRD 到
2.
3. 录
01 AI Coding 发展史和现状
02 客户端 AI Coding 关键解法
03 典型业务场景与需求分析
04 总结和展望
4. 01
AI Coding 发展史和现状
5. AI模型的发展
6. AI Coding 发展历程
基于
机协作的视
,结合交互形态、
介
与
主程度,可将 Code Agent 划分为 L1—L5 五个阶段。
L1: 类主导,Agent实时辅助:代码提示
L2: 类布置任务,Agent 成代码:单
L3: 类设定范围,Agent 推进多环节流程: 成
L4: 类输
task 实现
案、代码
PRD,Agent 端到端交付:完成需求解析、架构设计、编码
L5: 定义 标,多Agent分 协作:Agent 系统模拟完整软件团队,
通过多 Agent 分 协作完成全流程开发
· Ref:https://paradite.github.io/ai-coding/
7. 需求到交付——直出产品
端到端“直出”型 AI coding 产品:
然语
直接产出可运
、可访问的应
放演示视频/图
放演示视频/图
(没有容量 放不进来)
(没有容量 放不进来)
步完成需求到交付,但是只出现在前端
Bolt.new
Lovable
,
8. 需求到交付——直出产品(客户端领域)
客户端领域的直出产品,但是很不幸暴雷了
9. 客户端 AI Coding 的困境 - 技术栈视
前端
构建与调试复杂度
开发模式差异
UI 构建的抽象
2、框架分散:SwiftUI、UIKit、Jetpack Compose、Flutter、
2、框架相对集中:React/Vue/Angular 占据主流 React Native
构建
具成熟,调试简单
编译时间
本质都是
,真机调试必要
1、 命周期复杂
即时反馈:热重载、实时预览
2、依赖注 和架构:MVVM、VIPER 等模式多样
UI 层
种声明式UI 为主
SwiftUI、UIKit 和 Jetpack Compose 、Android View
同时存在,声明式和命令式混合
化
1、平台碎 化:iOS 16 的 API 和 iOS 17 的新 API 法不同
标准
碎
1、标准化程度 :HTML/CSS/JavaScript 是统
平台的标准化 vs
客户端
10. 客户端 AI Coding 的困境 - AI 模型视
件,调
链深
11. 客户端 AI Coding 的困境
前端开发就像是在
境中
个标准化的、开放的、乐
作,任务明确,材料(训练数据)充
合 AI
统深度交互的环境中进
个碎
常适
精密
化的、半封闭的、需要与复杂系
程,AI 在这个领域能提供帮
助,但要做到像前端那样流畅和智能,还有很
,
展拳脚。
客户端开发则像是在
式的环
的路要
。
12. 02
客户端 AI Coding 关键解法
13. 客户端这么难,提效我们需要做什么?
模型能
边界是什么?能否直出交付?
落到真实场景的提效,如何切
?
模型快速迭代,如何避免“
AI 如何更
功”?
期的融 企业迭代?
14. 客户端这么难,提效我们需要做什么?
需求评审
技术评审
交互评审
模型快速迭代,如何避
免“
功”?
#1 科学评测体系
…..
技术
案
Coding
落到真实场景的提
效,如何切
#2 需求 PRD 拆解
#3 UI
还原度出码
…..
?
联调& 测
视觉
AI 如何更
查
期的融
企业迭代?
#4 组件召回闭环迭代
…..
缺陷修复
回归发布
15. 02
AI Coding 端侧关键解法
#1 Mobile-swe-benchmark
16. 关键点
:如何科学评测AI代码 成效果
SWE-bench (Software Engineering Benchmark)
https://www.swebench.com/original.html
SWE-bench 是由普林斯顿 学和芝加哥 学于 2023 年推出的 个 规模软件 程基准测试,通过从
12 个真实 Python 开源项 中收集 2,294 个真实的 GitHub Issues 和对应的修复 案, 于评估 型
语 模型解决实际软件问题的能
17. 关键点
:如何科学评测AI代码 成效果
为什么SWE -bench成了代码能
评测的事实基准?
数据源
基于真实的 GitHub 开源项 (如 Django, Pytest),从数千个真实的 Issue (问题/Bug)
中提取需求描述,要求 AI Agent
动
成
个 Pull Request (代码补丁) 来解决这个
Issue。
评测
法
通过原项
带的单元测试(Unit Test)。如果 AI
成的代码能让测试
例通过,就被
认为是成功解决了问题。
Why it's popular?
痛点——如何在复杂、动态的代码库中
下分。
现在每个模型的发布、迭代都会默认跑
程的核
精准切中了现代软件
效解决真实问题。
18. 如何科学评测AI代码 成效果 —— SWE-bench 局限性
19. 移动端评测 —— mobile-swe-bench
测等
评测、
法
动化
20. Bench核
模型理解 UI 截图和代码,进
"像
21. Benchmark 评测流程
22. 热
Coding Agents表现如何
根据实际需求的复杂度,将需求分层 Easy、Medium、Hard 3 种类别的测试集,能够看到即便市
Agent Easy Medium Hard All
GPT-5-Codex
(GPT-5 High) 38% 35% 26% 33.0%
Claude Code
(Sonnet 4.5) 35% 33% 26% 31.0%
Gemini CLI
(Gemini 2.5 pro) - - - 36% 34% 30%
般。
33.3%
Cursor
(Claude Sonnet 4.5)
产环境端到端的测试集中,表现也
Code Agent 在真实
上
热的
23. Where "top-tier coding agents" fail
其实就是prototyping ->
24. 02
AI Coding 端侧关键解法
#2 PRD 微调拆解
25. 低质量出码原因之
—— 上下
代码定位错误
企业组件缺乏
需求实现不全
技术规范层上下
设计、构建并维护
Agent 执
的上下
企业组件库
系统性学科,专注于
Context Engineering是
任务的每
design token、布局规范、响应式要求
效地完
业务概念,业务逻辑、历史业务参考
设计还原层上下
步,为其智能地组装出最优
组合,以确保任务能够被可靠、
业务领域层上下
个动态系统,该系统负责在
成
档、技术栈规范约束等
UI还原程度低
代码库上下
项
架构、依赖关系、数据状态管理
26. 核
核
上下
- PRD
洞察
PRD 是核
的上下
载体,需求迭代的关键输
,完整 PRD ≠ 好上下
现状是:PRD 过于冗余或信息缺失, 内容不够结构化。这就导致AI 难以聚焦,
成的代
码质量低。
标清晰,职责单
任务,明确任务边界 -
理想状态:精准任务 : 复杂需求 → 可执
27. 需求理解 —— 精确上下
NER(Named Entity Recognition)
命名实体识别(Named Entity Recognition,简称 NER)是 然语 项核 任务,
旨在从 名、地名、组织机构名、时间、 期等。
本中识别并分类具有特定意义的实体,如
中国市场
政治实体
产品/服务名称
公司名称
推动Apple Intelligence(苹果智能)进
苹果公司正在努
结构化
处理(NLP)中的
28. 需求理解 —— 精确上下
29. 需求理解 —— 控件实体
•
•
•
•
•
Components (组件)
Inputs
Navigation
Containment
Communication
浮层
导航栏与
板控件
框架控件
内容展示类控件
• Material Metaphor: 基于物理世界的隐喻进
分类
• Intentional Hierarchy: 建 明确的视觉层次
• Responsive Interaction: 响应式交互设计
列表选择型控件
附加逻辑控制条件
。。。。
30. 需求理解 —— 基于控件实体的出码模型
31. 需求理解 —— 基于控件实体的优势
P
任务独
任务精确性
每个
每个逻辑任务都有明确的UI控件主体
避免"相似控件与逻辑的推理导致出码幻觉"
任务可以独
UI实体属性模型
D
边界清晰性
可扩展性
类似NER的精确边界识别
分类体系可根据业务需要扩展
避免逻辑归属模糊导致的重复或遗漏
属性模型
C
和验证
降低任务间的耦合度
A
执
性
持新的交互模式
32. PRD 拆解 —— 模型微调
模型微调(Fine-tuning):在预训练模型上通过在特定任务的数据集上进
还能让模型学会解决特定问题的细微差别,从
不是基础模型的权重,使基础模型适应某项任务
集(称为低秩适配器 )的权重,
需更新模型参数
前添加可训练的“前缀向量”,只优化这些前缀参数。
* LoRA 微调:通过在调整过程中改变模型参数的代表性
成符合特定任务的输出,
层的输
本的提示来引导模型
* Prefix-tuning:在每
预训练模型的泛化能
在保持模型相对轻量化的同时,显著提升在特定任务上的准确度和效率。
* Prompt-tuning: 通过修改输
额外的训练,这样不仅可以利
,
33. PRD 拆解 —— LoRA 微调
(如 80GB)
低(如 16GB)
训练时间 长 短(提速 3-5 倍)
存储空间 完整模型副本 仅 LoRA 权重
部署灵活性 低
34. 微调结果对
评估控件归类是否精确
● 准确率:是否误检 微调后的多模态模型
● 召回率:是否漏检 (带图评测)
微调后的多模态模型
● F1分数:两者的调和平均数
微调后的纯
纯
本Baseline
型
● 准确率:0.83
● 准确率:0.51 ● 召回率:0.72
● 召回率:0.69 ● F1分数:0.74
本模
(
图评测)
● 准确率:0.81
● 准确率:0.88
● 召回率:0.87
● F1分数:0.85
● 召回率:0.73
● F1分数:0.75
● F1分数:0.57
*数据来源于每份测试PRD的指标平均值
35. PRD 拆解后的效果
36. 02
AI Coding 端侧关键解法
#3 UI
还原度出码
37. 低精度 UI 出码原因
模型存在幻觉
还原度低
Figma设计稿布局复杂,
存在推理瓶颈
任务复杂,上下
多
成、漏
遗忘
成view
相
设计稿还原度低
代码审核成本
38. 还原度检测流程
节点1-2
节点2-1
节点2-2
还原度检测
39. 还原检测
法直
时的
案
40. 还原度检测
、字体等和Figma json中
次完整的还原度检测需要 N 分钟
环节,
法很好的集成到AI出码环节
41. 静态还原度检测
模型推理约束关系来确定View布局,当静态代码约束正确时,运
平
静态约束关系的还原度检测准确率可以达到 88%+的
通过
案
时
即可准确还原UI结构。基于
42. 02
AI Coding 端侧关键解法
#4 UI 组件召回
43. UI 组件召回
问题:功能实现 OK,但是代码采纳率低。
,降低
和开发意图,智能召回组件库中的最佳匹配组件,避免重复造轮
解法:基于代码上下
期维护成本。
44. UI 组件召回 ——
时属性,动态
成
45. 03
典型业务场景与需求分析
46. 典型业务场景与需求分析
47. 典型业务场景与需求分析
48. 典型业务场景与需求分析
评估需求出码质量
●
例通过率:评估代码逻辑准确性
PRD 拆解微调模型
● 代码采纳率:是否按企业内部规范出码
UI还原度检测
UI 组件召回
● 代码采纳率: 78.6 %
●
还原度检测
● 代码采纳率: 55.6 %
●
BaseLine
例通过率: 85.7 %
例通过率: 67.3 %
● 代码采纳率: 44.5 %
●
例通过率: 64.1 %
● 代码采纳率: 36.6 %
●
例通过率: 52.3 %
*数据来源于每份测试PRD的指标平均值
49. 典型业务场景与需求分析
根据实际需求的复杂度,将需求分层 Easy、Medium、Hard 3 种类别的测试集,能够看到适配
完的 CodeAgent 有不错的表现,整体端到端提升 10% 左右,在某些垂类测评中效果显著。
Agent Easy Medium Hard
GPT-5-Codex
(GPT-5 High) 38% 35% 26%
Claude Code
(Sonnet 4.5) 35% 33% 26%
Cursor
(Claude Sonnet 4.5) 36% 34% 30%
Custom Code Agent 40% 38% 34%
50. 04
总结与展望
51. 总结与展望
技术评审
交互评审
技术
案
Coding
联调& 测
视觉
缺陷修复
查
Topic 1:如何构建科学的端到端评测 Topic 3:如何保证客户端UI 的
体系, 期指导和度量 Agent 动作? 度出码?
对需求理解这个环节, Topic 4:
Topic 2:
PRD 如何拆解,拆解到什么粒度?
代,如何更
效的做组件识别召回?
Agent能
缝切换到代码直出的新范式
跃,我们可以
的
随着模型能
还原
对 期 UI 组件的新增和迭
客户端实现 PRD 到代码的直出,当下是做不到的,不影响我们的发展路径选择:以评测驱动
也许后
回归发布
需求评审
提升。
52. 总结与展望
53. 05
Q & A
54.
55. THANKS
模型正在重新定义软件
Large Language Model Is Redefining The Software