Cursor大规模agentic编程系统的工程实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 大规模 Agentic
编程系统的工程实践
Cursor
YUCHEN WU
Agent 质量与性能 @ Cursor
1
2. Agentic
编程
传统的聊天机器人只是回答问题。Agentic 编程系统执行多步骤的工作流。
传统聊天机器人行为
AI Chat Assistant
Cursor
中的 Agentic 编程
给我的 README 加个笑话
没问题!这是一个你可以添加的笑话:
"Why do proxy servers make terrible comedians?
Because they always deliver the punchline to the
wrong audience."
你可以把它粘贴到 README 的 "Fun Facts" 部分。
2
3. 示例追踪
“给我的 README 加个笑话” —— 单次 agentic 交互。
3
4. Cursor
架构
• Prompt 和模型交互在服务端进行
• 统一的后端服务于所有客户端界面
• 无需发布客户端即可上线新模型、工具和 Prompt
• 多供应商路由以保证模型弹性
• 服务端优化惠及所有用户(稍后详细介绍)
4
5. 更聪明、更快的模型
• 新型 GPU (B200/GB200) —— 更强算力使大规模快速
推理成为可能
• 内核优化 (Flash Attention, 投机解码) —— 降低延迟,
提高吞吐量
• 推理供应商 (如 Together) 管理 GPU 到推理的供应链
5
6. 延迟优化
推理路径的四个层级,每一层都有其优化手段。
6
7. 延迟拆解
Agentic 循环中每个推理请求的关键指标。
7
8. 跨多部署路由
每个部署都有负载曲线 —— 随着流量增加,TTFT
上升,TPS 下降。
8
9. 传输层优化
HTTP/TCP 上的推理请求与传统 Web 流量有很大
不同。
9
10. TCP
拥塞控制与 Agentic 推理
10
11. Agent
循环优化:推测执行
写入调用几乎总是成功 —— 推测性地开始下一个
模型调用,如果写入成功则提交,否则丢弃推测结
果,正常执行。
11
12. 回顾:四个优化层级
每一层都有独特的优化手段 —— 协同优化以获得
复合收益。
12
13. 谢谢
Q&A
yuchen@cursor.com
13