Cursor大规模agentic编程系统的工程实践

1. 大规模 Agentic 编程系统的工程实践 Cursor YUCHEN WU Agent 质量与性能 @ Cursor 1

2. Agentic 编程传统的聊天机器人只是回答问题。Agentic 编程系统执行多步骤的工作流。传统聊天机器人行为 AI Chat Assistant Cursor 中的 Agentic 编程给我的 README 加个笑话没问题！这是一个你可以添加的笑话： "Why do proxy servers make terrible comedians? Because they always deliver the punchline to the wrong audience." 你可以把它粘贴到 README 的 "Fun Facts" 部分。 2

3. 示例追踪 “给我的 README 加个笑话” —— 单次 agentic 交互。 3

4. Cursor 架构 • Prompt 和模型交互在服务端进行 • 统一的后端服务于所有客户端界面 • 无需发布客户端即可上线新模型、工具和 Prompt • 多供应商路由以保证模型弹性 • 服务端优化惠及所有用户（稍后详细介绍） 4

5. 更聪明、更快的模型 • 新型 GPU (B200/GB200) —— 更强算力使大规模快速推理成为可能 • 内核优化 (Flash Attention, 投机解码) —— 降低延迟，提高吞吐量 • 推理供应商 (如 Together) 管理 GPU 到推理的供应链 5

6. 延迟优化推理路径的四个层级，每一层都有其优化手段。 6

7. 延迟拆解 Agentic 循环中每个推理请求的关键指标。 7

8. 跨多部署路由每个部署都有负载曲线 —— 随着流量增加，TTFT 上升，TPS 下降。 8

9. 传输层优化 HTTP/TCP 上的推理请求与传统 Web 流量有很大不同。 9

10. TCP 拥塞控制与 Agentic 推理 10

11. Agent 循环优化：推测执行写入调用几乎总是成功 —— 推测性地开始下一个模型调用，如果写入成功则提交，否则丢弃推测结果，正常执行。 11

12. 回顾：四个优化层级每一层都有独特的优化手段 —— 协同优化以获得复合收益。 12

13. 谢谢 Q&A yuchen@cursor.com 13