从原型到生产：AgentOps 加速字节 AI 应用落地实践

1. 杨晨

2. 目录

3.

4.

5. 大模型API价格以逐年1/10的趋势下降开源与闭源模型的能力差距在逐步缩小

6. 越来越多能处理复杂任务的Agent出现

7. 由容器、微服务及声明式API所构建的微服务应用架构解决系统复杂性问题由模型、AI Agent及Tool共同构筑的AI Native应用架构解决智能决策问题

8. LLM 嵌入预定义代码路径 LLM 主导控制流

9.

10.

11. • 基于大模型的应用开发迭 • 面对大模型的不确定性， • 自主驱动的Agent在生产环 • 效果不及预期，如何进行代方式有何不同？如何高效如何高效评测AI应用以达到境中如何进行观测、运维？模型推理结果的优化提升？开发？上生产要求？ • 怎样快速发现线上Bad • Prompt调优？RAG？还是 • 如何进行模型选型？ • 上线后如何监测效果是否 Case? Fine-Tuning？ • 怎样写出更有效的Prompt 符合预期？怎样做到持续评 • 怎样监测线上模型token消引导模型输出？测？耗、成本计费？

12.

13.

14.

15.

16. Prompt 调试 Prompt 对比调试

17. 核心思路: - APE: Prompt 逆向工程，根据输入和输出让模型生成/改写Prompt并迭代式演进寻找更优解 - APO: 在文本空间实现梯度下降（gradient descent）的过程，用错误反馈来反向优化 Prompt

18. 核心思路: 将用户「调试优化迭代Prompt」的过程转变为初始Prompt + 标注数据集 + 评估器的设计，最终通过自主迭代优化给出满足对应评估器指标较好的优化后Prompt。

19. 基于用户反馈的Prompt自动优化基于BadCase集的Prompt自动优化

20. 评测贯穿AI应用的全生命周期

21.

22.

23.

24.

25.

26.

27.

28.

29.

30.

31. 会话聚合: 指标分析:

32.

33. 1. AI应用的需要做一定权衡 2. LLM/Agent不是万能的 3. 评测是关键，评测的效率&准确度决定了AI应用的迭代速度&质量

34.

35. LLM/Agent能力越来越强 • • •

36. 协议标准走向统一 MCP(Model Context Protocol) Agent Protocol / Multi-Agent Protocol ???

37. AgentOps的机会: • AI Agent爆发，对AgentOps类平台工具诉求明显增加 • Agent落地生产应用依赖便捷的效果评估 • 复杂任务/纯自主的Agent对模型Token消耗、执行链路黑盒性有更强的可观测诉求 • 协议标准趋向统一更便捷做平台能力集成

38. AgentOps的挑战: • 行业千变万化，尚未形成标准范式，需要时常做好认知迭代升级 • 竞争格局激烈 • 更好的参与到行业标准的制定

39.

40.

41. 大模型正在重新定义软件 Large Language Model Is Redefining The Software