从原型到生产:AgentOps 加速字节 AI 应用落地实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 杨晨
2. 目录
3.
4.
5. 大模型API价格以逐年1/10的趋势下降
开源与闭源模型的能力差距在逐步缩小
6. 越来越多能处理复杂任务的Agent出现
7. 由容器、微服务及声明式API所构建的微服务应用架构
解决系统复杂性问题
由模型、AI Agent及Tool共同构筑的AI Native应用架构
解决智能决策问题
8. LLM 嵌入预定义代码路径
LLM 主导控制流
9.
10.
11. • 基于大模型的应用开发迭 • 面对大模型的不确定性, • 自主驱动的Agent在生产环 • 效果不及预期,如何进行
代方式有何不同?如何高效 如何高效评测AI应用以达到 境中如何进行观测、运维? 模型推理结果的优化提升?
开发? 上生产要求? • 怎样快速发现线上Bad • Prompt调优?RAG?还是
• 如何进行模型选型? • 上线后如何监测效果是否 Case? Fine-Tuning?
• 怎样写出更有效的Prompt 符合预期?怎样做到持续评 • 怎样监测线上模型token消 引导模型输出? 测? 耗、成本计费?
12.
13.
14.
15.
16. Prompt 调试
Prompt 对比调试
17. 核心思路:
- APE:
Prompt 逆向工程,根据输入和输出让模型生成/改写Prompt并迭代式演进寻找更优解
- APO: 在文本空间实现梯度下降(gradient descent)的过程,用错误反馈来反向优化 Prompt
18. 核心思路:
将用户「调试优化迭代Prompt」的过程转变为 初始Prompt + 标注数据集 + 评估器的设计,最终通过自主迭代优化给出满足对应
评估器指标较好的优化后Prompt。
19. 基于用户反馈的Prompt自动优化
基于BadCase集的Prompt自动优化
20. 评测贯穿AI应用的全生命周期
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31. 会话聚合:
指标分析:
32.
33. 1. AI应用的
需要做一定权衡
2. LLM/Agent不是万能的
3. 评测是关键,评测的效率&准确度决定了AI应用的迭代速度&质量
34.
35. LLM/Agent能力越来越强
•
•
•
36. 协议标准走向统一
MCP(Model Context Protocol)
Agent Protocol /
Multi-Agent Protocol ???
37. AgentOps的机会:
•
AI Agent爆发,对AgentOps类平台工具诉求明
显增加
• Agent落地生产应用依赖便捷的效果评估
• 复杂任务/纯自主的Agent对模型Token消耗、
执行链路黑盒性有更强的可观测诉求
•
协议标准趋向统一更便捷做平台能力集成
38. AgentOps的挑战:
•
行业千变万化,尚未形成标准范式,需要时常
做好认知迭代升级
• 竞争格局激烈
• 更好的参与到行业标准的制定
39.
40.
41. 大模型正在重新定义软件
Large Language Model Is Redefining The Software