从原型到生产:AgentOps 加速字节 AI 应用落地实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 杨晨
2. 目录
3.
4.
5. 大模型API价格以逐年1/10的趋势下降 开源与闭源模型的能力差距在逐步缩小
6. 越来越多能处理复杂任务的Agent出现
7. 由容器、微服务及声明式API所构建的微服务应用架构 解决系统复杂性问题 由模型、AI Agent及Tool共同构筑的AI Native应用架构 解决智能决策问题
8. LLM 嵌入预定义代码路径 LLM 主导控制流
9.
10.
11. • 基于大模型的应用开发迭 • 面对大模型的不确定性, • 自主驱动的Agent在生产环 • 效果不及预期,如何进行 代方式有何不同?如何高效 如何高效评测AI应用以达到 境中如何进行观测、运维? 模型推理结果的优化提升? 开发? 上生产要求? • 怎样快速发现线上Bad • Prompt调优?RAG?还是 • 如何进行模型选型? • 上线后如何监测效果是否 Case? Fine-Tuning? • 怎样写出更有效的Prompt 符合预期?怎样做到持续评 • 怎样监测线上模型token消 引导模型输出? 测? 耗、成本计费?
12.
13.
14.
15.
16. Prompt 调试 Prompt 对比调试
17. 核心思路: - APE: Prompt 逆向工程,根据输入和输出让模型生成/改写Prompt并迭代式演进寻找更优解 - APO: 在文本空间实现梯度下降(gradient descent)的过程,用错误反馈来反向优化 Prompt
18. 核心思路: 将用户「调试优化迭代Prompt」的过程转变为 初始Prompt + 标注数据集 + 评估器的设计,最终通过自主迭代优化给出满足对应 评估器指标较好的优化后Prompt。
19. 基于用户反馈的Prompt自动优化 基于BadCase集的Prompt自动优化
20. 评测贯穿AI应用的全生命周期
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31. 会话聚合: 指标分析:
32.
33. 1. AI应用的 需要做一定权衡 2. LLM/Agent不是万能的 3. 评测是关键,评测的效率&准确度决定了AI应用的迭代速度&质量
34.
35. LLM/Agent能力越来越强 • • •
36. 协议标准走向统一 MCP(Model Context Protocol) Agent Protocol / Multi-Agent Protocol ???
37. AgentOps的机会: • AI Agent爆发,对AgentOps类平台工具诉求明 显增加 • Agent落地生产应用依赖便捷的效果评估 • 复杂任务/纯自主的Agent对模型Token消耗、 执行链路黑盒性有更强的可观测诉求 • 协议标准趋向统一更便捷做平台能力集成
38. AgentOps的挑战: • 行业千变万化,尚未形成标准范式,需要时常 做好认知迭代升级 • 竞争格局激烈 • 更好的参与到行业标准的制定
39.
40.
41. 大模型正在重新定义软件 Large Language Model Is Redefining The Software

Home - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-29 03:48
浙ICP备14020137号-1 $Map of visitor$