服务场景下模型和智能体的评测体系和思路

如果无法正常显示，请先停止浏览器的去广告插件。

1. WOWService专题直播服务场景下模型和智能体的评测体系和思路陆途美团研究专家 LongCat Interaction Team

2. 什么是大模型评测 LLM Based产品在上线前，通常需要进行两层测试，分别是算法效果评测和常规的产品功能测试。大模型效果评测的目的 •对于业务团队来说，是希望能明确LLM Based的能力是否适配业务规划 •对于算法团队来说，是希望能够对齐业务预期，从而指导算法进行针对性的优化具体来说，希望评测的工作能够有以下收益： •业务团队：帮助业务团队更好地理解LLM的长处和短处。知道大模型的的能力边界后，辅助业务决策需求落地的优先级； •算法团队：帮助算法团队更加了解交互服务场景的业务需求。将需求转化成模型能看得懂的数据,并将模型迭代的问题、方向通过指标进行标定 •三方评测（体验评测）：站在公立第三方的角度，只作为普通用户来看各个大模型的能力对比效果

3. 评测体系及方式介绍名称介绍评测方式 1）评估方法：尽量使用用户真实数据、辅助部分构造数据,根据客服大模型望落地业务以及可能功能和需求，设计prompt template+用户需求 query作为input,以大模型的output作为评测对象；算法能力评测 •纯人工评估,每道题目规定得分点和扣分点,明确打分规范细则；定义：模型单一能力的评测。服务交互场景下的大模型的评测与通用AGI区别在于，评测关注在服务交互领域和场景的独有能力和数据特征上，比如服务规范中 •打分过程中双盲、3人同时对1道题目打分,若有diff则更大范围讨论和投票信息收集和服务质量中解决过程中的专业性等能力。 2）打分方式：目标：确定当前场景下的模型基础能力状态和优化方向,为业务决策提供辅助按打分规范,对题目进行0分、1分、2分的打分。三个档位分别表示 •0分：答案不可接受,未识别到用户意图，回复方案出错等问题 •1分：答案有些问题,但也有些许帮助,部分话术缺少未推进有效流程,回答内容出现部分瑕疵问题 •2分：答案令人满意,完全可用,和上文连贯、且话术较符合一般规范，能有效推进流程算法能力评测，只关注算法「单一」能力,「单独」使用下的效果。但在业务落地时，应用往往需要多次调用不同的大模型能力。模型的接口端到端评测定义：不含前端的信息传输、上屏渲染,在评测过程中,仅经过工程上的部分与模型强相关的服务链路，关注模型效果的端到端。对于复杂场景是必须的。具体可见下方示例描述。举个例子：用户在学城AI的主对话中输入，"帮我创建一个文档，填写好评测业务规划方案的提纲”。大致的处理流程是: 使用Function Call的能力，调用Create Doc的接口，创建文档使用Function Call的能力，调用Write Outline接口，创作指定内容的提纲目标：确定当前场景下使用模型能力(如Prompt\task等)的状态，为业务决策提供 Write Outline接口内，调用大模型的创作能力，生成提纲辅助和优化指南这种场景下，也需要进行包括模型调度、编排和实现的评测。虽然还是模型评测，但因为和场景的定义强相关，我们称之为模型的「接口端到端评测」业务的UI 端到端评测定义:「用户使用产品,在真实的Ul交互上进行输出」为起点，到「系统完成处理和反馈,将最终结果呈现在UI上」为终点,关注最终用户体验。主要针对下面的两个方向进行评测。包括和竞品的对比和评测算法效果对比: 目标：产出真实可信的业务指标，是业务决策上线的依据算法效果对比,通过产品交互获取数据,人工评测为主,指标证设计以李克特量表为基础,辅助客观指标功能对比:客观对比功能的有无与好坏响应速度和服务稳定性。以客观的反馈时间为准,并通过多次评测的方式确定AI生成结果的稳定性

4. 交互评测系统及框架

5. 基座模型评测

6. 端到端Agent评测

7. 自动化评测能力基于分治法的评测pipeline context：历史对话、信息背景与关键信号等上下文信息 rubrics：各考点的细化评分标准与判定依据模型输出：待评估的回复内容结构标准答案：包含基础项（必选字段）与加分项

8. Q&A

9. 更多技术干货欢迎关注“美团技术团队”