服务场景下模型和智能体的评测体系和思路

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. WOWService专题直播 服务场景下模型和智能体的评测体系和思路 陆途 美团研究专家 LongCat Interaction Team
2. 什么是大模型评测 LLM Based产品在上线前,通常需要进行两层测试,分别是算法效果评测和常规的产品功能测试。大模型效果评测的目的 •对于业务团队来说,是希望能明确LLM Based的能力是否适配业务规划 •对于算法团队来说,是希望能够对齐业务预期,从而指导算法进行针对性的优化 具体来说,希望评测的工作能够有以下收益: •业务团队:帮助业务团队更好地理解LLM的长处和短处。知道大模型的的能力边界后,辅助业务决策需求落地的优先级; •算法团队:帮助算法团队更加了解交互服务场景的业务需求。将需求转化成模型能看得懂的数据,并将模型迭代的问题、方 向通过指标进行标定 •三方评测(体验评测):站在公立第三方的角度,只作为普通用户来看各个大模型的能力对比效果
3. 评测体系及方式介绍 名称 介绍 评测方式 1)评估方法: 尽量使用用户真实数据、辅助部分构造数据,根据客服大模型望落地业务以及可能功能和需求,设计prompt template+用户需求 query作为input,以大模型的output作为评测对象; 算法能力评测 •纯人工评估,每道题目规定得分点和扣分点,明确打分规范细则; 定义:模型单一能力的评测。服务交互场景下的大模型的评测与通用AGI区别在 于,评测关注在服务交互领域和场景的独有能力和数据特征上,比如服务规范中 •打分过程中双盲、3人同时对1道题目打分,若有diff则更大范围讨论和投票 信息收集和服务质量中解决过程中的专业性等能力。 2)打分方式: 目标:确定当前场景下的模型基础能力状态和优化方向,为业务决策提供辅助 按打分规范,对题目进行0分、1分、2分的打分。三个档位分别表示 •0分:答案不可接受,未识别到用户意图,回复方案出错等问题 •1分:答案有些问题,但也有些许帮助,部分话术缺少未推进有效流程,回答内容出现部分瑕疵问题 •2分:答案令人满意,完全可用,和上文连贯、且话术较符合一般规范,能有效推进流程 算法能力评测,只关注算法「单一」能力,「单独」使用下的效果。但在业务落地时,应用往往需要多次调用不同的大模型能力。 模型的接口 端到端评测 定义:不含前端的信息传输、上屏渲染,在评测过程中,仅经过工程上的部分与模 型强相关的服务链路,关注模型效果的端到端。对于复杂场景是必须的。 具体可见下方示例描述。 举个例子: 用户在学城AI的主对话中输入,"帮我创建一个文档,填写好评测业务规划方案的提纲”。大致的处理流程是: 使用Function Call的能力,调用Create Doc的接口,创建文档 使用Function Call的能力,调用Write Outline接口,创作指定内容的提纲 目标:确定当前场景下使用模型能力(如Prompt\task等)的状态,为业务决策提供 Write Outline接口内,调用大模型的创作能力,生成提纲 辅助和优化指南 这种场景下,也需要进行包括模型调度、编排和实现的评测。虽然还是模型评测,但因为和场景的定义强相关,我们称之为模型的 「接口端到端评测」 业务的UI 端到端评测 定义:「用户使用产品,在真实的Ul交互上进行输出」为起点,到「系统完成处理 和反馈,将最终结果呈现在UI上」为终点,关注最终用户体验。主要针对下面的两个方向进行评测。 包括和竞品的对比和评测算法效果对比: 目标:产出真实可信的业务指标,是业务决策上线的依据算法效果对比,通过产品交互获取数据,人工评测为主,指标证设计以李克特量表为基础,辅助客观指标 功能对比:客观对比功能的有无与好坏 响应速度和服务稳定性。以客观的反馈时间为准,并通过多次评测的方式确定AI生成结果的稳定性
4. 交互评测系统及框架
5. 基座模型评测
6. 端到端Agent评测
7. 自动化评测能力 基于分治法的评测pipeline context:历史对话、信息背景与关键信号等上下文信息 rubrics:各考点的细化评分标准与判定依据 模型输出:待评估的回复内容 结构标准答案:包含基础项(必选字段)与加分项
8. Q&A
9. 更多技术干货 欢迎关注“美团技术团队”

Главная - Вики-сайт
Copyright © 2011-2026 iteam. Current version is 2.155.1. UTC+08:00, 2026-04-01 18:55
浙ICP备14020137号-1 $Гость$