服务场景下模型和智能体的评测体系和思路
如果无法正常显示,请先停止浏览器的去广告插件。
1. WOWService专题直播
服务场景下模型和智能体的评测体系和思路
陆途
美团研究专家
LongCat Interaction Team
2. 什么是大模型评测
LLM Based产品在上线前,通常需要进行两层测试,分别是算法效果评测和常规的产品功能测试。大模型效果评测的目的
•对于业务团队来说,是希望能明确LLM Based的能力是否适配业务规划
•对于算法团队来说,是希望能够对齐业务预期,从而指导算法进行针对性的优化
具体来说,希望评测的工作能够有以下收益:
•业务团队:帮助业务团队更好地理解LLM的长处和短处。知道大模型的的能力边界后,辅助业务决策需求落地的优先级;
•算法团队:帮助算法团队更加了解交互服务场景的业务需求。将需求转化成模型能看得懂的数据,并将模型迭代的问题、方
向通过指标进行标定
•三方评测(体验评测):站在公立第三方的角度,只作为普通用户来看各个大模型的能力对比效果
3. 评测体系及方式介绍
名称
介绍
评测方式
1)评估方法:
尽量使用用户真实数据、辅助部分构造数据,根据客服大模型望落地业务以及可能功能和需求,设计prompt template+用户需求
query作为input,以大模型的output作为评测对象;
算法能力评测
•纯人工评估,每道题目规定得分点和扣分点,明确打分规范细则;
定义:模型单一能力的评测。服务交互场景下的大模型的评测与通用AGI区别在
于,评测关注在服务交互领域和场景的独有能力和数据特征上,比如服务规范中 •打分过程中双盲、3人同时对1道题目打分,若有diff则更大范围讨论和投票
信息收集和服务质量中解决过程中的专业性等能力。
2)打分方式:
目标:确定当前场景下的模型基础能力状态和优化方向,为业务决策提供辅助
按打分规范,对题目进行0分、1分、2分的打分。三个档位分别表示
•0分:答案不可接受,未识别到用户意图,回复方案出错等问题
•1分:答案有些问题,但也有些许帮助,部分话术缺少未推进有效流程,回答内容出现部分瑕疵问题
•2分:答案令人满意,完全可用,和上文连贯、且话术较符合一般规范,能有效推进流程
算法能力评测,只关注算法「单一」能力,「单独」使用下的效果。但在业务落地时,应用往往需要多次调用不同的大模型能力。
模型的接口
端到端评测
定义:不含前端的信息传输、上屏渲染,在评测过程中,仅经过工程上的部分与模
型强相关的服务链路,关注模型效果的端到端。对于复杂场景是必须的。
具体可见下方示例描述。
举个例子:
用户在学城AI的主对话中输入,"帮我创建一个文档,填写好评测业务规划方案的提纲”。大致的处理流程是:
使用Function Call的能力,调用Create Doc的接口,创建文档
使用Function Call的能力,调用Write Outline接口,创作指定内容的提纲
目标:确定当前场景下使用模型能力(如Prompt\task等)的状态,为业务决策提供
Write Outline接口内,调用大模型的创作能力,生成提纲
辅助和优化指南
这种场景下,也需要进行包括模型调度、编排和实现的评测。虽然还是模型评测,但因为和场景的定义强相关,我们称之为模型的
「接口端到端评测」
业务的UI
端到端评测
定义:「用户使用产品,在真实的Ul交互上进行输出」为起点,到「系统完成处理
和反馈,将最终结果呈现在UI上」为终点,关注最终用户体验。主要针对下面的两个方向进行评测。
包括和竞品的对比和评测算法效果对比:
目标:产出真实可信的业务指标,是业务决策上线的依据算法效果对比,通过产品交互获取数据,人工评测为主,指标证设计以李克特量表为基础,辅助客观指标
功能对比:客观对比功能的有无与好坏
响应速度和服务稳定性。以客观的反馈时间为准,并通过多次评测的方式确定AI生成结果的稳定性
4. 交互评测系统及框架
5. 基座模型评测
6. 端到端Agent评测
7. 自动化评测能力
基于分治法的评测pipeline
context:历史对话、信息背景与关键信号等上下文信息
rubrics:各考点的细化评分标准与判定依据
模型输出:待评估的回复内容
结构标准答案:包含基础项(必选字段)与加分项
8. Q&A
9. 更多技术干货
欢迎关注“美团技术团队”