类库
› skill
pinchbench/skill
PinchBench是用于评估LLM模型作为OpenClaw编码代理性能的基准测试系统。它通过真实任务(如日程安排、代码编写、邮件处理等)测试AI编码代理的工具使用、多步推理和实际执行能力,并提供公开排行榜展示结果。
PinchBench是用于评估LLM模型作为OpenClaw编码代理性能的基准测试系统。它通过真实任务(如日程安排、代码编写、邮件处理等)测试AI编码代理的工具使用、多步推理和实际执行能力,并提供公开排行榜展示结果。