Teaching Sidekick to say no: automated data curation with LLM judge consensus

反馈

развернуть

出处：shopify.engineering

存档：存档

译文：中文

训练数据存在盲区：生产日志只记录成功案例，模型无法学会拒绝不可能请求。我们利用小型人工标注数据集校准多个大模型作为裁判，通过严格共识机制自动标注冲突数据，形成数据飞轮。拒绝能力使评分提升28.9%，准确率86.3%，假阳性4.6%。

阅读原文

xiaozi 于 2026-06-26 分享

1825

关联话题： #Shopify

欢迎在评论区写下你对这篇文章的看法。

据说喜欢分享的,后来都成了大神

女生的冷暖自知什么的，在长得好看面前弱爆了。