如何定义 “人味儿”?——HeartBench 评测体系建设实践

摘要

AI下半场竞争转向定义问题,情感智能成为关键。HeartBench评测体系聚焦大模型拟人化能力,涵盖人格、情感、社交等维度,构建科学的中文评测标准。通过小步快跑验证+人机协同流程,历经多版本迭代,最终精筛出296题评测集,人机一致性达86%,为AI拟人化提供可复用的评测方法论。

欢迎在评论区写下你对这篇文章的看法。

评论

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.0. UTC+08:00, 2026-03-16 20:06
浙ICP备14020137号-1 $访客地图$