类库
› llm_benchmark
llm2014/llm_benchmark
这是一个个人维护的大语言模型评测项目,使用滚动更新的私有题库长期跟踪评估多个大模型在逻辑、数学、编程和人类直觉等方面的能力。通过自动化评分系统生成排行榜,侧重观察模型的长期进化趋势。
这是一个个人维护的大语言模型评测项目,使用滚动更新的私有题库长期跟踪评估多个大模型在逻辑、数学、编程和人类直觉等方面的能力。通过自动化评分系统生成排行榜,侧重观察模型的长期进化趋势。