What GPT-oss Leaks About OpenAI's Training Data

オンラインツール

オンラインツール

反馈

オンラインツール

ホーム話題

ライブラリコードベースお店

詳細表示

What GPT-oss Leaks About OpenAI's Training Data

出处：fi-le.net

摘要

OpenAI的GPT-5模型存在训练数据泄露问题，部分语料来自成人网站和垃圾信息。通过对模型权重的分析，发现了一些异常的高频词汇，揭示了训练数据的潜在来源。这些“故障词汇”不仅暴露了模型的训练细节，还暗示了数据采集范围的广泛性，甚至包括GitHub等平台。这表明开源模型可能带来新的安全风险，建议前沿实验室优化词汇表，减少不常见字符串的纳入。

阅读原文

xiaozi 于 2025-10-07 分享

744

关联话题： #ChatGPT

欢迎在评论区写下你对这篇文章的看法。