Deep dive into LLMs like ChatGPT by Andrej Karpathy (TL;DR)

Online Tools

反馈

出处：anfalmushtaq.com

存档：存档

译文：中文

大语言模型(LLM)通过互联网数据预训练,经过分词、神经网络处理等步骤生成文本。预训练后,需通过监督微调和强化学习提升模型性能,减少“幻觉”现象。LLM通过上下文窗口和推理机制生成非确定性输出,具备创造力但可能产生错误。未来LLM将向多模态、代理化、实时训练等方向发展,融入更多应用场景。

阅读原文

xiaozi 于 2025-02-13 分享

372

关联话题： #DeepSeek

欢迎在评论区写下你对这篇文章的看法。

据说喜欢分享的,后来都成了大神

我的目标是三十岁有套房子，现在实现一半，已经三十岁了。