框架与类库：unsloth的相关资料

使用RAG技术构建企业级文档问答系统：生成优化(2)使用Unsloth对LLM进行微调

Unsloth微调Qwen3-1.7B实战：垂直领域效果提升显著！通过混合精度训练显存仅需模型16倍大小，1.7B小模型微调后得分从0.7跃至0.78，逼近7B量化版性能。微调侧重风格学习而非知识注入，配合RAG效果更佳。附Colab教程和HuggingFace模型，GTX1080Ti也能跑！

I trained a Language Model to schedule events with GRPO!

2025年，随着DeepSeek的爆火，GRPO成为训练推理模型的新宠。作者尝试用GRPO训练模型，解决事件调度问题。通过定义任务、生成数据集、设计奖励函数，作者成功训练出一个7B模型，性能甚至超越14B模型。尽管模型在避免事件重叠上仍有不足，但GRPO在可验证任务上展现了巨大潜力，简化了RL流程，凸显了基础模型和奖励函数设计的重要性。

Fine-Tuning Gemma 3 VLM using QLoRA for LaTeX-OCR Dataset

本文介绍了如何通过QLoRA和TRL技术对Gemma 3模型进行微调，以优化其在视觉语言任务中的表现，特别是从图像生成LaTeX公式。文章详细讲解了数据集准备、模型配置及微调过程，展示了微调前后模型生成LaTeX公式的对比，证明了微调对提升模型准确性的显著效果。

Teaching Language Models to Solve Sudoku Through Reinforcement Learning

探索如何通过强化学习教语言模型解决数独谜题，发现模型需遵循严格规则、逻辑推理及空间关系。实验使用400万数据集，分为四个难度级别，设计多组件奖励系统评估格式、答案准确性和规则遵守。7B模型表现稳定，3B模型则出现严重不稳定性。未来计划增加难度、扩展计算资源及改进奖励函数，提升模型复杂推理能力。

从零开始的DeepSeek微调训练实战（SFT）

本文介绍了如何使用unsloth框架对DeepSeek R1 Distill 7B模型进行高效微调，特别是针对医疗推理数据集的微调实验。通过最小可行性实验，初步验证了微调的效果，并逐步扩展到完整数据集进行大规模微调。微调后的模型在回答医学问题时表现更加规范，但仍需进一步优化。最终，模型权重被合并保存，为后续应用打下基础。

阿里巴巴技术

DeepSeek R1范式复现笔记

本文探讨了DeepSeek R1系列技术的复现与优化，重点分析了多个开源项目在数学和逻辑题领域的应用。通过实验验证，强化学习在提升模型推理能力方面效果显著，但小模型在复杂任务上表现有限。未来需优化RL框架，提升多机训练效率，并确保思维链质量不退化，以推动长思考模型在实际业务中的应用。

腾讯技术

Zed now predicts your next edit with Zeta, our new open model

Zed编辑器推出全新编辑预测功能，由开源模型Zeta驱动。Zeta基于Qwen2.5-Coder-7B微调，支持多位置编辑预测，用户可通过按tab键快速应用预测。Zed通过提示工程、监督微调和直接偏好优化提升模型表现，并结合推测解码技术降低延迟。编辑预测与语言服务器补全无缝集成，支持macOS和Linux平台。Zed团队持续优化模型，计划扩展数据集并增加更多区域支持。

单卡4090微调DeepSeek-R1-32B

在24G显存的单卡RTX 4090上，使用unsloth和lora量化微调技术，成功对62G的deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型进行全量微调。训练数据为24772条，共9288步，耗时28小时28分37秒。优化技术显著减少了显存占用，提升了训练效率。

单卡 RTX 4090 用 unsloth 和医学数据微调 DeepSeek-R1-Distill-Qwen-14B

本文详细介绍了如何通过modelscope和huggingface-cli下载模型和数据集，并展示了如何在Docker环境中构建和启动容器进行模型训练。文章还涉及了微调前的推理过程、数据集和训练参数的设置，以及训练过程中的日志和资源使用情况。最后，提到了一些常见问题的解决方法，如环境变量设置和wandb的配置。

Triton-Lang在Transformer优化加速中的实践

Triton是OpenAI 推出的以python为编程语言基础，专门为深度学习研发和高性能计算而设计的编程语言和编译器，旨在简化和优化GPU编程的复杂操作，降低高性能优化的门槛。

得物技术

大模型参数高效微调（PEFT）技术解析及微调加速实践

LoRA、QLoRA、AdaLoRA、SoRA实践，Unsloth实践。

58同城技术