框架与类库:unsloth
DeepSeek R1范式复现笔记
本文探讨了DeepSeek R1系列技术的复现与优化,重点分析了多个开源项目在数学和逻辑题领域的应用。通过实验验证,强化学习在提升模型推理能力方面效果显著,但小模型在复杂任务上表现有限。未来需优化RL框架,提升多机训练效率,并确保思维链质量不退化,以推动长思考模型在实际业务中的应用。
Zed now predicts your next edit with Zeta, our new open model
Zed编辑器推出全新编辑预测功能,由开源模型Zeta驱动。Zeta基于Qwen2.5-Coder-7B微调,支持多位置编辑预测,用户可通过按tab
键快速应用预测。Zed通过提示工程、监督微调和直接偏好优化提升模型表现,并结合推测解码技术降低延迟。编辑预测与语言服务器补全无缝集成,支持macOS和Linux平台。Zed团队持续优化模型,计划扩展数据集并增加更多区域支持。
单卡4090微调DeepSeek-R1-32B
在24G显存的单卡RTX 4090上,使用unsloth和lora量化微调技术,成功对62G的deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型进行全量微调。训练数据为24772条,共9288步,耗时28小时28分37秒。优化技术显著减少了显存占用,提升了训练效率。
单卡 RTX 4090 用 unsloth 和医学数据微调 DeepSeek-R1-Distill-Qwen-14B
本文详细介绍了如何通过modelscope和huggingface-cli下载模型和数据集,并展示了如何在Docker环境中构建和启动容器进行模型训练。文章还涉及了微调前的推理过程、数据集和训练参数的设置,以及训练过程中的日志和资源使用情况。最后,提到了一些常见问题的解决方法,如环境变量设置和wandb的配置。
Triton-Lang在Transformer优化加速中的实践
Triton是OpenAI 推出的以python为编程语言基础,专门为深度学习研发和高性能计算而设计的编程语言和编译器,旨在简化和优化GPU编程的复杂操作,降低高性能优化的门槛。
大模型参数高效微调(PEFT)技术解析及微调加速实践
LoRA、QLoRA、AdaLoRA、SoRA实践,Unsloth实践。
- «
- 1
- »