AI工程：Fine-tuning的相关资料

Fine-tuning a reasoning model with GRPO for passport data extraction

本文探讨了如何通过GRPO技术优化护照信息提取模型。传统OCR方法在处理格式多样性和多语言文本时存在局限，而GRPO通过强化学习提升模型的推理能力，显著提高了提取准确性。实验表明，结合SFT和GRPO的模型在结构化字段提取上表现优异，尤其改善了MRZ数据的准确性。该方法为复杂文档处理提供了新思路，但仍有优化空间。

A Step-by-Step Guide to Creating a Custom Vision-Language Dataset for Fine-Tuning Qwen-2-VL with LLaMA-Factory

本文将指导如何为Qwen-2-VL视觉语言模型创建定制数据集，并使用LLaMA-Factory进行微调。首先，准备合同文档图片并生成问答对，利用GPT-4模型自动生成问题与答案。接着，将数据集上传至Hugging Face Hub，最后配置并运行微调脚本。该流程适用于文档视觉问答等任务，帮助构建专用模型，提升性能。

Fine-tuning Embeddings for Specific Domains: A Comprehensive Guide

在医学领域构建问答系统时，通用嵌入模型可能难以处理专业术语。本文探讨了如何通过微调嵌入模型（如Bge-base-en）来优化特定领域的检索效果。通过生成领域特定数据集，使用Matryoshka损失函数进行训练，模型能更好地理解领域语言，提升问答和检索任务的准确性。最终，微调后的模型在评估中表现显著提升，适合资源有限的应用场景。

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

本文深入探讨了AI大模型在本地微调和联网功能开发中的技术细节与应用场景。通过LLaMA-Factory框架，展示了如何将通用大模型微调为特定领域专家，并结合实际业务场景，如APK病毒检测、网址安全检测等，探索了AI在垂直领域的应用潜力。未来，AI技术将更加注重垂直领域的深耕与多模态应用的理性选择，推动技术与业务的深度融合。

腾讯技术

从零开始的DeepSeek微调训练实战（SFT）

本文介绍了如何使用unsloth框架对DeepSeek R1 Distill 7B模型进行高效微调，特别是针对医疗推理数据集的微调实验。通过最小可行性实验，初步验证了微调的效果，并逐步扩展到完整数据集进行大规模微调。微调后的模型在回答医学问题时表现更加规范，但仍需进一步优化。最终，模型权重被合并保存，为后续应用打下基础。

阿里巴巴技术

单卡4090微调DeepSeek-R1-32B

在24G显存的单卡RTX 4090上，使用unsloth和lora量化微调技术，成功对62G的deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型进行全量微调。训练数据为24772条，共9288步，耗时28小时28分37秒。优化技术显著减少了显存占用，提升了训练效率。

单卡 RTX 4090 用 unsloth 和医学数据微调 DeepSeek-R1-Distill-Qwen-14B

本文详细介绍了如何通过modelscope和huggingface-cli下载模型和数据集，并展示了如何在Docker环境中构建和启动容器进行模型训练。文章还涉及了微调前的推理过程、数据集和训练参数的设置，以及训练过程中的日志和资源使用情况。最后，提到了一些常见问题的解决方法，如环境变量设置和wandb的配置。

From Weak to Strong——OpenAI和DeepSeek基于强化学习的大模型训练微调技术解析

基于强化学习的大模型训练微调技术正推动AI推理能力的显著提升。OpenAI和DeepSeek通过模仿人类慢思考过程，结合RLHF、DPO等方法，优化模型策略与奖励设计，增强复杂问题解决能力。未来，自我训练、高级推理与安全性的结合将进一步突破技术边界，推动AI向AGI迈进。

微调碾压RAG？大模型意图识别工程化实践

智能电视行业在AI领域发力,通过大模型提升用户体验。大模型在意图识别方面碾压传统NLP,解决复杂语境、上下文理解、知识更新等问题。三种方案对比,微调小尺寸模型解决延迟与准确性问题。通过自动质检和自动微调工程链路,持续优化模型。落地效果显著,实现高准确率和低延迟,未来将进一步提升个性化服务。

阿里巴巴技术

大模型微调浅析

随着transformer技术的快速发展，大模型在自然语言处理领域取得了显著成果。然而，这些通用模型在面对特定任务时，往往需要进行进一步的调整和优化。大模型微调（Fine-tuning）作为一种关键的技术手段，能够有效提升模型在特定任务上的表现。本文将从基本概念、常见方法、技术细节、实践案例以及未来挑战等方面，对大模型微调进行介绍。

360技术