AI工程：Fine-tuning的相关资料

Optimizing LLMs: Fine-Tuning with Function Calling

本文探讨了如何通过微调GPT模型来构建一个医疗预约助手，帮助患者确认预约、发送提醒和安排回电。详细介绍了微调数据的结构化格式，包括角色定义、函数调用和参数设置。提供了完整的对话示例和函数定义，展示了如何在推理时处理函数调用。通过代码示例，演示了如何使用微调模型进行对话模拟，确保模型能够高效处理结构化任务，提升用户体验。

How to Fine-tune Florence-2 for Object Detection Tasks

微软开源的Florence-2是一款轻量级视觉语言模型，具备强大的零样本和微调能力，适用于图像描述、目标检测等任务。通过LoRA技术，可以在有限计算资源下高效微调模型。本文详细介绍了如何在自定义数据集上微调Florence-2，并评估其性能。尽管在目标检测上不如YOLO等专用模型，但Florence-2的多任务能力使其在复杂场景中具有独特优势。

Fine-Tune Gemma 3: A Step-by-Step Guide With Financial Q&A Dataset

本文介绍了如何微调Gemma模型以提升其在金融推理数据集上的准确性，并适配数据集的风格。同时，探讨了使用PyTorch和Hugging Face开发大语言模型（LLMs）的最新深度学习与NLP技术。此外，还涉及了使用TorchTune微调Llama模型、量化等高效微调技术，以及利用OpenAI的嵌入模型解锁语义搜索和推荐引擎等高级AI应用。

Fine-Tuning Gemma 3 VLM using QLoRA for LaTeX-OCR Dataset

本文介绍了如何通过QLoRA和TRL技术对Gemma 3模型进行微调，以优化其在视觉语言任务中的表现，特别是从图像生成LaTeX公式。文章详细讲解了数据集准备、模型配置及微调过程，展示了微调前后模型生成LaTeX公式的对比，证明了微调对提升模型准确性的显著效果。

Fine-Tuning Gemma 3 1B-IT for Financial Sentiment Analysis: A Step-by-Step Guide

Google最新推出的Gemma 3系列AI模型，轻量高效，支持多语言和多模态任务。本文详细介绍了如何利用FinancialPhraseBank数据集，通过PEFT和LoRA技术对Gemma 3 1B-IT模型进行微调，使其在金融情感分析任务中表现显著提升，准确率从55%提升至85%。微调后的模型在资源受限环境下表现出色，适合快速推理和部署。

Fine-tuning a reasoning model with GRPO for passport data extraction

本文探讨了如何通过GRPO技术优化护照信息提取模型。传统OCR方法在处理格式多样性和多语言文本时存在局限，而GRPO通过强化学习提升模型的推理能力，显著提高了提取准确性。实验表明，结合SFT和GRPO的模型在结构化字段提取上表现优异，尤其改善了MRZ数据的准确性。该方法为复杂文档处理提供了新思路，但仍有优化空间。

A Step-by-Step Guide to Creating a Custom Vision-Language Dataset for Fine-Tuning Qwen-2-VL with LLaMA-Factory

本文将指导如何为Qwen-2-VL视觉语言模型创建定制数据集，并使用LLaMA-Factory进行微调。首先，准备合同文档图片并生成问答对，利用GPT-4模型自动生成问题与答案。接着，将数据集上传至Hugging Face Hub，最后配置并运行微调脚本。该流程适用于文档视觉问答等任务，帮助构建专用模型，提升性能。

Fine-tuning Embeddings for Specific Domains: A Comprehensive Guide

在医学领域构建问答系统时，通用嵌入模型可能难以处理专业术语。本文探讨了如何通过微调嵌入模型（如Bge-base-en）来优化特定领域的检索效果。通过生成领域特定数据集，使用Matryoshka损失函数进行训练，模型能更好地理解领域语言，提升问答和检索任务的准确性。最终，微调后的模型在评估中表现显著提升，适合资源有限的应用场景。

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

本文深入探讨了AI大模型在本地微调和联网功能开发中的技术细节与应用场景。通过LLaMA-Factory框架，展示了如何将通用大模型微调为特定领域专家，并结合实际业务场景，如APK病毒检测、网址安全检测等，探索了AI在垂直领域的应用潜力。未来，AI技术将更加注重垂直领域的深耕与多模态应用的理性选择，推动技术与业务的深度融合。

腾讯技术

从零开始的DeepSeek微调训练实战（SFT）

本文介绍了如何使用unsloth框架对DeepSeek R1 Distill 7B模型进行高效微调，特别是针对医疗推理数据集的微调实验。通过最小可行性实验，初步验证了微调的效果，并逐步扩展到完整数据集进行大规模微调。微调后的模型在回答医学问题时表现更加规范，但仍需进一步优化。最终，模型权重被合并保存，为后续应用打下基础。

阿里巴巴技术

单卡4090微调DeepSeek-R1-32B

在24G显存的单卡RTX 4090上，使用unsloth和lora量化微调技术，成功对62G的deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型进行全量微调。训练数据为24772条，共9288步，耗时28小时28分37秒。优化技术显著减少了显存占用，提升了训练效率。

单卡 RTX 4090 用 unsloth 和医学数据微调 DeepSeek-R1-Distill-Qwen-14B

本文详细介绍了如何通过modelscope和huggingface-cli下载模型和数据集，并展示了如何在Docker环境中构建和启动容器进行模型训练。文章还涉及了微调前的推理过程、数据集和训练参数的设置，以及训练过程中的日志和资源使用情况。最后，提到了一些常见问题的解决方法，如环境变量设置和wandb的配置。

From Weak to Strong——OpenAI和DeepSeek基于强化学习的大模型训练微调技术解析

基于强化学习的大模型训练微调技术正推动AI推理能力的显著提升。OpenAI和DeepSeek通过模仿人类慢思考过程，结合RLHF、DPO等方法，优化模型策略与奖励设计，增强复杂问题解决能力。未来，自我训练、高级推理与安全性的结合将进一步突破技术边界，推动AI向AGI迈进。

微调碾压RAG？大模型意图识别工程化实践

智能电视行业在AI领域发力,通过大模型提升用户体验。大模型在意图识别方面碾压传统NLP,解决复杂语境、上下文理解、知识更新等问题。三种方案对比,微调小尺寸模型解决延迟与准确性问题。通过自动质检和自动微调工程链路,持续优化模型。落地效果显著,实现高准确率和低延迟,未来将进一步提升个性化服务。

阿里巴巴技术

大模型微调浅析

随着transformer技术的快速发展，大模型在自然语言处理领域取得了显著成果。然而，这些通用模型在面对特定任务时，往往需要进行进一步的调整和优化。大模型微调（Fine-tuning）作为一种关键的技术手段，能够有效提升模型在特定任务上的表现。本文将从基本概念、常见方法、技术细节、实践案例以及未来挑战等方面，对大模型微调进行介绍。

360技术

如何微调（Fine-tuning）大语言模型？

本文介绍了微调的基本概念，以及如何对语言模型进行微调。

阿里巴巴技术