AI工程:Fine-tuning
微调之后还能做什么?大模型后训练全链路技术解析
后训练在预训练模型基础上,通过微调和对齐提升特定任务表现。随着模型规模扩大,后训练扩展律成为突破点,强化学习在推理能力提升中发挥关键作用。常见方法包括全量与部分微调、对齐技术及强化学习策略优化。推理阶段通过慢思考与CoT等策略优化模型表现。后训练结合SFT与RL,推动模型性能持续提升。
超清分辨率文生图模型微调实践
探索了FLUX.1-dev模型在原生2k分辨率图片生成上的微调经验。通过超清图片微调和多分辨率混合训练,解决了位置编码外推和细节缺失问题,提升了模型生成超清图片的质量。微调后的模型在发丝、眼睛等细节上表现优异,兼容社区LoRA,未来将拓展更多艺术风格和高质量打标,进一步提升美学性和人物质量。
使用RAG技术构建企业级文档问答系统:生成优化(2)使用Unsloth对LLM进行微调
Unsloth微调Qwen3-1.7B实战:垂直领域效果提升显著!通过混合精度训练显存仅需模型16倍大小,1.7B小模型微调后得分从0.7跃至0.78,逼近7B量化版性能。微调侧重风格学习而非知识注入,配合RAG效果更佳。附Colab教程和HuggingFace模型,GTX1080Ti也能跑!
SAP——基于拆分与私有化框架的语言模型隐私保护微调方案
在大模型即服务(LMaaS)背景下,隐私保护成为关键挑战。字节跳动、香港城市大学、清华大学和南京大学的研究团队提出Split-and-Privatize(SAP)框架,结合拆分学习与差分隐私技术,有效平衡隐私与模型性能。SAP通过贡献令牌识别(CTI)方法,自适应调整隐私噪声,显著提升隐私保护能力,同时保持模型效用。实验表明,SAP在多个数据集上表现优异,为语言模型隐私保护提供了新思路。
In-depth guide to fine-tuning LLMs with LoRA and QLoRA
大型语言模型如GPT-4在NLP领域广泛应用,但训练成本高昂。PEFT(参数高效微调)技术如LoRA、QLoRA等,通过减少可训练参数,显著降低训练时间和成本,适用于多任务和多用户场景。LoRA通过引入小矩阵更新模型权重,QLoRA结合低精度存储和高精度计算,进一步优化内存使用。这些技术使模型在保持高性能的同时,大幅提升训练效率,适合企业级应用。
大模型微调知识与实践分享
大模型微调全攻略来啦!从模型结构、参数量到显存计算,一文带你具象认识LLM。重点解析Prompt工程、数据构造和LoRA微调等关键技术,手把手教你用开源框架进行实践。还附赠推理加速技巧和效果评估方法,助你快速打造专属领域模型。无论是技术原理还是实操细节,这篇干货都能满足你的需求~
Optimizing LLMs: Fine-Tuning with Function Calling
本文探讨了如何通过微调GPT模型来构建一个医疗预约助手,帮助患者确认预约、发送提醒和安排回电。详细介绍了微调数据的结构化格式,包括角色定义、函数调用和参数设置。提供了完整的对话示例和函数定义,展示了如何在推理时处理函数调用。通过代码示例,演示了如何使用微调模型进行对话模拟,确保模型能够高效处理结构化任务,提升用户体验。
How to Fine-tune Florence-2 for Object Detection Tasks
微软开源的Florence-2是一款轻量级视觉语言模型,具备强大的零样本和微调能力,适用于图像描述、目标检测等任务。通过LoRA技术,可以在有限计算资源下高效微调模型。本文详细介绍了如何在自定义数据集上微调Florence-2,并评估其性能。尽管在目标检测上不如YOLO等专用模型,但Florence-2的多任务能力使其在复杂场景中具有独特优势。
Fine-Tune Gemma 3: A Step-by-Step Guide With Financial Q&A Dataset
本文介绍了如何微调Gemma模型以提升其在金融推理数据集上的准确性,并适配数据集的风格。同时,探讨了使用PyTorch和Hugging Face开发大语言模型(LLMs)的最新深度学习与NLP技术。此外,还涉及了使用TorchTune微调Llama模型、量化等高效微调技术,以及利用OpenAI的嵌入模型解锁语义搜索和推荐引擎等高级AI应用。
Fine-Tuning Gemma 3 VLM using QLoRA for LaTeX-OCR Dataset
本文介绍了如何通过QLoRA和TRL技术对Gemma 3模型进行微调,以优化其在视觉语言任务中的表现,特别是从图像生成LaTeX公式。文章详细讲解了数据集准备、模型配置及微调过程,展示了微调前后模型生成LaTeX公式的对比,证明了微调对提升模型准确性的显著效果。
Fine-Tuning Gemma 3 1B-IT for Financial Sentiment Analysis: A Step-by-Step Guide
Google最新推出的Gemma 3系列AI模型,轻量高效,支持多语言和多模态任务。本文详细介绍了如何利用FinancialPhraseBank数据集,通过PEFT和LoRA技术对Gemma 3 1B-IT模型进行微调,使其在金融情感分析任务中表现显著提升,准确率从55%提升至85%。微调后的模型在资源受限环境下表现出色,适合快速推理和部署。
Fine-tuning a reasoning model with GRPO for passport data extraction
本文探讨了如何通过GRPO技术优化护照信息提取模型。传统OCR方法在处理格式多样性和多语言文本时存在局限,而GRPO通过强化学习提升模型的推理能力,显著提高了提取准确性。实验表明,结合SFT和GRPO的模型在结构化字段提取上表现优异,尤其改善了MRZ数据的准确性。该方法为复杂文档处理提供了新思路,但仍有优化空间。
A Step-by-Step Guide to Creating a Custom Vision-Language Dataset for Fine-Tuning Qwen-2-VL with LLaMA-Factory
本文将指导如何为Qwen-2-VL视觉语言模型创建定制数据集,并使用LLaMA-Factory进行微调。首先,准备合同文档图片并生成问答对,利用GPT-4模型自动生成问题与答案。接着,将数据集上传至Hugging Face Hub,最后配置并运行微调脚本。该流程适用于文档视觉问答等任务,帮助构建专用模型,提升性能。
Fine-tuning Embeddings for Specific Domains: A Comprehensive Guide
在医学领域构建问答系统时,通用嵌入模型可能难以处理专业术语。本文探讨了如何通过微调嵌入模型(如Bge-base-en)来优化特定领域的检索效果。通过生成领域特定数据集,使用Matryoshka损失函数进行训练,模型能更好地理解领域语言,提升问答和检索任务的准确性。最终,微调后的模型在评估中表现显著提升,适合资源有限的应用场景。
从DeepSeek到Manus:如何实现本地LLM微调+联网开发?
本文深入探讨了AI大模型在本地微调和联网功能开发中的技术细节与应用场景。通过LLaMA-Factory框架,展示了如何将通用大模型微调为特定领域专家,并结合实际业务场景,如APK病毒检测、网址安全检测等,探索了AI在垂直领域的应用潜力。未来,AI技术将更加注重垂直领域的深耕与多模态应用的理性选择,推动技术与业务的深度融合。
从零开始的DeepSeek微调训练实战(SFT)
本文介绍了如何使用unsloth框架对DeepSeek R1 Distill 7B模型进行高效微调,特别是针对医疗推理数据集的微调实验。通过最小可行性实验,初步验证了微调的效果,并逐步扩展到完整数据集进行大规模微调。微调后的模型在回答医学问题时表现更加规范,但仍需进一步优化。最终,模型权重被合并保存,为后续应用打下基础。