话题AI工程 › Fine-tuning

AI工程:Fine-tuning

关联话题: 微调、Supervised Fine-Tuning、SFT、监督微调

多模态大模型结合强化学习的模式探讨

多模态大模型与强化学习的融合正掀起AI新浪潮!从视觉推理到复杂数学计算,通过规则奖励微调、分阶段训练等创新方法,模型在精准定位、逻辑推理等任务上表现惊艳。GRPO等策略让模型学会"思考",而自适应推理、分层评估等方向将推动技术更智能、更可靠。这场"看懂世界+做出决策"的智能革命,正在重新定义AI的边界。

破解集合价值建模与实时推理难题:生成式召回大模型的工业级落地实践 | 搜索广告AI大模型创新实践

阿里妈妈搜索广告团队创新推出GFlowGR、NEZHA和VALUE三大技术,解决生成式召回中的价值差异化建模、实时推理延迟和语义质量平衡难题。GFlowGR通过GFlowNet框架实现商品价值精准度量,NEZHA采用轻量解码架构达成毫秒级响应,VALUE则结合加权Trie树兼顾语义与商业价值。这些技术已在阿里妈妈搜索广告主场景全量上线,带来大盘营收显著提升8%。

淘宝搜索算法:推理范式下生成式检索应用

大语言模型在电商领域的应用展现了显著优势,通过构建个性化生成式推理模型,深入分析用户属性、搜索词和行为序列,精准推断用户意图并生成商品推荐。优化方案从语义ID、PreSFT和SFT三阶段入手,提升模型表现。实验结果显示,成交笔数和金额均有增长,验证了生成式召回范式的潜力。未来将探索双LLM架构和RL技术,进一步提升模型能力。

LlamaIndex 深度实战:用《长安的荔枝》学会构建智能问答系统

本文深入探讨了RAG技术原理及LlamaIndex实战应用,通过《长安的荔枝》案例,详细解析了AI如何像人类一样“读书”。从基础概念到实战代码,再到参数优化与系统架构,全面展示了如何构建高效问答系统。此外,还介绍了如何通过AgentBay扩展RAG功能,实现多源信息整合与自动化操作。

高德生成式推荐大模型|用技术预估你接下来想做什么

高德地图推出G-Action生成式行为推荐框架,通过AI大模型预测用户出行意图。该技术结合时空、天气等实时数据,用自然语言理解用户行为流,精准推荐"动作+地点"组合。相比传统推荐,模型在Action预测准确率提升8.1%,并实现语义连贯的个性化推荐,如自动关联"导航-团购-评价"行为链。目前已在到店卡等场景取得显著效果,未来将持续优化多目标预估能力。

从CoT到AGI:深扒大模型LLM“深度思考”的技术演进

大模型通过深度思考展现复杂推理能力,其核心在于Transformer架构的自回归预测和足够大的参数规模。深度思考减少幻觉,提升模型推理准确性。CoT等技术通过外部引导释放模型潜力,RLHF则进一步对齐人类偏好。未来探索聚焦原子性思考、垂类结构和In-Context Learning新范式,推动AI向AGI迈进。

基于大模型增强的少样本学习在用户投诉意图感知中的应用

5G时代网络投诉处理面临少样本识别难题,传统小模型泛化能力不足,大模型又缺乏领域知识。创新方案来了!通过大模型生成高质量模拟样本,结合小模型反馈迭代优化,成功提升少样本投诉识别准确率21%,整体提升9%。实验证明,这种大小模型协同的增强学习框架既实用又高效,为通信领域智能化运维提供了新思路。

多场景统一大模型微调方案

信也科技通过微调30B MOE模型,统一客服对话小结生成逻辑,替代原有多个模型的复杂方案。优化后,模型调用次数减少75%,处理耗时降低70%,GPU资源占用减少66%。微调模型在正确性、指令遵循和幻觉抑制上均优于原方案,实现了降本增效和架构简化。该方案还可拓展至电销标签标记任务,表现出MOE模型在多任务SFT中的潜力。

让AI读懂代码需求:大模型微调训练实践及端侧运行部署

高德终端团队在代码仓库升级中,面临版本跨越大、代码更新多的挑战。为解决研发效率问题,开发了基于code RAG和code Agent的提效工具,但仍存在召回率、准确率及稳定性问题。通过大模型微调,重点学习代码模块,简化任务,提升推理准确性,最终实现78%的综合准确率,并在mac端成功部署,满足端侧运行需求。

Fine-tuning with gpt-oss and Hugging Face Transformers

小编带你了解如何微调OpenAI的GPT-OSS-20B模型,使其支持多语言推理。通过引入“推理语言”选项,结合TRL库和LoRA技术,模型能在英语、西班牙语、法语等多语言中生成推理链。微调过程包括安装库、准备数据集、配置模型、训练及推理。最终模型能根据用户选择的语言进行推理,提升用户体验。

Qwen3 x ms-swift:监督微调在居住服务行业的一次实践

大模型微调在租房平台意图识别场景中展现显著优势,通过Qwen3-8B模型微调,准确率提升至94.5%,远超传统方法。微调不仅优化了模型性能,还降低了延迟,满足了实时交互需求。数据质量和多样性是微调成功的关键,少量高质量数据也能带来显著效果。ms-swift框架简化了训练流程,支持多尺寸模型微调,为业务提供了高效、低成本的解决方案。

微调之后还能做什么?大模型后训练全链路技术解析

后训练在预训练模型基础上,通过微调和对齐提升特定任务表现。随着模型规模扩大,后训练扩展律成为突破点,强化学习在推理能力提升中发挥关键作用。常见方法包括全量与部分微调、对齐技术及强化学习策略优化。推理阶段通过慢思考与CoT等策略优化模型表现。后训练结合SFT与RL,推动模型性能持续提升。

超清分辨率文生图模型微调实践

探索了FLUX.1-dev模型在原生2k分辨率图片生成上的微调经验。通过超清图片微调和多分辨率混合训练,解决了位置编码外推和细节缺失问题,提升了模型生成超清图片的质量。微调后的模型在发丝、眼睛等细节上表现优异,兼容社区LoRA,未来将拓展更多艺术风格和高质量打标,进一步提升美学性和人物质量。

使用RAG技术构建企业级文档问答系统:生成优化(2)使用Unsloth对LLM进行微调

Unsloth微调Qwen3-1.7B实战:垂直领域效果提升显著!通过混合精度训练显存仅需模型16倍大小,1.7B小模型微调后得分从0.7跃至0.78,逼近7B量化版性能。微调侧重风格学习而非知识注入,配合RAG效果更佳。附Colab教程和HuggingFace模型,GTX1080Ti也能跑!

SAP——基于拆分与私有化框架的语言模型隐私保护微调方案

在大模型即服务(LMaaS)背景下,隐私保护成为关键挑战。字节跳动、香港城市大学、清华大学和南京大学的研究团队提出Split-and-Privatize(SAP)框架,结合拆分学习与差分隐私技术,有效平衡隐私与模型性能。SAP通过贡献令牌识别(CTI)方法,自适应调整隐私噪声,显著提升隐私保护能力,同时保持模型效用。实验表明,SAP在多个数据集上表现优异,为语言模型隐私保护提供了新思路。

In-depth guide to fine-tuning LLMs with LoRA and QLoRA

大型语言模型如GPT-4在NLP领域广泛应用,但训练成本高昂。PEFT(参数高效微调)技术如LoRA、QLoRA等,通过减少可训练参数,显著降低训练时间和成本,适用于多任务和多用户场景。LoRA通过引入小矩阵更新模型权重,QLoRA结合低精度存储和高精度计算,进一步优化内存使用。这些技术使模型在保持高性能的同时,大幅提升训练效率,适合企业级应用。

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.148.2. UTC+08:00, 2025-12-13 04:54
浙ICP备14020137号-1 $访客地图$