AI工程:Fine-tuning
Fancy Video Generation:百万量级高优质视频量产实践总结
高德扫街榜通过AI技术生成Fancy视频,提升POI信息的动态表现力。从美食、景点到酒店,视频遵循物理逻辑,增强视觉审美。采用SFT、RL和DMD蒸馏等技术优化模型,确保高效、高质量的视频生成。自动化筛选和上线流程简化操作,扩大覆盖范围,让技术服务于生活,缩短用户与目的地的感知距离。
GenAI输出内容控制的5种设计模式
这篇干货分享了五种控制AI生成内容的设计模式:Logits掩码通过规则干预token选择,确保品牌一致性和合规性;语法模式用BNF约束输出格式,适合结构化数据;样式转换借助示例调整风格;逆向中和先生成中性内容再转换风格;内容优化基于偏好调优产出更优结果。每种模式各有适用场景,开发者可根据需求灵活选择。
深入vLLM大模型推理引擎源码:Multi-LoRA启动、加载、推理过程详解
vLLM 0.8.4 单机单卡启动、加载、推理流程解析,重点剖析 Multi-LoRA 实现原理。从模型加载、LoRA 适配器动态加和到推理请求调度,详细梳理了 LoRA 权重管理及 GPU 资源优化策略。通过源码解读,揭示了 Multi-LoRA 在推理服务中的应用,为构建高效大模型推理平台提供了技术参考。
数据合成篇|多轮ToolUse数据合成打造更可靠的AI导购助手
大语言模型正从被动响应向主动智能体进化,但高质量工具调用数据稀缺。支付宝租赁导购助理"小不懂"采用多智能体动态对话框架,通过"导演-演员"机制生成拟真业务数据,解决复杂场景下的工具协同问题。实验证明,该方法显著提升模型多轮对话理解和工具调用能力,为专业级AI助理提供高质量数据支撑。
大模型在需求分析与设计中的提效实践
AI技术正深度融入产品开发全流程,从需求文档撰写到代码生成,构建起智能开发生态。通过多Agent协作,AI能自动完成模块拆分、数据结构定义和接口设计,生成适配多语言、多框架的代码骨架,大幅提升效率和质量。RAG机制和模型微调进一步增强业务理解能力,确保文档准确性和规范性,推动研发流程智能化闭环。
数据蒸馏技术探索
深度学习时代,数据爆炸与算力瓶颈的矛盾日益突出。数据蒸馏技术应运而生,通过算法将海量数据浓缩为小型高密合成集,在保持模型性能的同时大幅降低存储和训练成本。核心方法包括元学习、参数匹配、分布匹配及生成式参数化四大流派,各具优势。该技术在持续学习、联邦学习等场景展现价值,未来将向多模态扩展,成为AI发展的关键支撑。
淘宝推出ReaSeq:基于世界知识推理的序列建模
推荐系统面临日志驱动范式的瓶颈,ReaSeq框架引入大语言模型,突破两大局限:丰富外部知识、捕捉日志外兴趣。通过推理增强表征与生成式行为推理,ReaSeq提升商品表征质量和用户兴趣感知能力,显著优化CTR模型性能,实现电商场景点击与转化指标的全面提升。
打造社交APP人物动漫化:通义万相wan2.x训练优化指南
本项目为社交APP集成AI特效生成功能,用户上传真人图片即可生成动漫风格跳舞短视频。针对现有AIGC模型的痛点,采用通义万相系列模型进行优化,重点提升动态动作生成、风格一致性控制和视频质量。通过模型选型、数据集构建、LoRA微调和全量训练,最终选择性价比最高的wan2.1 lora模型上线生产环境,实现高效、高质量的视频生成解决方案。
图片分类业务推理性能探索
从53.64ms到8.34ms!我们通过七步优化,将ViT色情图片分类模型的推理性能提升6.4倍。先用ONNX和TensorRT榨干GPU算力,再用OpenCV替换Pillow加速CPU预处理,最后用字节流传输和批处理架构释放并行潜力。每次优化都精准打击当前瓶颈,最终实现单图处理耗时仅8.34ms的极致性能!
UI 走查这件事,90% 问题都写在 DevTools 里
UI走查中,95%的问题源于间距不准确,肉眼难以量化,沟通效率低。DevTools作为设计师与前端共同的工具,能实时查看和修改页面样式,精准定位问题。通过盒模型、样式面板和布局面板,设计师可快速验证对齐、间距、字体等细节,提出优化方案,提升走查效率和协作效果。
多模态大模型结合强化学习的模式探讨
多模态大模型与强化学习的融合正掀起AI新浪潮!从视觉推理到复杂数学计算,通过规则奖励微调、分阶段训练等创新方法,模型在精准定位、逻辑推理等任务上表现惊艳。GRPO等策略让模型学会"思考",而自适应推理、分层评估等方向将推动技术更智能、更可靠。这场"看懂世界+做出决策"的智能革命,正在重新定义AI的边界。
破解集合价值建模与实时推理难题:生成式召回大模型的工业级落地实践 | 搜索广告AI大模型创新实践
阿里妈妈搜索广告团队创新推出GFlowGR、NEZHA和VALUE三大技术,解决生成式召回中的价值差异化建模、实时推理延迟和语义质量平衡难题。GFlowGR通过GFlowNet框架实现商品价值精准度量,NEZHA采用轻量解码架构达成毫秒级响应,VALUE则结合加权Trie树兼顾语义与商业价值。这些技术已在阿里妈妈搜索广告主场景全量上线,带来大盘营收显著提升8%。
淘宝搜索算法:推理范式下生成式检索应用
大语言模型在电商领域的应用展现了显著优势,通过构建个性化生成式推理模型,深入分析用户属性、搜索词和行为序列,精准推断用户意图并生成商品推荐。优化方案从语义ID、PreSFT和SFT三阶段入手,提升模型表现。实验结果显示,成交笔数和金额均有增长,验证了生成式召回范式的潜力。未来将探索双LLM架构和RL技术,进一步提升模型能力。
LlamaIndex 深度实战:用《长安的荔枝》学会构建智能问答系统
本文深入探讨了RAG技术原理及LlamaIndex实战应用,通过《长安的荔枝》案例,详细解析了AI如何像人类一样“读书”。从基础概念到实战代码,再到参数优化与系统架构,全面展示了如何构建高效问答系统。此外,还介绍了如何通过AgentBay扩展RAG功能,实现多源信息整合与自动化操作。
高德生成式推荐大模型|用技术预估你接下来想做什么
高德地图推出G-Action生成式行为推荐框架,通过AI大模型预测用户出行意图。该技术结合时空、天气等实时数据,用自然语言理解用户行为流,精准推荐"动作+地点"组合。相比传统推荐,模型在Action预测准确率提升8.1%,并实现语义连贯的个性化推荐,如自动关联"导航-团购-评价"行为链。目前已在到店卡等场景取得显著效果,未来将持续优化多目标预估能力。
从CoT到AGI:深扒大模型LLM“深度思考”的技术演进
大模型通过深度思考展现复杂推理能力,其核心在于Transformer架构的自回归预测和足够大的参数规模。深度思考减少幻觉,提升模型推理准确性。CoT等技术通过外部引导释放模型潜力,RLHF则进一步对齐人类偏好。未来探索聚焦原子性思考、垂类结构和In-Context Learning新范式,推动AI向AGI迈进。