从多模态大模型中「拆」出音频向量模型

摘要

Google发布Gemini Embedding 2,首个原生多模态向量模型,支持文本、图像、视频、音频和文档映射到3072维向量空间,推动全模态向量模型发展。音频处理在多模态中被忽视,Jina AI团队通过多模态LLM改造,实现高效音频向量模型。模型架构结合音频编码器和LLM,训练数据减少,性能超越CLAP。模块化组合策略验证了跨模型组件拼装的可行性,为未来多模态Agent奠定了基础。

欢迎在评论区写下你对这篇文章的看法。

评论

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.0. UTC+08:00, 2026-03-13 07:36
浙ICP备14020137号-1 $访客地图$