带你认识微信多模态大模型 POINTS

出处：mp.weixin.qq.com

摘要

近来，随着大型语言模型的发展，视觉语言大型模型的能力也在逐步增强，GPT-4、Gemini Pro 1.5和Claude 3等著名的闭源模型成功将 LLM 扩展到视觉语言模型领域。LLaVA，InternVL等开源模型也在迅速发展。目前，视觉语言模型领域存在一些关键问题亟待解决：1）闭源模型很少公开关于其架构的详细信息。相比之下，开源模型虽公开了其训练策略，但这些策略的详细消融并没有完全披露。2）在目前的开源工作中，对于预训练阶段，大多都是凭经验添加不同来源的数据集，这使得预训练过程难以得到深入的探索。3）在微调阶段，绝大多数工作关注的重点通常是添加和消融更多的数据集，这样性能会较快触及瓶颈。我们针对以上几点给出了我们的方案，并进行了清晰充分的实验论证。

阅读原文

xiaozi 于 2024-09-23 分享

4266

关联话题： #腾讯

欢迎在评论区写下你对这篇文章的看法。

带你认识微信多模态大模型 POINTS

带你认识微信多模态大模型 POINTS

摘要

评论

文库