ICML25 视频问答中以语言为中心的结构化推理

摘要

多模态大语言模型在视频问答中面临推理不透明和难以控制的挑战。哔哩哔哩Index团队与上海交通大学提出了一种以语言为中心的树状推理(LTR)框架,通过递归分解复杂问题为简单子问题,并自下而上推理,显著提升了模型的准确性和可解释性。实验表明,LTR在11个基准数据集上表现优异,为视频理解开辟了新路径。

欢迎在评论区写下你对这篇文章的看法。

评论

ホーム - Wiki
Copyright © 2011-2025 iteam. Current version is 2.144.3. UTC+08:00, 2025-08-09 17:25
浙ICP备14020137号-1 $お客様$