MediaFM: The Multimodal AI Foundation for Media Understanding at Netflix
摘要
Netflix开发了首个三模态(音频、视频、文本)内容嵌入模型MediaFM,通过整合视觉、音频和文本信息,生成丰富的上下文嵌入,用于理解长视频中的叙事结构和情感变化。MediaFM采用Transformer架构,并通过自监督任务训练,显著提升了广告相关性、片段流行度预测等任务的表现。该模型不仅优化了内容推荐,还为内部分析工具提供了强大支持,展现了多模态融合在视频理解中的潜力。