Step-Video 开源模型:视频生成基础模型的最新进展、挑战与未来展望

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 段楠 阶跃星辰 2025-04-10
2. Outline • Step-Video-T2V • Step-Video-TI2V
3.
4. Step-Video-T2V (30B) Human Labeled Results Denoised Latent Frames Latent Frames Video-VAE Encoder DiT w/ 3D Full Attention Bilingual Text Encoder(s) User Prompt Gaussian Noise Video-DPO
5. Step-Video-T2V: Video-VAE
6. Step-Video-T2V: DiT 𝑖 𝑡ℎ block Scale FFN Scale/Shift CLIP Text Encoder LLM Cross-Attention QK-Norm User Prompt Scale Self-Attention RoPE-3D QK-Norm Scale/Shift 𝑧 𝑡 AdaLN-Single Timestep 𝑡
7. Step-Video-T2V: Video-DPO
8. Step-Video-T2V: System Optimization
9. Step-Video-T2V: Data
10. Step-Video-T2V: Pre-training
11. Step-Video-T2V: Evaluation • 人工评测集: Step-Video-T2V-Eval • 128条人工手写prompts,覆盖运动、美食、美景、动物、节日、组合概念、超现实、人物、3D卡通、运镜、风格等11类。 • 人工评测准则 维度 5分评分标准 4分评分标准 3分评分标准 2分评分标准 1分评分标准 指令遵循 视频与prompt完全一 致,所有元素和细节都 精确生成,复杂情景的 表达无误。 视频内容大致吻合,但某些次 要细节存在轻微偏差。 视频基本符合prompt要求,但 多个细节或核心内容偏差明显。 视频与prompt明显不符,存在 重要细节遗漏或整体偏差。 视频与prompt完全不符,主 要场景或主体完全错误。 运动平滑性 动作流畅自然,所有移 动和过渡都自然。 动作大体流畅,但某些场景中 偶有轻微不自然的动作。 动作存在轻微不自然或卡顿的 现象,但不影响整体理解。 动作不自然或不连贯,出现明 显卡顿现象。 动作非常不自然,频繁卡顿, 难以理解。 物理合理性 所有物体交互和运动符 合现实物理定律,光影 和碰撞效果精确,动作 连贯。 大部分物理表现合理,偶有轻 微不自然的碰撞或光影,但不 影响整体效果。 多处物体运动、光影或交互与 物理逻辑不符,但主要动作仍 有一定连贯性。 物理表现不合理,光影或物体 交互违背物理定律,场景显得 不自然。 物理表现完全错误,物体交 互或光影严重失真,导致场 景难以理解。 美感度 极具吸引力,能够深深 打动观众,具有高度的 艺术价值和观赏性。 令人愉悦,能够吸引观众的注 意力,具有较高的观赏价值。 有一定吸引力,但整体表现平 平,未能留下深刻印象。 一般,缺乏吸引力,可能会导 致观众失去兴趣。 令人不快,缺乏吸引力,整 体效果让人失望。 • 人工评测结果 (6名外部标注人员,独立盲测对比Step-Video-T2V和国内一线视频生成产品) 1. 2. 3. Step-Video-T2V在复杂运动生成、美感人物生成、视觉想象能力、基础文字生成和原生中英双语等维度具有state-of-the-art水平 Step-Video-T2V在视频整体美感度和清晰度仍有提升空间,后续会持续整理加入高质量视频数据和采用视频超分模块 包括Step-Video-T2V在内的所有视频生成模型均无法合理建模物理规律,后续会探索新型视频生成范式
12. Step-Video-T2V: Result
13. 复杂运动生成
14. 美感人物生成 林黛玉身穿汉服,正坐在梳妆台前整理妆容 一位女性在录音棚内对着麦克风,头戴耳机,自弹自唱。她穿着卡其色吊 带和黑色长裙,脖子上戴着黑色颈圈。吉他是深棕色的,琴弦是浅绿色的。 背景是砖墙和部分木墙,光线从右侧窗户照射进来。镜头从平视拍摄开始, 聚焦于女性和她手中的吉他。她眼神专注,面带微笑,手指灵活地拨动琴 弦,同时轻声哼唱。随着歌曲的进行,镜头逐渐拉近,变焦到吉他部分, 突出了她熟练的演奏技巧。
15. 视觉想象能力 小黄人坐在闪电麦昆身上,闪电麦昆在北京的马路上快速行驶 站在方形石台上的一个古希腊雕像突然活了过来,她走下石台,向着周围 的观众招手,大家纷纷拿出手机来拍摄,镜头从远拉近给到雕像头部的特 写
16. 基础文字生成 一名宇航员在月球上发现一块石碑,上面印有“stepfun”字样,闪闪发光 采用 3D 动画风格,视频中,慢慢显现出了“Year of Snake, 2025”的字样, 天空中绽放出绚烂的烟花。2025字样晶莹剔透泛着金光,地板上反射着 它的倒影,背景是黑色的地板。一条卡通蛇戴着一副酷炫的黑色墨镜不断 扭动身体,镜片上反射着舞台的灯光。画面采用固定机头,动画风格,展 现了蛇年过年喜庆热闹的氛围。
17. 原生中英双语 A cinematic, high-action tracking shot follows an incredibly cute dachshund wearing swimming goggles as it leaps into a crystal-clear pool. The camera plunges underwater with the dog, capturing the joyful moment of submersion and the ensuing flurry of paddling with adorable little paws. Sunlight filters through the water, illuminating the dachshund's sleek, wet fur and highlighting the determined expression on its face. The shot is filled with the vibrant blues and greens of the pool water, creating a dynamic and visually stunning sequence that captures the pure joy and energy of the swimming dachshund.
18. Step-Video-T2V: Open Source https://github.com/stepfun-ai/Step-Video-T2V https://yuewen.cn/videos
19. Outline • Step-Video-T2V • Step-Video-TI2V
20. Step-Video-TI2V (30B) 𝑖 𝑡ℎ block Scale FFN Scale/Shift CLIP Text Encoder LLM Timestep 𝑡 Cross-Attention QK-Norm User Prompt Scale Noisy Input Self-Attention AdaLN-Single User Specified (Inference) Motion Score m OpenCV Optical Flow RoPE-3D QK-Norm Image Condition Channel Concatenation with Zero-Padding Scale/Shift 𝑧 𝑡 (Training)
21. Step-Video-T2V: Evaluation • 人工评测集: Step-Video-TI2V-Eval • 298张多样化图片,覆盖真实和动漫两大类场景,每张附带人工手写prompt,重点描述期望的主题动作和镜头运动。 • 人工评测准则 标注任务 • 输入:综合对比两个模型的生成视频在某个对比维度上的优劣 • 输出:“胜-平-负” 指令遵循 • • • • • 综合对比两个模型是否按输入指令生成对应动作、镜头运动、物体、表情、效果等。 如果生成视频中镜头运动不正确,需要做适当惩罚。 如果生成视频中运动没有按指令完成或幅度很小(例如不动或类ppt播放),需要做适当惩罚。 如果生成视频中缺少指令所描述的元素,需要做适当惩罚。 若无法评价优劣,则给“平”。 主体和背景一致性 • • • • • 综合对比两个模型生成的视频是否在主体和背景上和输入图像保持一致。 如果生成视频中主体或背景风格变化较大,需要做适当惩罚。 如果生成视频中出现场景切换但输入指令并未要求,需要做适当惩罚。 如果生成视频中人脸一致性变化较大,需要做适当惩罚。 若无法评价优劣,则给“平”。 物理规律遵循 • 综合对比两个模型生成的视频在多物体交互、运动合理性、光影、碰撞等方面的效果。 • 如果生成视频中人体、动物、物体、背景等视频元素发生扭曲畸变,需要做适当惩罚。 • 若无法评价优劣,则给“平”。 • 人工评测结果 (14名外部标注人员,独立盲测对比Step-Video-TI2V和国内一线视频生成模型/产品) 1. 2. Step-Video-TI2V在运动幅度控制、镜头控制、动漫类图生视频等维度具有state-of-the-art水平 Step-Video-TI2V在真实类图生视频仍有提升空间,这是由于该模型在训练中重点强化了动漫类数据
22. Step-Video-TI2V: Result
23. Step-Video-TI2V: Result
24. 动幅控制 两名男子在互相拳击,镜头环绕两人拍摄。 Motion=2 Motion=5 Motion=10 Motion=20
25. 镜头控制 镜头环绕女孩,女孩在跳舞 镜头缓慢推进,女孩在跳舞 镜头拉远,女孩在跳舞
26. 动作控制 战马跳跃 战马蹲下 战马向前奔跑,然后转身
27. 动幅控制 赛场的聚光灯不断闪烁,拳手的汗水和血 滴在灯光下飞溅,背景中的观众模糊但不 断挥舞手臂 狸猫战士双手缓缓上扬,雷电从手中向四 周扩散,身后灵兽影像的双眼闪烁强光, 张开巨口发出低吼 镜头微微摇晃,龙猫列车缓缓向前滑动,樱花花瓣 随风飘落,铁轨上的反光随着阳光微微闪烁,小女 孩的头发在微风中轻扬,背景的云朵缓缓流动
28. Step-Video-T2IV: Open Source https://github.com/stepfun-ai/Step-Video-TI2V https://yuewen.cn/videos
29. • 训练数据 • Challenges 目标:高质量 “指令-视频”对 • 推理效率 • 目标:实时视频生成 • 指令遵循 • 目标:严格按照指令生成视频,重点关注多物体组合生成、多动作序列生成、数量方位精准生成等 • 多轮交互 • 目标:根据多轮指令生成具有一致性的(长)视频,并支持对视频进行局部编辑 • 强化学习 • 目标:设计视频生成奖励模型,探索视觉思维链,减少对人工数据需求,实现后训练自动化,加强泛化能力 • 世界模型 • 目标:通过预测下一X训练视频理解生成统一模型
30. Future 一个戴眼镜的男人坐 在书桌前,拿起一本 书开始阅读 。 预测 翻译 文生视频模型 (AIGC Model) 视频预测模型 (World Model) 从“文本-视频”数据中学习对应知识,生成语义对应的视觉内容 从“视频”数据中学习因果知识,模拟世界运转规律 • 实时视频生成 • 模型范式变化:Diffusion → Autoregression + Diffusion • 复杂指令遵循 • 学习范式变化:根据文本预测视频 → 预测视频下一帧 • 多轮生成编辑 • 模型能力变化:跨模态翻译 → 世界模型模拟物理规律
31.
32. • • • 文生视频GitHub: https://github.com/stepfun-ai/Step-Video-T2V 文生视频Hugging Face: https://huggingface.co/stepfun-ai/stepvideo-t2v 文生视频Tech Report: https://arxiv.org/abs/2502.10248 • • • 图生视频GitHub: https://github.com/stepfun-ai/Step-Video-TI2V 图生视频Hugging Face: https://huggingface.co/stepfun-ai/stepvideo-ti2v 图生视频Tech Report: https://arxiv.org/abs/2503.11251

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-28 23:06
浙ICP备14020137号-1 $访客地图$