AniSora—动画视频生成技术应用

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. AniSora —动画视频生成 技术应用 蒋宇东
2. 01 目录 动画视频生成的问题和挑战 02 AniSora技术框架 03 技术落地挑战与解决方案 04 动画视频智能创作的未来
3.
4. 01 动画视频生成的问题和挑战
5.
6. 视频生成技术发展背景 Hailuo AI Gen-3 Sora 2024.02 U-Net Kling 1.0 2024.06 2024.03 Open-Sora 0.7B Open-Sora-Plan Jimeng2.0 Sora Turbo Google Veo2 Kling1.6 2024.07 2024.08 CogVideoX-5B 2024.09 2024.10 AniSora 1.0 2024.12 Hunyuan-13B Kling2.0 WanX2.2 2025.02 WanX2.1-14B AniSora 2.0 2025.07 2025.09 AniSora 3.0
7. 视频生成关键技术框架-- DIT
8. 视频生成关键技术框架-- MMDIT
9. 动画视频生成的核心技术问题 • • • 多样的艺术风格 现实物理 Vs 动画物理 针对动画的benchmark 构建 动画领域 • • 人物一致性 场景一致性 一致性 • • 多模态引导 控制动态大小、运镜、 运动区域等 可控性 • • 质量*信息密度*时长 AI Director 长视频生成
10. 02 Anisora 技术架构
11. Anisora 技术架构概览 10M高质量动画切 片 数据集构建 多控制合一训练 模型训练 6个维度立体评估 Benchmark 构建 强化学习后训练调优 强化学习调优 AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era. Yudong Jiang, Baohan Xu et. al, Accepted by IJCAI25 Aligning Anime Video Generation with Human Feedback. Yidi Wu, Bingwen Zhu et. al Under Review GitHub - bilibili/Index-anisora SOTA Animation Video Generator , 2.1K Star
12. Data Pipeline Raw Clips Optical Flow OCR Aesthetics Distribution of Resolution and Duration Caption Caption Length and Frames AniSora DataSet
13. • 𝑆 𝑠𝑚𝑜𝑜𝑡ℎ = 𝑅𝑒𝑔(𝐸 𝑣 (𝐼 1 , . . . , 𝐼 𝑁 )) Dataset & Benchmark where 𝐼 𝑖 , 𝑁 denote the single frame and the total frames, and 𝑅𝑒𝑔 denotes the regression head, and 𝐸 𝑣 denotes the vision encoder. Training Set Raw Data: 1M long animation videos Filtering Criteria: Text-overlay, optical flow, aesthetic scores, duration (2-20s) Resulting Dataset: 10M high-quality clips for training Evaluation Set 948 animation clips are collected and labeled with different actions • 100 common action labels: talking, walking, running, eating, and so on. 10-30 clips/label • 857 2D animation, 91 3D animation • Human manual correct prompt Point at things Walk Visual Smoothness Punch • Visual Motion The magnitude of primary motion in anime videos. 𝑆 𝑚𝑜𝑡𝑖𝑜𝑛 = 𝐶𝑜𝑠(𝑀𝐶𝐿𝐼𝑃(𝑉), 𝑀𝐶𝐿𝐼𝑃(𝑇 𝑚 )) where 𝑀𝐶𝐿𝐼𝑃 denotes the finetuning action model. 𝑉 represents the generation video and 𝑇 𝑚 denotes the designed motion prompt. • Visual Appeal The fundamental quality of video generation. 𝑆 𝑎𝑝𝑝𝑒𝑎𝑙 = 𝐴𝑒𝑠(𝑆𝑖𝑔𝐿𝐼𝑃(𝐼 0,1,…,𝐾 ))𝐼 𝑖 ∈ 𝐾𝑒𝑦𝐹𝑟𝑚(𝑉) where 𝐾𝑒𝑦𝐹𝑟𝑚 , 𝑆𝑖𝑔𝐿𝐼𝑃 and 𝐴𝑒𝑠 denote the key frame extraction method, feature encoder method and aesthetic evaluation method, and 𝐾 denotes the number of the keyframes. • Text-Video Consistency 𝑆 𝑡𝑣𝑐 = 𝑅𝑒𝑔(𝐸 𝑣 (𝑉), 𝐸 𝑡 (𝑇)) where 𝑅𝑒𝑔 denotes the regression head, and 𝐸 𝑣 , 𝐸 𝑡 denote the vision and text encoder, respectively. • Image-Video Consistency 𝑆 𝑖𝑣𝑐 = 𝑅𝑒𝑔(𝐸 𝑣 (𝑉), 𝐸 𝑣 (𝐼 𝑝 )) where 𝑉𝑎𝑛𝑑𝐼 𝑝 denote the participant video clip and the input image. • Wave hand Rub Brace Character Consistency 1 𝑆 ∑ 𝐶𝑜𝑠(𝐵𝐿𝐼𝑃(𝑀 𝑖 ), 𝑓𝑒𝑎 𝑐 ) 𝑆 𝑖 where 𝑆 denotes the number of sample frames, 𝑀 𝑖 denotes the mask obtained from GroudingDino and SAM methods, and 𝑓𝑒𝑎 𝑐 denotes the stored character's features. 𝑆 𝐼𝑃𝑐 =
14. 模型训练 引导图 位置 首帧 中间帧 尾帧 生成效果
15. AniSora Benchmark Image- Character Video Consistency Consistency Method Human Evaluation Visual Smooth Visual Motion Visual Appeal Text-Video Consistency Vidu-1.5 60.98 55.37 78.95 50.68 60.71 66.85 82.57 Opensora- V1.2 41.1 22.28 74.9 22.62 52.19 55.67 74.76 Opensora- Plan-V1.3 46.14 35.08 77.47 36.14 56.19 59.42 81.19 CogVideoX- 5B-V1 53.29 39.91 73.07 39.59 67.98 65.49 83.07 MiniMax- I2V01 69.63 69.38 68.05 70.34 76.14 78.74 89.47 AniSora (Ours) 70.13 71.47 47.94 64.44 72.92 81.54 94.54 - 70.78 53.02 64.41 73.56 80.62 91.59 - 70.03 58.1 64.57 74.57 80.78 91.98 - 70.03 58.1 64.57 74.57 80.78 91.98 Wan2.1 - 81.70 61.88 82.05 87.81 88.50 90.65 AnisoraV2 - 86.98 50.34 85.91 90.98 91.96 92.75 AniSoraV3 - 90.00 62.78 87.84 91.24 92.53 92.58 GT - 92.2 58.27 89.72 92.51 94.69 95.08 AniSora (Interpolated Avg) AniSora (KeyFrame Interp) AniSora (KeyFrame Interp)
16. AniSora - Benchmark 引导指令 Keling1.6 画面中一个人在快速向前奔跑 ,他奔跑的速度很快使得人物 有些模糊 画面中黄色的怪物,突然站起 来,他的右手指向屏幕左手握 拳,愤怒的说些什么 Hailuo AI ViduQ1 AniSoraV2.0
17. 强化学习调优 Before After
18. 03 技术应用 技术落地的挑战和解决方案
19. 技术到应用的演进
20. 技术应用——长视频制作相关落地挑战 AI长视频制作的问题 人物、场景一致性问题 多模态交互问题 多主体的一致性保持问题 多视角下的人物全身一致性 跨镜头下的场景一致性 交互类型的支持方式 生成式交互的实时性 多模态统一建模方法 细节控制和易用性的权衡问题 物理效果生成问题 用户友好的长视频生成控制条件 细粒度视频内容控制方法 多控制条件统一的控制方法 “动画物理学”3D Vs 2D 数据驱动模式
21.
22. 人物、场景一致性问题 存在挑战: • 多主体关系的正确指代 • 主体的大小比例保持合理 • 参考主体数量多时,计算开销大、主体细节缺失问题 解决思路: • 将视频历史帧作为视觉参考,通过视频基模统一视频和图像参考生成 任务 多主体的一致性保持 • 通过context的方式提供视觉特征参考 • 向prompt中注入图像id,关联主体-提示词 • 参考生图模型生成关键帧+图生视频 / 参考主体生视频
23. 人物、场景一致性问题 存在挑战: • 单一视角参考图的模式下,难以 保证新视角的主体细节一致 • multiview参考模式下,如何正确 预测主体的多视角图像 • 如何给定视频/3d模型,参考模型 如何选择正确的视角进行参考 解决思路: • 先进行图像的multiview预测,然 后使用多视角参考图 相同背景图在切镜后的几何比 例保持 多视角下人物全身一致性 跨镜头下的场景一致性 • 使用图生视频/3D模型生成多角 度视频,再用于多视角参考
24. 视频生成构建角色/场景多视角参考
25. 通过Token Selection 实现高效一致性参考 仿照视频记忆参考的思路,选择适合的参考Token,减少计算消耗同时增强参考细节 authority sits on a throne, exuding authority, while two other characters .. + 输入参考图 VAE VLM vlm token数缩减10倍 vae token数缩减4倍 Token Selector ... ... MMDiT Attention block QwenEdit v1 FFN ... 采样 输出 TokenSelect参考 Token Selector 增强 细节
26. 细节控制和易用性的权衡问题 存在挑战: • 进行逐帧控制时,控制信号的构造成本高,高难度动作难以准确生成 • 面部/演员替换方法适用于二创,难以用于完全原创视频 • 难以对视频内容进行像素级精准控制 • 多种控制条件同时启用的兼容问题 骨架图序列控制动作 解决思路: • 相机轨迹及位姿作为运镜控制 • 与帧对齐的布局/骨架图/参考视频控制主体运动 • 多模态条件生成模型 • 建立从粗到细的条件控制数据金字塔,迭代式训练控制条件,提供多 种控制条件并重的可控生成模型 目标框控制位置 用户友好的视频生成控制条件
27. 视频质量提升 90P -> 1080P https://github.com/bilibili/Index-anisora (Coming Soon)
28. 多模态交互问题 存在挑战: • 高分辨率的视频仍然难以达到实时生成的速度 • 真实世界视频的缺少交互信号,导致写实风格的交互模型难以训练 • 交互模型对多模态信号的理解+生成统一 解决思路: • 将视频模型改造为自回归生成模式,缩短生成时长,降低响应延迟 • 通过游戏引擎采集鼠标、键盘操作数据,训练可控视频生成模型 • 将镜头作为驱动条件,训练视角可动的交互式视频模型 镜头控制交互的视频生成 多模态交互问题 素材来源:Gene3,Context As memory
29. 物理效果生成问题分析和解决思路 存在挑战: • 动画中的运动规律(特别是2D动画)不同于真实世界,但彼此之间又 有很多的联系,我们叫它“动画物理学” • 数据驱动方法容易生成“视觉合理”但不满足物理规律的结果 • 在训练分布外的物理环境中(新材质、新约束条件)表现较差 • 高质量物理交互数据昂贵、难以规模化采集,缺乏真实世界多模态数 据(力、速度、材质属性等) 解决思路: 动态/静态世界规律学习 素材来源:VideoREPA • Data driven • 几何先验引入(如3D预训练模型VGGT)到视频生成模型中 • 基于AR模式(如下一帧预测)的训练范式从时序上建模运动模式
30. 04 动画视频智能创作的未来
31. 长视频创作的核心问题 视频质量 * 信息密度 * 视频长度 空镜头 = 视频质量 * 信息密度 * 视频长度 Sora2 = 视频质量 * 信息密度 * 视频长度 信息密度(叙事能力):多镜头 * 多模态
32. https://github.com/RVC-Boss/GPT-SoVITS 51.6K Star https://github.com/index-tts/index-tts 13.5K Star https://github.com/bilibili/Index-anisora 2.1K Star
33. Multi- agent 辅助创作 AniME: Adaptive Multi-Agent Planning for Long Animation Generation. Lisai Zhang, Baohan Xu, et. al Accepted by Siggraph Aisa25
34.
35. 动画视频创作现状和发展趋势 工具能力现状 • AI能够制作出对标传统动画行业1w-5w/分钟的动画视频,制作成本1-3K/分钟。 • 非动画专业创作者一天可以制作1分钟的动画 Agent辅助长视频创作的问题 • 帮助节约40%-60%的人工成本 • 由于创作内容质量反馈的主观性和稀疏性,系统难以得到不断的增强 • 单纯通过LLM planner组织workflow不能带来系统能力的增强,数据和反馈难以在系统的多个agent之间流转 技术发展方向 • 高信息密度的长视频生成,多模态、多镜头输出 • 实时的交互式创作: 对长视频生成过程中的问题及时纠正,创作工具与创意的充分融合,解决对ai工具使用经验依 赖,降低创作门槛和难度 • 统一多模态整合(Any2Any),更加深度的视觉语义理解,深刻的理解用户创作意图
36.
37. THANKS Join Us!Star AniSora! https://github.com/bilibili/Index-anisora/tree/main

trang chủ - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-06 12:42
浙ICP备14020137号-1 $bản đồ khách truy cập$