支持合成一分钟高清视频，华科等提出人类跳舞视频生成新框架UniAnimate

AI资讯1年前 (2024)更新 AI导航网

0 0

UniAnimate 框架首先将参考图像、姿势指导和噪声视频映射到特征空间中，然后利用统一的视频扩散模型（Unified Video Diffusion Model）同时处理参考图像与视频主干分支表观对齐和视频去噪任务，实现高效特征对齐和连贯的视频生成。

其次，研究团队还提出了一种统一的噪声输入，其支持随机噪声输入和基于第一帧的条件噪声输入，随机噪声输入可以配合参考图像和姿态序列生成一段视频，而基于第一帧的条件噪声输入（First Frame Conditioning）则以视频第一帧作为条件输入延续生成后续的视频。通过这种方式，推理时可以通过把前一个视频片段（segment）的最后一帧当作后一个片段的第一帧来进行生成，并以此类推在一个框架中实现长视频生成。

最后，为了进一步高效处理长序列，研究团队探索了基于状态空间模型（Mamba）的时间建模架构，作为原始的计算密集型时序 Transformer 的一种替代。实验发现基于时序 Mamba 的架构可以取得和时序 Transformer 类似的效果，但是需要的显存开销更小。

通过 UniAnimate 框架，用户可以生成高质量的时序连续人类跳舞视频。值得一提的是，通过多次使用 First Frame Conditioning 策略，可以生成持续一分钟的高清视频。与传统方法相比，UniAnimate 具有以下优势：

无需额外的参考网络：UniAnimate 框架通过统一的视频扩散模型，消除了对额外参考网络的依赖，降低了训练难度和模型参数的数量。
引入了参考图像的姿态图作为额外的参考条件，促进网络学习参考姿态和目标姿态之间的对应关系，实现良好的表观对齐。
统一框架内生成长序列视频：通过增加统一的噪声输入，UniAnimate 能够在一个框架内生成长时间的视频，不再受到传统方法的时间限制。
具备高度一致性：UniAnimate 框架通过迭代利用第一帧作为条件生成后续帧的策略，保证了生成视频的平滑过渡效果，使得视频在外观上更加一致和连贯。这一策略也使得用户可以生成多个视频片段，并选取生成结果好的片段的最后一帧作为下一个生成片段的第一帧，方便了用户与模型交互和按需调整生成结果。而利用之前时序重合的滑动窗口策略生成长视频，则无法进行分段选择，因为每一段视频在每一步扩散过程中都相互耦合。