上海人工智能实验室推出LongVie框架,突破可控长视频生成难题

来源: 小世评选

近年来,视频生成技术经历了快速的发展。从Sora的精彩呈现到众多高性能开源模型的发布,使得短视频生成的能力得到了显著提升。现今,生成几十秒的高质量短片已经不再是难题。面对超过1分钟的长视频生成,特别是在内容和运动可控性及风格统一方面,依然存在重重困难。针对这些挑战,上海人工智能实验室与南京大学、复旦大学、南洋理工大学S-Lab以及英伟达等机构共同开发的LongVie框架,旨在系统性解决可控长视频生成中的关键问题。

当前长视频生成的挑战

从技术角度来看,单纯利用现有的可控视频生成模型来生成长达一分钟的视频时,容易遇到以下几个问题:

1. 时序不一致:生成的视频片段前后内容缺乏连贯性,出现闪烁现象,影响观看体验。

2. 视觉退化:随着生成时间的增加,视频可能会出现颜色失真、清晰度下降,整体质量受到影响。

为了克服这些问题,LongVie框架从两个关键路径入手:控制信号的全局归一化与初始噪声的统一初始化。

LongVie框架的创新之处

1. 控制信号全局归一化

LongVie采用了一种新的策略,将控制信号在整个视频片段上进行统一归一化处理,而非仅在单一片段内归一化。这一创新显著提升了跨片段拼接时的一致性,极大地减少了先前存在的时序不一致问题。

2. 统一噪声初始化

LongVie框架还引入了共享噪声的概念。各个片段共享同一初始噪声,这种处理方法使得在生成过程中,不同片段间生成的分布得以对齐,从而减少了前后帧在外观与细节上的漂移现象。

在LongVie框架下,通过这两项核心策略的实施,团队实现了长视频生成过程中的前后一致性显著提升。

多模态控制信号的有效融合

长时间视频的生成中,单一模态的控制往往难以提供稳定且全面的约束,致使误差积累并最终发生画质下降。因此,LongVie采取了融合密集控制信号(如深度图)与稀疏控制信号(如关键点)的策略,进而引入退化感知训练策略。在这种更多元化的控制信号环境下,LongVie的训练模型能更贴近于长期序列的退化分布,这对于长视频生成在细节与稳定性上体现在显著的效果。

在控制信号的融合法方面,研究团队对标准ControlNet及其两个变体进行了对比测试,结果表明变体C的性能最优,体现出更强的稳定性和训练效果,最终被采纳为LongVie的控制信号融合策略。

LongVie支持的多种长视频生成任务

LongVie框架能够支持多种长视频生成的下游任务,具体包括:

视频编辑:实现对长视频内容的一致性修改与编辑,提升创作灵活性。

风格迁移:对整个长视频进行统一且时序连贯的风格迁移,确保输出视觉风格的统一性。

Mesh-to-Video:基于三维体素生成逼真的长视频,拓宽了视频内容生成的表现形式。

随着技术的不断进步,LongVie框架在实现这些任务时展现出良好的效果,推动了视频生成领域的技术革新。

LongVGenBench:推动评测标准化的基准数据集

目前,长视频生成领域缺乏统一的评测标准。LongVie团队提出了LongVGenBench——首个专门为超长视频生成设计的基准数据集。该数据集包含100个时长超过1分钟的高分辨率视频,旨在为相关领域的系统研究与公平评测提供基础。

基于LongVGenBench的定量评估与用户主观反馈结果显示,LongVie在多项关键指标上超越了现有方法,并获得了用户的高度偏好,达到当前技术的最优水平(State of the Art, SOTA)。

LongVie框架的推出,为可控长视频生成领域注入了新的活力。通过解决时序一致性、视觉退化等核心问题,并结合多模态控制信号的有效融合,LongVie不仅提升了生成视频的质量,还为未来的研究和应用奠定了坚实基础。随着技术的不断进步,我们有理由相信,长视频生成将在各个领域得到更广泛的应用,带来更多创新的可能。

相关阅读
精品推荐