近年来,随着人工智能技术的迅猛发展,视频生成领域也迎来了新的突破。快科技于4月20日消息,由GitHub的Lvmin Zhang与斯坦福大学的Maneesh Agrawala共同研发的一项新技术,承诺大幅提高视频生成的效率,同时显著降低显存使用,展示了AI在创作领域的巨大潜力。
新技术的核心在于引入了固定长度的时域上下文,这一方法改变了传统视频扩散模型的工作机制。视频扩散模型是生成视频的一种方法,通常需要处理由生成的带有噪音的帧,然后预测下一帧质量更高的图像。在这个过程中,时域上下文的长度会随着视频内容的复杂性而增加,导致显存需求急剧提升。传统的视频生成模型一般需要至少12GB显存,很多用户由于显存不足,生成的视频时常显得短小、质量粗糙,且生成过程耗时长。
而GitHub和斯坦福大学的研究团队则通过多级优化策略,实现了一种新的神经网络架构,仅需6GB显存的显卡便可生成长达60秒的视频。这一突破意味着,用户可以使用配置较低的设备生成高质量的长视频,极大地降低了参与该领域创作的门槛。同时,这项技术的底层依托于定制版的腾讯混元模型,但现有的预训练模型也可以通过微调进行适配,进一步扩展其应用范围。
固定的上下文长度设计,使得技术在处理输入帧时,对重要帧信息进行压缩,有效缓解了显存压力。这意味着即使在显存较低的情况下,用户仍然能够生成质量较高的视频作品。与以往方法在生成一帧时一帧都需要的计算方式不同,新技术的计算消耗与图片扩散模型相似,进一步提升了生成效率。
GitHub与斯坦福大学的方案也改进了实时预览功能。每一帧生成后,即可实时显示,让创作者能够即时查看生成效果,便于不断修改与调整。这种实时性不仅提高了创作的便捷性,也使得视频生成过程变得更加直观与可控。
技术的另一个亮点在于其对“漂移”现象的有效缓解。漂移现象是指随着视频长度的增加,生成视频的质量逐渐下降的问题,该技术通过优化处理流程,即便在生成较长视频的情况下,仍能保证画面质量稳定。这使得创作者能够更好地控制视频的整体表现,拓宽了内容创作的可能性。
在硬件方面,该技术支持FP16和BF16数据格式,兼容多种显卡,包括RTX 50、RTX 40、RTX 30系列、以及几乎所有现代显卡(除了RTX 3050 4GB)。虽然在RTX 20系列及更老显卡上尚未经过验证,但用户仍能够充分利用现有的计算资源来进行视频生成。就操作系统而言,该技术支持Windows和Linux,进一步增强了其适用性和普及性。
可以预见,这一创新技术将对短视频制作、影视后期制作以及各类内容创作者产生深远的影响。对于需要高质量视频输出的行业,如游戏、教育、广告及艺术创作等,提供了更为强大的工具支持。随着未来对视频生成需求增加,GitHub与斯坦福大学推出的这项技术,有望引领一波新一轮的创造性浪潮。
而言,GitHub与斯坦福大学在视频生成领域的创新是一项标志性的成就,通过降低显存需求和优化生成过程,不仅提升了视频创作的效率,还扩大了更广泛用户的参与可能性。这一技术的推出,不仅是技术层面的突破,更是对未来内容创作生态的重要推动,预示着一个新的创作时代即将来临。随着技术的不断发展,我们期待看到更多基于AI的视频创作工具涌现,为创作者们开启无限的想象与表现空间。