近日,香港大学与快手科技联合成立了一支科研团队,推出了一项名为“GameFactory”的创新框架,旨在解决游戏视频生成中的场景泛化问题。这一框架通过利用在开放域视频数据上预训练的视频扩散模型,能够创造出新颖且多样化的游戏场景,为未来的游戏开发提供了更多可能性。
项目背景
随着技术的不断发展,视频扩散模型已经成为了一种强大的视频生成和物理模拟工具,特别是在游戏引擎开发领域,其潜力不容忽视。这些生成式游戏引擎功能类似于可控的动作视频生成模型,能够根据用户的输入(如键盘和鼠标操作)进行实时生成和互动。
场景泛化成为了这一领域的一大挑战。开发团队必须能够创建超出现有游戏场景的新场景,这要求在广泛的场景数据集上进行大量训练。虽然收集大规模的动作标注视频数据集是实现此目标最直接的方法,然而这种方法的成本高昂且对于开放域场景而言并不实际,因此限制了多功能游戏引擎的开发,导致在生成多样化和新颖游戏环境时面临诸多障碍。
为了应对这个问题,研究人员已经在视频生成和游戏物理学领域取得了一些突破。以视频扩散模型为基础的技术不断进步,从早期的U-Net架构演变为基于Transformer的先进架构,能够生成更长、更真实的视频内容。
例如,Direct-a-Video方法提供了基本的相机控制功能,而MotionCtrl和CameraCtrl则带来了更复杂的相机姿态操控。这些突破为游戏场景生成提供了新的思路,但大多数现有项目(例如DIAMOND、GameNGen和PlayGen)因过度依赖特定的游戏和数据集而在场景泛化能力上存在限制。
GameFactory框架的创新
GameFactory框架的推出为游戏场景生成带来了新的希望。该框架通过基于预训练视频扩散模型的设计,使得生成多样化的游戏场景成为可能。不同于之前的方法,GameFactory能够在开放域数据的基础上进行全面的训练,从而避免依赖特定的游戏数据集。
为了解决开放域先验知识与有限游戏数据集之间的域差距,GameFactory采用了一种独特的三阶段训练策略。通过LoRA(Low-Rank Adaptation)对预训练模型进行微调,使其适应特定的游戏领域,同时保留大部分原始参数以确保模型的稳健性。冻结预训练的参数和LoRA,转而专注于训练动作控制模块,从而防止生成风格与控制之间的复杂混淆。,在移除LoRA权重后,保留动作控制模块参数,使系统能够在各种开放域场景中生成受控的游戏视频,进一步拓展了其适用范围。
研究还发现不同控制机制的有效性存在差异。实验显示,交叉注意力机制在处理离散控制信号(如键盘输入)时的表现超越了拼接方法,而拼接方法则在处理连续鼠标移动信号方面更为有效。这种灵活的设计使得GameFactory能够支持自回归动作控制,进而生成无限长度的交互式游戏视频,为玩家创造更加丰富多彩的游戏体验。
动作标注数据集GF-Minecraft的发布
为了支持GameFactory的研发和评估,研究团队还发布了一个名为GF-Minecraft的高质量动作标注视频数据集。该数据集的构建将为框架的训练和测试提供充足的数据支持,使研究人员能够更好地分析和验证GameFactory的性能。
香港大学与快手科技通过GameFactory框架的推出,不仅解决了游戏视频生成中场景泛化难题,也为未来的游戏开发奠定了坚实的基础。这一创新成果有望在未来的游戏行业变革中发挥重要作用,同时也提升了玩家的互动体验,标志着游戏技术发展的新纪元。随着相关技术的不断深耕和发展,GameFactory框架的应用前景将愈加广阔,也将吸引更多的研究者和开发者参与其中,为游戏行业的持续创新注入新的活力。
在此之前,GameFactory的研究和应用展示了科技如何与创意结合,从而推动游戏行业的创新,未来令人期待。