Google发布Veo 3.1视频生成模型 提升提示遵循及音频生成能力

来源: 小世评选

Google近日宣布发布其最新的视频生成模型——Veo 3.1,这是对之前版本Veo 3的重大更新。此版本不仅在遵循用户指令的能力上得到了显著改进,而且在将静态图像转化为动态视频以及音频生成方面也展现出了更强的实力。按照Google的安排,Veo 3.1目前已在其Gemini API上开放试用,同时为公司的Flow视频编辑器提供了强大的技术支持。

Veo 3.1的推出是在Google I/O 2025大会上介绍的Veo 3的基础之上,新增的功能使其在实际应用场景下更具吸引力。根据Google的声明,新版模型的提示遵循能力大幅提升,用户通过上传的图像和书面提示能够更轻松地生成所需的视频内容。这意味着,无论用户提供何种类型的图像素材或描述,Veo 3.1都能更准确地理解并制作出与之相匹配的视频。

更为重要的是,Veo 3.1还实现了图像转视频的同时进行音频生成的能力,这是Veo 3在之前版本中所无法做到的。这一突破将极大地方便需要将视觉和听觉元素结合以传达更复杂信息的用户,如广告制作人、内容创作者以及教育工作者。

在流媒体和视频编辑领域,Flow视频编辑器的新功能“帧到视频”利用Veo 3.1的强大技术,允许用户上传视频的首帧和尾帧,接着AI会生成两帧之间的所有中间内容。这一功能不仅为视频制作带来了更高的便捷性,也让用户在内容创作中拥有了更多的控制权。与Adobe Firefly提供的类似能力相比,Flow工具可以在同时生成视频内容的同时创建与之相匹配的音频,提供了更为完整的创作体验。

尽管Veo 3.1表现出了在音频生成和图像处理方面的先进能力,Google对生成视频的质量仍然抱有审慎的态度。根据一系列样本的评测,使用Veo 3.1生成的视频在视觉上仍然保留了一定的奇异质感。具体而言,生成的效果可能会因提示和主题的不同而出现较大差异,有些效果甚至可能还不如OpenAI的Sora 2在真实感方面的表现。尽管如此,谷歌更注重让Veo成为专门服务于视频创作者的工具,而非沦为社交媒体上低质量内容的制造机器。这一选择反映了Google对视频内容创作领域更为严肃和负责的态度。

在新功能的推出之际,Google也开门迎接了对其作品的更广泛反馈,以便不断优化Veo 3.1的性能。随着视频创作需求的增加,尤其是在数字营销、在线教育等日渐重要的领域,Veo 3.1将成为内容生产者的得力助手。

对于潜在用户而言,以下问题和回答能为您提供进一步的理解与启发:

问1:Veo 3.1相比之前版本有什么改进?

答:Veo 3.1在提示遵循能力上有显著提升,用户能更灵活地根据上传的图像和文字提示生成所需的视频。Veo 3.1支持同时图像转视频及音频生成,这一功能在Veo 3中是不可得的。

问2:Flow视频编辑器的“帧到视频”功能是什么?

答:Flow的“帧到视频”功能允许用户上传视频的首帧和尾帧,AI则会生成两帧间的所有中间内容。这一功能使得用户能够在视频创作中有更多主动权,与Adobe Firefly的类似功能相区别,Flow能够在生成视频的同时创建音频,为用户提供一种更加完整的创作体验。

问3:Veo 3.1生成的视频质量如何?

答:根据Google分享的样本,Veo 3.1生成的视频仍然存在一定的奇异感,效果会根据不同提示和主题变化较大。尽管与OpenAI的Sora 2在真实感方面可能有所差距,但整体质量相较于之前版本有所提升。

随着Veo 3.1的推出,Google展示了其对视频生成领域的重大投入与前瞻性。在数字内容日益重要的今天,期待Veo 3.1为创作者带来更多便利与灵感。

相关阅读
精品推荐