随着人工智能技术的迅猛发展,图像生成领域也经历了前所未有的变革。早期的AI图像生成模型往往存在着生成质量不高、细节失真等问题,例如手指数量过多的人类图像,这使得这些技术在创作者的工作流中很难得到广泛应用。随着技术的不断演进,AI生成的图像已经可以达到惊人的真实效果。
尽管在图像生成的质量上取得了显著进步,但大多数现有模型在创意的可控性方面依然面临许多挑战。创作者希望通过简单的文本描述来创建复杂的场景,但这往往需要对构图、拍摄角度和物体摆放等精细细节进行深入的考虑和调整。因此,尽管使用ControlNet等高级工具可以增强AI生成图像的输出控制,但它们的复杂设置限制了更广泛的应用。
为了解决这些问题并快速引入先进的AI功能,NVIDIA在2023年CES展会上推出了面向RTX PC的3D引导生成式AI Blueprint。该Blueprint不仅集成了一系列强大工具,还能帮助用户从头开始生成完全控制构图的图像,极大地提升了创作便利性。
3D引导生成式AI Blueprint的核心在于其使用Blender完成3D场景草图,并通过深度图与图像生成器(Black Forest Labs的FLUX.1-dev)共同工作,以实现高效的图像生成。深度图为图像模型提供了物体放置的空间理解,进而提升生成图像的精准度。这一技术的优势在于,其不需要在生成过程中依赖于过于细致物体或高质量纹理的输入,因为这些元素将在后续步骤中通过灰度信息进行转换。用户还可以轻松更改3D场景中的物体位置和相机角度,使得创作过程更加灵活。
组成3D引导生成式AI Blueprint的底层架构是ComfyUI,这是一个非常强大的工具,能够让创作者以直观有趣的方式链接不同的生成式AI模型。例如,用户可以通过ComfyUI的Node Editor Blender插件,将Blender直接与ComfyUI相连接。同时,借助于NVIDIA的NIM微服务,用户可以在GeForce RTX GPU上高效部署FLUX.1-dev模型,并借助NVIDIA TensorRT软件开发套件的优化性能,充分调动如FP4和FP8等高效的计算格式,以提升工作效率。需要注意的是,使用3D引导生成式AI Blueprint需要NVIDIA GeForce RTX 4080或更高版本的GPU。
NVIDIA的3D引导生成式AI Blueprint包含了一个创作者开始使用高级图像生成工作流所需的全部工具,包括Blender、ComfyUI、连接两者的Blender插件、FLUX.1-dev NIM微服务,以及运行该微服务的ComfyUI节点。这一完善的系统不仅有助于AI艺术家更轻松地进行创作,还附带了详细的安装程序和使用说明。蓝图的结构化方式使得用户可以根据具体需求定制工作流,包括手把手的教程、现成的素材以及开箱即用的环境配置,让创作更加简单,效果更加增艳。
对于对AI开发有兴趣的技术人员,3D引导生成式AI Blueprint也同样具备了极高的价值。作为构建类似工作流或扩展现有工作流的基础,它附带了源代码、示例数据和详细的开发文档,用户能够方便地借此搭建自己的创意应用。
该Blueprint能够在NVIDIA RTX AI PC和工作站上顺畅运行,充分发挥NVIDIA Blackwell架构的最新性能突破。FLUX.1-dev NIM微服务经过TensorRT优化,与以往的Pytorch FP16相比,推理速度提升了一倍以上,极大地提高了高效工作流的实现可能性。对于使用NVIDIA Ada Lovelace架构GPU的用户,FLUX.1-dev NIM微服务还附带FP8精度,同样经过TensorRT加速,有效促进快速迭代及实验,提升用户体验。量化技术的引入帮助减少了模型运行的显存需求,使得在使用FP4量化时,模型体积比FP16小了一半以上,从而为用户节省计算资源。
目前,NVIDIA已有10个NIM微服务支持RTX,覆盖从图像文本生成到语音AI及计算机视觉的多样化用例,更多的Blueprint及服务均在筹备中。3D引导生成式AI Blueprint与NIM微服务现已面向用户推出,构建一个强大的基础,以便于在RTX PC和工作站上创造、定制与突破生成式AI的界限。
每周,NVIDIA的RTX AI Garage系列博客还将为希望深入了解NIM微服务及AI Blueprint。在AI PC与工作站上构建AI智能体、创意工作流、数字人及生产力应用方面提供源源不断的社区驱动AI创新内容。更多有关软件产品的信息也将陆续发布,期待为创作者们带来更多的灵感与动力,推动图像生成技术的不断进步。