NVIDIA用照片造出逼真3D乐器，大秀爵士乐表演，论文入选计算机视觉顶会

智东西（公众号：zhidxcom）

作者 | ZeR0

编辑 | 漠影

智东西6月21日报道，今日，英伟达研究院（NVIDIA Research）的新研究在全球计算机视觉三大顶级会议之一CVPR 2022（计算机视觉与模式识别会议）上亮相。

NVIDIA提出的3D MoMa逆渲染流程方法，展示了一种能将2D照片变成3D物体的新方法。图形创作者可以快速将物体导入图形引擎，并修改比例、改变材质或尝试不同的照明效果。

本周，关于3D MoMa的论文将在CVPR上发表。其论文名为《从图像中提取三角形三维模型、材质和照明》（Extracting Triangular 3D Models, Materials, and Lighting From Images）。这将是NVIDIA在本次CVPR上发表的38篇论文之一。

论文地址：https://arxiv.org/abs/2111.12503

项目地址：https://nvlabs.github.io/nvdiffrec/

一、用2D照片快速生成3D物体

3D内容建模既需要艺术建模技能，又需要掌握计算机技术知识。而实现自动化3D建模，可以节约大量的生产成本，或加速更多样化的内容创建。

其中，逆渲染是将一系列静态照片重建为3D物体或场景模型的技术。NVIDIA图形学研究副总裁David Luebke称：“该技术长期以来一直是统一计算机视觉和计算机图形学的关键。”

他谈道：“NVIDIA 3D MoMa渲染流水线能将逆渲染问题的每个部分表示为GPU加速的可微分组件，然后使用现代AI机器和NVIDIA GPU的原始算力快速生成3D物体，且创作者可以在现有工具中自由地导入、编辑和扩展这些物体。”

为了使艺术家或工程师能够充分利用3D物体，其形式应能够导入游戏引擎、3D建模器和电影渲染器等各种被广泛使用的工具。

带有纹理、材质的三角网格形式，就是此类3D工具使用的通用语言。

三角网格是用于定义3D图形和建模形状的基本框架。游戏工作室和其他创作者习惯于使用复杂的摄影测量技术来创建3D物体，这需要耗费大量的时间和精力。

近期的神经辐射场（Neural Radiance Fields）研究可以快速生成物体或场景的3D模型，但并不是使用易于编辑的三角网格形式。

当在单个NVIDIA Tensor Core GPU上运行时，NVIDIA 3D MoMa能在1小时内生成三角网格模型。该流水线的输出结果与创作者现在使用的3D图形引擎和建模工具直接兼容。

流水线的重建功能包括3D网格模型、材质和照明。网格就像由三角形构建的3D形状混凝纸浆模型。有了它，开发者就可以依照自己的创意对物体进行修改。材质是叠加在3D网格上的2D纹理，就像人的皮肤一样。NVIDIA 3D MoMa通过对场景光线进行估算，使创作者能够在日后修改物体上的照明。

相比之下，近年来许多类似的3D重建研究，或者不能轻松支持场景编辑操作，或者牺牲了重建质量，在神经网络中编码的材质也不能轻易地被编辑或提取成与传统游戏引擎兼容的形式。

二、为虚拟爵士乐队调校乐器

为了展示NVIDIA 3D MoMa的功能，NVIDIA的研究和创意团队首先从不同角度收集了五种爵士乐队乐器（小号、长号、萨克斯、架子鼓和单簧管）的约100张图片。

NVIDIA 3D MoMa将2D图像重建为每种乐器的3D表示，并以网格形式呈现。

然后，NVIDIA团队将这些乐器从原始场景中取出，并将其导入NVIDIA Omniverse 3D模拟平台中进行编辑。

在任何传统图形引擎中，创作者都能轻松为形状调换由NVIDIA 3D MoMa生成的材质，就像给网格穿上不同的衣服一样。

例如，该团队对小号模型采取了这种做法，将原来的塑料材质，快速更换成黄金、大理石、木材或软木。

创作者可以将新编辑的物体放入任何虚拟场景中。NVIDIA团队将这些乐器放入了经典的图形渲染质量测试康奈尔盒中。

他们证明了虚拟乐器对光线的反应与在物理世界中完全一样：闪亮的铜管乐器反射出亮光，哑光的鼓皮则会吸收光线。

这些通过逆渲染生成的新物体可以作为复杂动画场景的构成要素。

虚拟爵士乐队

三、高效的逆渲染方法，整体研究思路概述

总体来说，研究人员提出了一种高效的逆渲染方法，能从多视角图像中提取具有空间变化的材料和环境照明的未知拓扑三角网格，它们可以部署在任何传统图形引擎中而未经修改。

研究方法的概述

NVIDIA团队假设在一个未知的环境光照条件下，有相应的摄像机位姿和背景分割掩模来指示这些图像中的物体，进行3D重建。

该方法学习曲面网格的拓扑和顶点位置，而无需对3D几何图形进行任何初始猜测。其目标表示由三角网格、空间变化的材质（存储在2D纹理中）和照明（一个高动态范围的环境探针）组成。

该方法的核心是基于可变性四面体网格的可微分曲面模型，并通过一种新的可微分分割和近似方法将其扩展到支持空间变化的材料和高动态范围（HDR）环境照明。

研究人员使用高度优化的可微分光栅与延迟遮光，联合优化几何、材料和照明。生成的3D模型无需转换，就能部署在手机、web浏览器等任意支持三角渲染的设备上，并以交互速率呈现。

NVIDIA团队从2D监督中联合学习拓扑、材质、照明，重建三角网格，无需修改即可在标准游戏引擎中使用

实验表明，该研究提取的模型可用于场景编辑、材料分解和高质量视图插值，所有这些模型都在基于三角形的渲染器（光栅器和路径跟踪器）中以交互速率运行。

结语：将助力简化创意团队的工作流程

在论文最后，本篇论文作者提到，这项研究的主要限制是简化了阴影模型，没有考虑全局照明或阴影。这一选择是有意加速优化，但受制于材质提取和重照明。

随着可微分路径追踪的研究取得新进展，研究人员期待在未来的工作中去除这一限制。其他限制还包括静态照明假设、没有优化摄像机位姿、训练期间高计算资源和内存消耗等。

当然，每当涉及场景重建方法，大众普遍会关心深度伪造问题。对此，研究人员称尚未察觉或预见到其方法的负面用途。

总的来说，NVIDIA这项能帮助创作者快速将2D照片变成3D物体、兼容现代3D引擎和建模工具的新研究，将有助于进一步简化建筑师、设计师、概念艺术家和游戏开发者等创意团队的工作流程，为他们腾出更多发挥创意的时间。