NVIDIA用照片造出逼真3D樂器，大秀爵士樂表演，論文入選計算機視覺頂會

智東西（公眾號：zhidxcom）

作者 | ZeR0

編輯 | 漠影

智東西6月21日報道，今日，英偉達研究院（NVIDIA Research）的新研究在全球計算機視覺三大頂級會議之一CVPR 2022（計算機視覺與模式識別會議）上亮相。

NVIDIA提出的3D MoMa逆渲染流程方法，展示了一種能將2D照片變成3D物體的新方法。圖形創作者可以快速將物體匯入圖形引擎，並修改比例、改變材質或嘗試不同的照明效果。

本週，關於3D MoMa的論文將在CVPR上發表。其論文名為《從影象中提取三角形三維模型、材質和照明》（Extracting Triangular 3D Models, Materials, and Lighting From Images）。這將是NVIDIA在本次CVPR上發表的38篇論文之一。

論文地址：https://arxiv.org/abs/2111.12503

專案地址：https://nvlabs.github.io/nvdiffrec/

一、用2D照片快速生成3D物體

3D內容建模既需要藝術建模技能，又需要掌握計算機技術知識。而實現自動化3D建模，可以節約大量的生產成本，或加速更多樣化的內容建立。

其中，逆渲染是將一系列靜態照片重建為3D物體或場景模型的技術。NVIDIA圖形學研究副總裁David Luebke稱：“該技術長期以來一直是統一計算機視覺和計算機圖形學的關鍵。”

他談道：“NVIDIA 3D MoMa渲染流水線能將逆渲染問題的每個部分表示為GPU加速的可微分元件，然後使用現代AI機器和NVIDIA GPU的原始算力快速生成3D物體，且創作者可以在現有工具中自由地匯入、編輯和擴充套件這些物體。”

為了使藝術家或工程師能夠充分利用3D物體，其形式應能夠匯入遊戲引擎、3D建模器和電影渲染器等各種被廣泛使用的工具。

帶有紋理、材質的三角網格形式，就是此類3D工具使用的通用語言。

三角網格是用於定義3D圖形和建模形狀的基本框架。遊戲工作室和其他創作者習慣於使用複雜的攝影測量技術來建立3D物體，這需要耗費大量的時間和精力。

近期的神經輻射場（Neural Radiance Fields）研究可以快速生成物體或場景的3D模型，但並不是使用易於編輯的三角網格形式。

當在單個NVIDIA Tensor Core GPU上執行時，NVIDIA 3D MoMa能在1小時內生成三角網格模型。該流水線的輸出結果與創作者現在使用的3D圖形引擎和建模工具直接相容。

流水線的重建功能包括3D網格模型、材質和照明。網格就像由三角形構建的3D形狀混凝紙漿模型。有了它，開發者就可以依照自己的創意對物體進行修改。材質是疊加在3D網格上的2D紋理，就像人的皮膚一樣。NVIDIA 3D MoMa透過對場景光線進行估算，使創作者能夠在日後修改物體上的照明。

相比之下，近年來許多類似的3D重建研究，或者不能輕鬆支援場景編輯操作，或者犧牲了重建質量，在神經網路中編碼的材質也不能輕易地被編輯或提取成與傳統遊戲引擎相容的形式。

二、為虛擬爵士樂隊調校樂器

為了展示NVIDIA 3D MoMa的功能，NVIDIA的研究和創意團隊首先從不同角度收集了五種爵士樂隊樂器（小號、長號、薩克斯、架子鼓和單簧管）的約100張圖片。

NVIDIA 3D MoMa將2D影象重建為每種樂器的3D表示，並以網格形式呈現。

然後，NVIDIA團隊將這些樂器從原始場景中取出，並將其匯入NVIDIA Omniverse 3D模擬平臺中進行編輯。

在任何傳統圖形引擎中，創作者都能輕鬆為形狀調換由NVIDIA 3D MoMa生成的材質，就像給網格穿上不同的衣服一樣。

例如，該團隊對小號模型採取了這種做法，將原來的塑膠材質，快速更換成黃金、大理石、木材或軟木。

創作者可以將新編輯的物體放入任何虛擬場景中。NVIDIA團隊將這些樂器放入了經典的圖形渲染質量測試康奈爾盒中。

他們證明了虛擬樂器對光線的反應與在物理世界中完全一樣：閃亮的銅管樂器反射出亮光，啞光的鼓皮則會吸收光線。

這些透過逆渲染生成的新物體可以作為複雜動畫場景的構成要素。

虛擬爵士樂隊

三、高效的逆渲染方法，整體研究思路概述

總體來說，研究人員提出了一種高效的逆渲染方法，能從多視角影象中提取具有空間變化的材料和環境照明的未知拓撲三角網格，它們可以部署在任何傳統圖形引擎中而未經修改。

研究方法的概述

NVIDIA團隊假設在一個未知的環境光照條件下，有相應的攝像機位姿和背景分割掩模來指示這些影象中的物體，進行3D重建。

該方法學習曲面網格的拓撲和頂點位置，而無需對3D幾何圖形進行任何初始猜測。其目標表示由三角網格、空間變化的材質（儲存在2D紋理中）和照明（一個高動態範圍的環境探針）組成。

該方法的核心是基於可變性四面體網格的可微分曲面模型，並透過一種新的可微分分割和近似方法將其擴充套件到支援空間變化的材料和高動態範圍（HDR）環境照明。

研究人員使用高度最佳化的可微分光柵與延遲遮光，聯合最佳化幾何、材料和照明。生成的3D模型無需轉換，就能部署在手機、web瀏覽器等任意支援三角渲染的裝置上，並以互動速率呈現。

NVIDIA團隊從2D監督中聯合學習拓撲、材質、照明，重建三角網格，無需修改即可在標準遊戲引擎中使用

實驗表明，該研究提取的模型可用於場景編輯、材料分解和高質量檢視插值，所有這些模型都在基於三角形的渲染器（光柵器和路徑跟蹤器）中以互動速率執行。

結語：將助力簡化創意團隊的工作流程

在論文最後，本篇論文作者提到，這項研究的主要限制是簡化了陰影模型，沒有考慮全域性照明或陰影。這一選擇是有意加速最佳化，但受制於材質提取和重照明。

隨著可微分路徑追蹤的研究取得新進展，研究人員期待在未來的工作中去除這一限制。其他限制還包括靜態照明假設、沒有最佳化攝像機位姿、訓練期間高計算資源和記憶體消耗等。

當然，每當涉及場景重建方法，大眾普遍會關心深度偽造問題。對此，研究人員稱尚未察覺或預見到其方法的負面用途。

總的來說，NVIDIA這項能幫助創作者快速將2D照片變成3D物體、相容現代3D引擎和建模工具的新研究，將有助於進一步簡化建築師、設計師、概念藝術家和遊戲開發者等創意團隊的工作流程，為他們騰出更多發揮創意的時間。