AI首個3D點雲+GAN新方法，讓機器人“眼神”更犀利

圖片來源@視覺中國

文 | 學術頭條

隨著 AI、機器人技術的不斷髮展，人們的生活得到了“AI 機器人們”的各種幫助：大到太空機器人輔助宇航任務，小到家用掃地機器人解放我們的雙手，可以說，機器人在人類生活中充當的角色越來越多樣。

但你知道嗎？目前用於室內任務、尤其是需要與環境進行頻繁互動的機器人，其視覺靈敏度仍需進一步提高——許多機器人在面對相似物體時，並不能辨別出其中的細微區別。

近日，來自德克薩斯大學阿靈頓分校（University of Texas at Arlington，UTA）的一個研究團隊，提出了一種名為 PCGAN 的方法。相關研究論文以“A Progressive Conditional Generative Adversarial Network for Generating Dense and Colored 3D Point Clouds”為題，發表在預印本網站 arXiv 上。

研究人員表示，這是第一個以無監督方式生成 3D 點雲（3D point cloud）的條件生成對抗網路（GAN），該網路能夠產生具有多解析度和精細細節的 3D 彩色點雲，以生成利於辨別的物體影象，這將極有利於機器人視覺靈敏度的提升。話不多說，先上圖。

圖 | real 列為真實物體的 3D 點雲圖像，後列為 PCGAN 產生的的結果（來源：該論文）

影象不逼真怎麼辦

想象一下，家裡的掃地機器人是如何工作的？一般來說，這類需要與環境互動的機器人首先需要在已構建的環境中完成導航任務，這就要求機器人必須能夠感知環境情況並實時做出決策，決定當前如何與其周圍環境進行互動。

而要想讓機器人具有這種自我決策能力，科學家們則需要使用機器學習和深度學習等方法來訓練 Ta 們：透過將收集到的大量影象資料集用作訓練資料，來訓練機器人應對各種不同物體或環境時應該做出的正確反應。

要實現這一點，一方面一些人會使用手動方法來收集影象資料，比如透過使用昂貴的 360 度全景攝像頭來捕獲房屋環境，或者先拍攝區域性圖片再使用各類軟體將單個影象拼接成房屋全景影象。但很明顯，這種手動捕獲方法效率太低，無法滿足需要大量資料的訓練要求。

另一方面，儘管手握數百萬房的間照片和影片，但這些資料都不是從像掃地機器人所處的有利位置進行拍攝的。於是，嘗試使用以人為中心的視角的影象來訓練機器人也不可取。

於是，此次的研究小組轉向使用一種被稱為生成對抗網路的深度學習方式來創造足夠逼真的影象，用來訓練機器人以提高其辨別環境的能力。

作為生成模型的一種，GAN 的主要結構包括兩個神經網路：生成器（Generator）和判別器（Discriminator）。生成器不斷生成假影象，判別器則判斷這些影象的真假。兩個神經網路就這樣相互競爭，最終形成非常強的製造樣本的能力。一旦經過培訓，這樣的網路將能夠建立無數可能的室內或室外環境，其中放置著多種多樣的桌椅或車輛等物體。這些物件之間的差別將變得很微小，但對於人和機器人來說，其影象仍帶有可識別的尺寸和特徵。

PCGAN：更清晰的 3D 點雲圖像

整個研究小組由 UTA 的計算機科學與工程學系助理教授 William Beksi和他的六名博士學生組成。參與這項研究的博士生 Mohammad Samiul Arshad 表示：“手動設計這些物件將耗費大量資源和人力，而如果進行適當的培訓，生成網路就可以在幾秒鐘之內完成同樣的任務。”

此次研究中的影象資料則透過 3D 點雲呈現，這是一種透過 3D 掃描器所取得的物體影象形式，它以點的形式記錄物件，每一個點包含有三維座標，強度資訊（可以反映目標物體的材質、粗糙度、入射角方向等資訊），還可能含有色彩資訊（RGB）。

對此，Beksi 解釋道：“我們可以將它們移動到新位置，甚至使用不同的燈光、顏色和紋理，將它們渲染為可在資料集中使用的訓練影象。這種方法可能會提供無限的資料來訓練機器人。”

圖 | PCGAN 合成的 3D 點雲圖像，飛機、桌椅等（來源：該論文）

在實驗中，研究人員以 ShapeNetCore 作為資料集，ShapeNetCore 是各種物件類的 CAD 模型的集合。他們選擇了椅子、桌子、沙發、飛機和摩托車影象進行實驗，以滿足物體形狀的多樣性；並將每個類別的數量確定為 5 個，以減少訓練時間。此外，還消除了所有沒有材料和顏色資訊的 CAD 模型。

他解釋說：“我們的模型首先學習低解析度物件的基本結構，然後逐步建立高階細節。例如物件的各個部分及其顏色之間的關係——椅子/桌子的腿是相同的顏色而座椅/車頂的顏色則截然不同。我們建立層次結構以進行完整的合成場景生成，這對於機器人技術將非常有用。”

他們為每個類別生成了 5,000 個隨機樣本，並使用多種不同的方法進行了評估。他們使用該領域的各種常用指標評估了點雲的幾何形狀和顏色。結果表明，PCGAN 能夠為不同種類的物件類別合成高質量的點雲。

One small step

儘管 PCGAN 的確優於一些傳統的樣本訓練方法，但正如 Beksi 所說：“此次研究只是朝最終目標邁出的一小步，我們的最終目標是生成足夠逼真的室內全景圖，以提高機器人的感知能力。”

此外，Beksi 還正在研究另一個問題——Sim2real。Sim2real 著眼於如何透過捕捉場景的物理特性（摩擦，碰撞，重力）以及使用射線或光子追蹤來量化細微差異，並使模擬影象更加逼真。

他說：“如果是由於增加解析度而包含更多的點和細節，那麼代價就是計算成本的增加。” 除計算需求外，Beksi 還需要大量儲存來進行研究。研究團隊每秒產生數百兆的資料，每個點雲大約有 100 萬個點，因此，這些訓練資料集非常龐大，需要大量的儲存空間。

接下來，Beksi 團隊希望將軟體部署在機器人上，並檢視它與模擬真實的領域之間還存在何種差距。當然，儘管要擁有真正強大的、可以長時間自主執行的機器人還有很長一段路要走，但研究人員的工作必將有益於多個領域，比如醫療保健、製造業和農業等。