
圖片來源@視覺中國
文 | 學術頭條
隨着 AI、機器人技術的不斷髮展,人們的生活得到了“AI 機器人們”的各種幫助:大到太空機器人輔助宇航任務,小到家用掃地機器人解放我們的雙手,可以説,機器人在人類生活中充當的角色越來越多樣。
但你知道嗎?目前用於室內任務、尤其是需要與環境進行頻繁交互的機器人,其視覺靈敏度仍需進一步提高——許多機器人在面對相似物體時,並不能辨別出其中的細微區別。
近日,來自德克薩斯大學阿靈頓分校(University of Texas at Arlington,UTA)的一個研究團隊,提出了一種名為 PCGAN 的方法。相關研究論文以“A Progressive Conditional Generative Adversarial Network for Generating Dense and Colored 3D Point Clouds”為題,發表在預印本網站 arXiv 上。
研究人員表示,這是第一個以無監督方式生成 3D 點雲(3D point cloud)的條件生成對抗網絡(GAN),該網絡能夠產生具有多分辨率和精細細節的 3D 彩色點雲,以生成利於辨別的物體圖像,這將極有利於機器人視覺靈敏度的提升。話不多説,先上圖。

圖 | real 列為真實物體的 3D 點雲圖像,後列為 PCGAN 產生的的結果(來源:該論文)
圖像不逼真怎麼辦想象一下,家裏的掃地機器人是如何工作的?一般來説,這類需要與環境交互的機器人首先需要在已構建的環境中完成導航任務,這就要求機器人必須能夠感知環境情況並實時做出決策,決定當前如何與其周圍環境進行交互。
而要想讓機器人具有這種自我決策能力,科學家們則需要使用機器學習和深度學習等方法來訓練 Ta 們:通過將收集到的大量圖像數據集用作訓練數據,來訓練機器人應對各種不同物體或環境時應該做出的正確反應。
要實現這一點,一方面一些人會使用手動方法來收集圖像數據,比如通過使用昂貴的 360 度全景攝像頭來捕獲房屋環境,或者先拍攝局部圖片再使用各類軟件將單個圖像拼接成房屋全景圖像。但很明顯,這種手動捕獲方法效率太低,無法滿足需要大量數據的訓練要求。
另一方面,儘管手握數百萬房的間照片和視頻,但這些數據都不是從像掃地機器人所處的有利位置進行拍攝的。於是,嘗試使用以人為中心的視角的圖像來訓練機器人也不可取。
於是,此次的研究小組轉向使用一種被稱為生成對抗網絡的深度學習方式來創造足夠逼真的圖像,用來訓練機器人以提高其辨別環境的能力。
作為生成模型的一種,GAN 的主要結構包括兩個神經網絡:生成器(Generator)和判別器(Discriminator)。生成器不斷生成假圖像,判別器則判斷這些圖像的真假。兩個神經網絡就這樣相互競爭,最終形成非常強的製造樣本的能力。一旦經過培訓,這樣的網絡將能夠創建無數可能的室內或室外環境,其中放置着多種多樣的桌椅或車輛等物體。這些物件之間的差別將變得很微小,但對於人和機器人來説,其圖像仍帶有可識別的尺寸和特徵。
PCGAN:更清晰的 3D 點雲圖像整個研究小組由 UTA 的計算機科學與工程學系助理教授 William Beksi和他的六名博士學生組成。參與這項研究的博士生 Mohammad Samiul Arshad 表示:“手動設計這些對象將耗費大量資源和人力,而如果進行適當的培訓,生成網絡就可以在幾秒鐘之內完成同樣的任務。”
此次研究中的圖像數據則通過 3D 點雲呈現,這是一種透過 3D 掃描器所取得的物體圖像形式,它以點的形式記錄對象,每一個點包含有三維座標,強度信息(可以反映目標物體的材質、粗糙度、入射角方向等信息),還可能含有色彩信息(RGB)。
對此,Beksi 解釋道:“我們可以將它們移動到新位置,甚至使用不同的燈光、顏色和紋理,將它們渲染為可在數據集中使用的訓練圖像。這種方法可能會提供無限的數據來訓練機器人。”

圖 | PCGAN 合成的 3D 點雲圖像,飛機、桌椅等(來源:該論文)
在實驗中,研究人員以 ShapeNetCore 作為數據集,ShapeNetCore 是各種對象類的 CAD 模型的集合。他們選擇了椅子、桌子、沙發、飛機和摩托車圖像進行實驗,以滿足物體形狀的多樣性;並將每個類別的數量確定為 5 個,以減少訓練時間。此外,還消除了所有沒有材料和顏色信息的 CAD 模型。
他解釋説:“我們的模型首先學習低分辨率對象的基本結構,然後逐步建立高級細節。例如對象的各個部分及其顏色之間的關係——椅子/桌子的腿是相同的顏色而座椅/車頂的顏色則截然不同。我們建立層次結構以進行完整的合成場景生成,這對於機器人技術將非常有用。”
他們為每個類別生成了 5,000 個隨機樣本,並使用多種不同的方法進行了評估。他們使用該領域的各種常用指標評估了點雲的幾何形狀和顏色。結果表明,PCGAN 能夠為不同種類的對象類別合成高質量的點雲。
One small step儘管 PCGAN 的確優於一些傳統的樣本訓練方法,但正如 Beksi 所説:“此次研究只是朝最終目標邁出的一小步,我們的最終目標是生成足夠逼真的室內全景圖,以提高機器人的感知能力。”
此外,Beksi 還正在研究另一個問題——Sim2real。Sim2real 着眼於如何通過捕捉場景的物理特性(摩擦,碰撞,重力)以及使用射線或光子追蹤來量化細微差異,並使仿真圖像更加逼真。
他説:“如果是由於增加分辨率而包含更多的點和細節,那麼代價就是計算成本的增加。” 除計算需求外,Beksi 還需要大量存儲來進行研究。研究團隊每秒產生數百兆的數據,每個點雲大約有 100 萬個點,因此,這些訓練數據集非常龐大,需要大量的存儲空間。
接下來,Beksi 團隊希望將軟件部署在機器人上,並查看它與模擬真實的領域之間還存在何種差距。當然,儘管要擁有真正強大的、可以長時間自主運行的機器人還有很長一段路要走,但研究人員的工作必將有益於多個領域,比如醫療保健、製造業和農業等。