楠木軒

不到1MB內存,手機秒生成高分辨率全息圖!MIT研究登上Nature

由 宿秀榮 發佈於 科技

作者 | 大數據文摘

來源 | IEEE

如今,利用人工智能技術,科學家可以在智能手機上快速生成逼真的彩色3D全息圖了。

從本質上説,全息圖類似於從2D窗口尋找到一個3D場景的圖像,每個全息圖的像素都會散射掉落在其上的光波,從而使這些波以產生深度錯覺的方式彼此相互作用。

全息視頻顯示器創建的3D圖像能夠保證人們在觀看的同時不會感到眼睛疲勞,這與傳統的3D顯示器使用2D圖像產生深度錯覺不同。

但是,儘管三星等公司最近在開發可顯示全息視頻的硬件方面取得了進步,但實際上要顯示全息數據仍然是一個重大挑戰。

因為每個全息圖都會編碼大量數據,以便在整個圖像中營造出深度錯覺。這樣來説,生成全息視頻通常需要超級計算機的計算能力。

為了將全息視頻普遍化,科學家們嘗試了多種不同的策略來減少所需的計算量,例如,用簡單的查找表代替複雜的物理模擬。然而,這些通常以圖像質量為代價。

現在,麻省理工學院的研究人員已經開發出一種幾乎可以立即生成全息圖的新方法——一種高效的基於深度學習的方法,它可以在眨眼之間在筆記本電腦上生成全息圖。

這項研究在本週的《自然》雜誌上發表。

論文鏈接:

麻省理工學院計算機科學家Liang Shi説:“這超出了我們的預期。”

Shi指出,將物理模擬用於計算機生成的全息圖涉及計算全息圖的許多塊的外觀,然後將它們組合以獲得最終的全息圖。他説,使用查找表就像記住一組經常使用的全息圖,但這會犧牲準確性,仍然需要組合步驟。

Shi還補充到,從某種意義上説,計算機生成的全息術有點像切蛋糕的過程。使用物理模擬來計算空間中每個點的外觀是一個耗時的過程,類似於使用八次精確切割來生產八塊蛋糕的過程。

使用查找表進行計算機生成的全息照相,就像在切割之前標記每個切片的邊界一樣。儘管通過消除計算切割位置的步驟節省了一些時間,但是執行所有八次切割仍會佔用大量時間。

相比之下,新技術利用深度學習從本質上弄清楚瞭如何僅用三個切口就能將蛋糕切成八個切片。該卷積神經網絡是一種大致模仿人類大腦處理視覺數據方式的系統,它可以學習生成完整全息圖的捷徑,而不需要單獨計算每塊圖是如何成型的,“這將從數量級上直接降低操作步驟”。

研究人員首先建立了一個自定義數據庫,其中包含4,000張計算機生成的圖像,每個圖像都包含每個像素的顏色和深度信息。該數據庫還包括與每個圖像相對應的3D全息圖。

卷積神經網絡使用這些數據學習瞭如何計算如何從圖像中生成全息圖的最佳方法。然後,它可以從具有深度信息的圖像中生成新的全息圖,這些圖像隨計算機提供的典型圖像一起提供,並且可以通過多相機設置或激光雷達傳感器進行計算,這些設置在一些新iPhone上也有搭載。

這個新系統需要不到620 KB的內存,並且可以在單個消費級GPU上每秒生成60幅彩色3D全息圖,分辨率為1,920x1,080像素。研究人員可以在iPhone 11 Pro上以每秒1.1全息圖的速度運行它,並在Google Edge TPU上以每秒2全息圖的速度運行,這表明它有一天可以在虛擬現實或增強現實上運行。

實時3D全息術也可能有助於增強所謂的體積3D打印技術,該技術通過將圖像投影到液體桶上來創建3D對象,並可以生成複雜的空心結構。科學家們指出,他們的技術還可以在光學和聲學鑷子中找到有用的工具,這些鑷子可用於微觀層面的物質處理,以及可以分析細胞和常規靜態全息圖的全息顯微鏡,可用於藝術、安全、數據存儲和其他應用中。

Shi表示,未來的研究可能會添加眼動追蹤技術,以通過創建僅在眼睛注視的地方具有高分辨率的全息圖來加快系統運行速度。他補充説,另一個方向是生成考慮到人的視敏度的全息圖,因此,戴眼鏡的用户不需要與他們的眼部處方相匹配的特殊VR頭戴式耳機。

相關報道:

https://spectrum.ieee.org/tech-talk/computing/software/realtime-hologram

由於微信公眾號試行亂序推送,您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道, 請將“AI科技評論”設為星標賬號,以及常點文末右下角的“在看”