對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發

  AI TIME歡迎每一位AI愛好者的加入!

  CVPR 2020已落下帷幕,共計投稿6656篇,錄用1470篇,涵蓋的方向包括目標檢測、目標跟蹤、圖像分割、人臉識別、姿態估計、三維點雲、視頻分析、模型加速、GAN、OCR等。對話頂會,探索最新學術進展,本次分享AI TIME特地邀請到CVPR 2017最佳論文得主、世界人工智能大會 Super AI Leader(SAIL)先鋒獎得主、來自清華大學自動化系的黃高老師為大家解讀本屆CVPR“最佳論文”和“最佳學生論文”背後藴含的亮點,深入剖析其核心思路、創新點,談談它們對CV領域的啓發。

  CVPR 2020最佳論文解讀

  在嚴苛的錄取標準下,《Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild》榮獲CVPR 2020最佳論文稱號,其第一作者為牛津大學視覺幾何組博士生吳尚哲。

  圖像是如何得來的?圖像是由相機對着物體拍攝形成的,拍攝的過程涉及視角選擇問題比如俯視還是仰視。本屆最佳論文的亮點就在於給定一張圖像,它可在解構拍攝視角的同時,將其深度(3D)、光照等分解出來,真實可靠地“還原”出物體原始面貌。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  一般而言,對於3D重建是需要監督的,也就是需要各種形式的ground truth(真值、真實的有效值或者是標準的答案),例如多視角、深度圖、輪廓、關鍵點等信息。不同於人類,對計算機而言深度估計極具挑戰性。

  以自動駕駛為例,為估計場景深度,需在車上安裝雙目攝影頭,同時還需結合激光雷達,用其測距得到ground truth。基於攝相機得來的圖像數據,利用雷達獲得的深度作為ground truth訓練深度模型。當訓練數據足夠多,模型訓練成功以後,才可基於雙目圖像估計出深度圖。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  區別以往依靠雙目圖像訓練模型,本屆最佳論文的亮點是考慮了一個具有挑戰性的問題:能否只使用單目的圖像估計3D對象,並且採用無監督的方式?其意義在於現實中使用有監督的方式成本可能是高昂的,且雙目圖像相對比較少,而單目圖像卻大量存在。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  基於以上思路,作者提出了一種新的方法——Photo-Geometric Autoencoding,可解構給定圖像的視角、深度、texture等維度,再經過組合渲染,重構3D模型。其大致想法是構成一個閉環,閉環的好處是可獲得監督信號,但問題是簡單直接地實現可能最終得到退化解。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  Question1

  問題一:如何避免退化解?

  答:施加對稱性約束。

  對稱性可來源於物體的水平翻轉,其模型處理流程如下圖所示。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  構造對稱雖然可以解決退化解問題,但是現實世界並不總是完美對稱的,譬如同一物體上的光照、髮型等細節,因此還需要進一步完善工作。

  Question2

  問題二:如何處理非對稱的光照?

  答:對反射率施加對稱性約束。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  Question3

  問題三:如何處理非對稱反射率、變形等?

  答:推理物體中潛在的不對稱。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  解決好以上三個問題,是本篇論文的核心工作。通過Photo-Geometric Autoencoding方法,不僅可對真人頭像進行重建,還可對寫實繪畫、抽象作品、動物等進行重建,足以證明模型的強大性。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  在黃老師看來,這篇論文可以獲得最佳論文有幾個關鍵的亮點因素:(1)其工作致力於3D重建;(2)可將單目2D圖像轉換為3D;(3)採用無監督學習的方式;(4)結合了計算機圖形學。同時論文撰寫優秀,論文的想法很重要,但也不能忽視文章的構思以及寫作的切入點。

  CVPR 2020最佳學生論文解讀

  CVPR 2020的最佳學生論文獎由來自西蒙弗雷澤大學和谷歌研究院的三位研究者摘得,獲獎論文是《BSP-Net: Generating Compact Meshes via Binary Space Partitioning》,即通過BSP(Binary Space Partitioning,二叉空間分割)構建緊湊的3D網格。

  這篇論文介紹了多邊形網格在深度學習特別是3D形狀生成中的運用。多邊形網格在數字 3D 領域中無處不在,但它們在深度學習革命中僅扮演了次要角色。學習形狀生成模型的領先方法依賴於隱函數,並且只能在經過昂貴的等值曲面處理過程後才能生成網格。為了克服這些挑戰,該研究受計算機圖形學中經典空間數據結構BSP的啓發,來促進3D學習。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  BSP的核心思想是對空間進行遞歸細分以獲得凸集。通過利用此屬性,作者設計了BSP-Net,該網絡可通過凸分解學習表示3D形狀。重要的是,BSPNet無需監督,因為訓練過程中沒有凸形分解。該網絡的訓練目的是,為使用基於一組平面構建的 BSPtree 獲得的一組凸面重構形狀。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  通過BSPNet訓練的凸面可以輕鬆提取以形成多邊形網格,而無需進行等值曲面處理。BSP-Net的主要功能和設計方向是自動生成最少的多邊形,合成外形儘量完美、真實的三維物體。對同一個二維或者三維圖形物體進行重建,和此領域其它神經網絡模型相比,BSP-Net 所用的多邊形數量顯著更少,鑲嵌效果更好。

  關於CV發展的趨勢的探討

  在解讀完最佳論文和最佳學生論文以後,關於這兩篇論文對CV領域發展的啓發,黃老師拋出了一些自己的觀點。

  1)

  面向的任務

  CV未來的面向的任務,黃老師認為比較重要的有兩個大的方向:3D和Video。計算機視覺是一門研究如何使機器“看”的科學,為的就是模擬人類視覺,解決人類視覺可以完成的事情。

  為什麼説3D重要,是因為我們生存的世界是三維的,人類視覺系統就是在處理3D場景的過程中建立起來的。除此之外,目前我們已經有途徑可收集到很多雙目的圖像(多攝像頭手機拍攝的圖片),甚至本身帶有深度的數據。數據的豐富,計算能力的提升,為3D的發展提供了強大支撐。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  從Video維度來説,世界是動態的,人們希望可以用動態的視頻處理事情。依然以自動駕駛為例,如果其對圖像一幀一幀地進行分析,不僅浪費嚴重,而且不夠精準。人光看一張圖像可能會錯失細節,但連着看的話,能將東西認識得更為細緻。Video一個天然的特點是連續兩幀之間存在持續相關性,而相關性可以與當前熱門的無監督/自監督學習結合起來進行研究。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  2)

  解決問題的辦法

  1.Holistic

  Holistic代表着完整的、全盤的。常見的視覺任務包括分類、物體檢測、語義/實例分割、3D重建等。人類的視覺系統在面向視覺任務時,可以同時全面考慮問題,而非像計算機一樣需要拆成若干子任務進行處理。未來對視覺的研究,可模擬人類處理時的方式,將各類子任務融合成一個大任務。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  2.Cross modality(跨模態學習)

  在醫學領域,醫生做病情診斷時,除了觀察CT、X光等得到醫學影像,還會藉助病人病史、化驗結果、問詢等了解其他信息,這個過程就可以稱為跨模態學習。為完成一個最終目標,可能會需要很多其他模態信號加以輔助,視覺任務亦是如此。例如將視頻裏面的聲音與圖像進行互監督學習,常見的有籃球、足球等體育比賽中,解説與畫面的配合。解説語音提供了很多標籤,利用這些標籤可幫助訓練視覺模型。從大的AI角度來説,視覺未來定會和更多其他模態的數據進行融合。

對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發
  3.X learning

  Self-supervised learning、Unsupervised learning、Meta learning、Life-long learning、Robust learning、Transfer learning等機器學習領域的方法,都有可能在未來視覺研究領域中發揮巨大的作用,催生新的研究方向。

  3)

  最終目標

  1.Weak supervision

  2.Robust

  3.Intelligent

  對話頂會、解讀最佳、碰撞思維、尋求啓發,感謝黃老師的精彩解讀以及獨到觀點,在分享自身見解的同時也啓發了大家對於CV領域的思考。希望本次分享對大家的CV學習之路有所幫助,我們下次分享見!

  整理:何文莉

  審稿:黃高

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 3328 字。

轉載請註明: 對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啓發 - 楠木軒