夢晨 蕭簫 發自 凹非寺
量子位 | 公眾號 QbitAI從汽車動力學“轉行”智能視覺感知,3年斬獲2篇CVPR論文。
其中一篇,還是今年CVPR論文的最佳學生論文獎。
獎項頒了二十多屆,今年第一次頒給來自中國高校的學生一作,打敗了哈佛大學博士生&谷歌的另一篇論文研究。
這是同濟大學在讀二年級碩士、阿里達摩院實習生陳涵晟的真實經歷。
轉方向前,他對汽車動力學同樣興趣十足,曾經加入過賽車隊,主導空氣動力學開發,最終團隊在大學生國際賽事上獲了獎;
讀研第一年,論文就入選了CVPR,但卻因為理論不夠充分,轉而繼續深入研究,才有了今年這篇最佳學生論文獎。
在與陳涵晟同學的交流中,我們瞭解了更多關於他的故事。
本科第五年才轉型自動駕駛陳涵晟就讀的同濟汽車學院,本科是五年制。
一入學他就參加了同濟翼馳車隊。這是一個上百人組成的學生社團,在學校、學院和贊助商支持下,每年都會設計、製造賽車並參加國內和國際比賽。
在車隊裏陳涵晟負責的是空氣動力學開發,主要涉及仿真計算、曲面建模等技術。
他漸漸成為車隊的骨幹,還助力團隊在2018年的日本大學生方程式賽車上拿了最佳空氣動力學獎。
其實汽車和計算機都是陳涵晟從小開始就有的愛好,他表示自己也搞不清楚更喜歡哪個,另外數學也是他一直感興趣的學科。
高考後他也曾考慮過計算機專業,不過最終還是選擇了汽車。
到畢業那年,他看到一個把這些愛好更緊密結合起來的新道路。
智能汽車、自動駕駛的大潮來了。
當時,同濟剛成立不久的智能汽車研究所也在招生,他的畢業設計就選擇了自動駕駛方向。
有機遇,就想嘗試一下新東西。
陳涵晟加入了熊璐教授的課題組開始學習新知識,熊璐老師也將成為他後來在研究生階段的導師。
熊璐現任同濟大學新能源汽車工程中心副主任,長期從事汽車底盤控制、分佈式驅動電動汽車動力學控制相關科研工作,
在研究生階段陳涵晟還有一位副指導老師,同濟大學汽車學院助理教授田煒,他主要研究智能駕駛的環境目標感知技術和軌跡預測技術。
轉方向、學習交叉學科壓力會很大嗎?陳涵晟認為對他來講並不會很累,反而兩個領域的碰撞總能讓他產生更多靈感。
畢業那年是這些年來最舒服最輕鬆的那年,完全地去學習新知識,有很大的收穫感。
到了研一,田煒老師給他佈置的課題方向是在傳統模型中中加入概率和不確定性。
陳涵晟將之與自己感興趣的3D物體位姿問題結合起來,發表了他的第一篇CVPR。
雖然中了頂會,不過陳涵晟還是覺得差了些什麼。
這篇文章是根據經驗設計的,雖然模型效果好但我不明白他為什麼效果好,也無法用數學理論去證明這個方法就是最優的。
這次獲獎的第二篇論文與之前相比最大的突破點,陳涵晟認為在於“從理論出發去解決問題”。
我們把各種方法都統一起來,套在一個大框架裏面。
然後又從這個框架裏找到了一個更通用、效果更好的方法,第二篇論文就誕生了。
陳涵晟的這兩篇CVPR論文,具體來説研究的都是通過單張2D圖像估計3D物體位姿的問題。
對於人類來説,通過一張2D照片,判斷裏面各物體大致的位置很簡單。
但對於計算機來説,這是個頗為複雜的問題,像下面這些車在它看來,並沒有遠/近的距離感:
因此,如何讓計算機學會通過2D照片估計3D物體的位置和朝向,就變成了一個需要解決的問題,像自動駕駛(用攝像頭估計車輛位置)、AR(判斷虛擬物體距離)等領域都要用到:
然而,現有的兩類解決方法幾何推理和深度學習,都有一定缺陷。
幾何推理,最常見的就是PnP(Perspective-n-Point)算法,具體指通過已知的n個3D空間點(c1、c2、c3、c4)的座標、對應2D平面上點的座標,結合相機內參來反推相機的位姿。
本質上來説,就是找到3D空間點的座標系w以及相機座標系c的對應關係,來推導出相機和這些3D點的空間距離:
△PnP圖示,來源OpenCV文檔
這個方法非常簡潔,原理也好理解,然而必須得有一大堆參數(3D、2D座標和對應的相機內參)才能計算出結果。現實是往往只能用一張2D照片做估計,沒有對應的3D座標。
深度學習方法倒是不需要這麼多參數,直接用AI搞預測就行。
但這樣問題又來了,不僅模型可解釋性差,預測結果不一定準確,而且數據集樣本量少的時候,還非常容易過擬合。
他的第一篇論文,便是在PnP算法中引入了不確定性,在此基礎上提出MonoRUn檢測算法。
相比用自監督方法直接學習位姿,這篇論文先用自監督方法學習2D和3D座標之間的關係,再用PnP算法求解。
論文估計了座標預測結果的不確定性,並用不確定性PnP算法,讓模型學會關注不確定性較低的前景點(檢測對象的點)。
MonoRUn做出來後,效果很好,不需要提前知道物體的幾何形狀,就能預測3D位姿,直接登上CVPR 2021。
但這卻讓陳涵晟有點懵:為啥用不確定性PnP算法,效果就這麼好?
這一方向上繼續深入研究之後,他最終發現了“盲點”:PnP算法本質上在某些點是不可導的。
也就是説,上一篇論文把不確定性引入PnP算法,雖然效果很好,但本質上將PnP視為確定性這一操作並不可導。
這會導致PnP算法求解得到模糊的位姿解,從而導致反向傳播(收斂過程)不穩定。
一番思索後,陳涵晟突然意識到,為什麼不將這種確定性問題轉化成概率密度的問題呢?
也就是説,將PnP的輸出視為位姿的概率密度函數,這樣問題就從不可導變成了可導,這便是End-to-end Probabilistic Perspective-n-Points(EPro-PnP)算法的由來。
這次的模型做出來後,靈活性和可解釋性都得到了很大的提升,收斂也穩定多了,最終在CVPR 2022中獲得最佳學生論文獎。
據陳涵晟介紹,第二篇論文是他在阿里達摩院做研究型實習生期間完成的。
達摩院的研究氛圍很好,與他同期的一組實習生雖然做的都是不同方向,但經常和帶他們的幾位老師在一起討論問題。
論文裏面雖然沒有掛上那麼多人的名字,但很多細節都是在平時的討論中獲得靈感,再完善出來。
相比之下,今年疫情封校期間他一直待在宿舍,“缺少了和人的交流,研究靈感反而少了很多”。
陳涵晟還提到了實習期間“算力充足”的快樂——
搞這項研究期間,達摩院的導師王丕超還特意幫他多申請了一台服務器,才能順利完成整個模型的研究訓練。
還以為比較冷門,沒想到能夠獲獎這次成果能獲獎,陳涵晟和導師、達摩院的幾位合作者都沒有預料到。
我原來以為這篇論文可能比較冷門,因為太偏數學,沒想到能夠獲獎。
整個作者團隊沒有人在美國新奧爾良的CVPR現場,領獎還是遠程接入的。
不過從這屆CVPR整體風格來看,確實更傾向於基礎理論而不是更熱門的模型結構調整方向。
像最佳論文獎,也是頒給了一項用神經網絡解決傳統幾何問題的研究。
就陳涵晟觀察,CVPR的評委可能更多的是在鼓勵理論上具有突破傳統範式的貢獻。
對於獲獎時有什麼想法,陳涵晟的回答很實在:
最大的感觸就是以後的路更好走了。
如今面臨研究生畢業,陳涵晟對未來的打算很明確,想繼續做科研。
不過以後不一定是做自動駕駛領域的科研,可能還會嘗試新東西,主要還是按自己的興趣去做。
在交流中,我們觀察到興趣是陳涵晟做事最大的驅動力,一旦開始做事他就會非常投入。
有達摩院的同事爆料他推導公式時不時會拍自己大腿,甚至嚇到周圍的人。
陳涵晟覺得可能是因為自己太專注了,成功或者出錯都會情不自禁表達一下激動或沮喪的心情。
除了專注,他還擅長把不同興趣結合起來。
他在本科時參加了合唱團,那時他也會利用編程創作音樂作品、或者用計算機模擬管風琴。
最後,我們問了問他對於做科研有什麼心得。
陳涵晟認為獨立思考是最值得一説的。
很多時候他面對一個課題不是先把領域內的文章通通看一遍,而是自己先嚐試,有了比較完善的想法之後再去讀論文。
如果有人做的話,至少説明我的思路是正確的。如果沒有人做的話,有可能我發現了一個新的東西。
論文鏈接:
https://arxiv.org/abs/2203.13254參考鏈接:
[1]https://cvpr2022.thecvf.com/cvpr-2022-paper-awards[2]https://wap.peopleapp.com/article/6767948/6638309[3]https://arxiv.org/abs/2103.12605[4]https://weibo.com/2027586097/Gyx9dp8lN— 完 —
量子位 QbitAI · 頭條號簽約