30年 AI 技術研究，聊聊「自動駕駛」的瓶頸、機會與未來

文 | 秦明；編輯 | 石亞瓊；來源 | 數字時氪（微信：digital36kr）

從80年代跨越到90年代，相比於知識工程與專家系統，人工神經網絡不温不火，很多人認為它並沒有什麼實用價值。

1992年8月，鄧志東進入清華大學從事博士後研究，主要做基於人工神經網絡的誤差反向傳播算法的性能改進，以及強化學習等方面的研究。

他回憶到，那個時候專家系統嚴重依賴於人工設計、缺乏學習能力等侷限還沒有被人們完全意識到。計算機的算力與性能也不能支撐大型神經網絡模型面向大規模數據集的訓練與推斷，人工神經網絡也幾乎不能應用於圖像處理與計算機視覺領域。

突破與創新不斷出現，也是在1992年，李開復設計了支持語音識別的語音助理，即Siri的前身；IBM的AI“深藍”機器人於1997年第一次戰勝了國際象棋冠軍卡斯帕羅夫……

自1994年留校以來，鄧志東做了很多領域的研究，包括自學習控制、移動機器人技術、神經網絡、強化學習、複雜網絡理論、虛擬現實、計算生物學、無線傳感器網絡、計算神經科學、自動駕駛技術等。不知不覺中，他已經在人工智能領域探索了30個年頭。

時代的進步，歷史的偶然。上世紀的邊緣探索，如今看來已經成為主流並引領未來。

2012年，以深度神經網絡為代表的AI技術飛速發展，各大科技巨頭紛紛湧入，押注人工智能的未來。2015年，以深度卷積神經網絡為核心的計算機視覺技術拉開感知智能時代的序幕；2019年，以大模型為代表的自然語言方向讓AI跨入新的時代。

鄧志東告訴36氪，每一項技術突破的背後都有一羣追求真理的科學家，以及面向落地應用場景的大量嘗試性探索。自動駕駛是他近10年多的重點研究領域，也是目前最有技術挑戰的落地應用場景之一。

核心技術難點之一在於汽車如何去理解複雜的動態駕駛場景（DDS），保證自動駕駛的安全性。

鄧志東表示，人類駕駛是建立在認知理解基礎之上，依靠可理解的視覺感知和大腦實現決策；相比之下，自動駕駛難以在複雜動態環境中獲得人類水平的駕駛知覺、預測與認知判決能力。

也就是説，它難以對道路、路口、停車位以及各種交通參與者複雜變化行為所組成的一幕幕動態場景，做出滿足安全性要求的綜合性的關聯感知、趨勢預測與自主判決。

想真正意義上實現自動駕駛，還需不斷從基礎理論、軟硬件與系統、政策、法規、倫理、生態等層面完善與突破。

那麼當下自動駕駛技術發展的現狀和瓶頸是什麼？科學家團隊正在解決哪些關鍵技術問題？市場中大家的共識與分歧是什麼？未來還有哪些商業機會？以及產學研過程中有哪些問題要解決？

近期，在第一屆專精特新技術創新大會暨科學家創新創業論壇前夕，36氪數字時氪專訪了清華大學人工智能研究院視覺智能研究中心主任鄧志東教授，聊了聊上述問題，他結合過往觀察給出了心中的看法。

30年 AI 技術研究，聊聊「自動駕駛」的瓶頸、機會與未來 | 專訪清華大學教授鄧志東

清華大學人工智能研究院視覺智能研究中心主任鄧志東教授

01 談瓶頸：複雜場景的不可理解性

2009年初，在國家重點項目的支持下，鄧志東開始了自動駕駛技術研究——視聽覺信息的認知計算。走過很多彎路，踩了很多坑，這是鄧志東對過去的一些描述。

鄧志東團隊是國內最早使用純視覺方法進行自動駕駛技術研究的團隊之一。他談到，當時主要是基於攝像頭、激光雷達、毫米波雷達等視覺感知設備，進行駕駛場景與目標的感知，同時陸續從硬件、算法、軟件、系統集成、路測，甚至車輛改裝層面做了大量技術探索。

改裝日產奇駿、別克昂克雷，利用長安CS 35與CS 55全線控車，從自動駕駛原理性、技術性驗證到後面的路測實驗樣車，鄧志東至少主持研發了4台自動駕駛汽車。

天天做實驗，壓力巨大，是團隊常有的狀態。那時團隊走遍了北京的東南西北邊緣地帶（北面的北清路、温泉地區，西面的世博園，南面的良鄉，東面的燕郊），也在北京的5、6環，以及G7高速公路的部分路段進行了閉環測試。

鄧志東回憶到，當時國內自動駕駛普遍採用循線方法，為了驗證基於視覺自主感知的駕駛效果，團隊直到2014年，一直沒有使用任何釐米級精度的RTK差分GPS以及高清地圖。

剛開始研究時，深度學習還沒有發展起來，採用傳統的計算機視覺方法，漏檢誤檢會比較多，僅可做到70%-80%的準確率，而且程序實現中還加了很多閾值邏輯，通用性與環境適應性不好。鄧志東告訴36氪，那時候承受了極大的壓力，一切都需要摸索中。

如今，基於深度學習的視覺感知方法在性能上有了突破，但與正常成年人類駕駛相比，在感知上仍有很大的差距。

行百里者半九十，自動駕駛是典型的長尾應用場景。相比於人類駕駛平均10萬公里才會有一次小的事故，目前L1、L2級別的自動輔助駕駛對應的路測里程數最低要求在20萬、100萬公里。

鄧志東談到，目前自動駕駛的難題在於感知的不安全與不可靠性，核心是對複雜場景與目標的不可理解性。過去研究與實踐中大多僅孤立考慮單一實體屬性，如單個目標本身的檢測、分割、跟蹤與識別，以及軌跡補全、行為預測等，如今需要關注不同目標實體之間相互關係的學習理解，在時空相互關係中去理解特定的目標。

5個9或99.999%的識別率已經是比較好的狀態了，但要想真正解決安全性，漏檢誤檢率還是要小於十萬分之一或百萬分之一，也就是需要7個9或8個9，利用數據驅動方法很難達到這麼高的精度。

鄧志東告訴36氪，這是乘以10萬公里仍有1次或0.1次漏檢的客觀應用需求。因此繼續往深處走，需要的是算力與數據的指數級增長，但關鍵還是算法顛覆性的創新。

車聯網V2X、車路協同也是市場關注的熱點。安全避險是強驅動力，鄧志東表示，除非網聯或協同能聚焦賦能關鍵性安全問題的解決，若僅是解決舒適性功能，則可能會額外增加不安全因素，也會造成投入產出的失衡。

總之，當前國內的技術研究與特斯拉的單車智能還是有不少差距，國內企業應該抓一些基礎技術問題的突破，一方面需要自上而下加大資本、人力等投入；另一方面市場也要給予初創企業更多的時間。

02 談突破：多目標關係的語義理解

自動駕駛的發展是深度學習、AI芯片、標籤大數據、場景應用等技術的混合產物，是一種偶然，也是一種必然。

國內最早是在1992年，國防科技大學研製的第一輛無人駕駛實驗汽車；2016年之前，我國自動駕駛處於科研主導、產業探索初期；2016年是一個爆發點，大量資本湧入，科研主導逐漸演變為市場主導，巨頭捲入，自動駕駛創新企業迎來蓬勃發展。

那一年，滴滴組建自動駕駛團隊，小馬智行與Auto X也相應成立；隨後專注於RoboTaxi和商用車應用場景的景馳、Roadstar、文遠知行、元戎啓行、輕舟智航也相繼入局，自動駕駛的風口開啓。

如今，伴隨着RoboTaxi批量商用落地，自動駕駛商業路徑呈多元化發展。

市場層面上，目前乘用車量產車型已實現的自動駕駛功能主要集中在L2級別，個別車企在推進L2+、L2++級別，但還未有L3級別的躍進；在部分商用封閉場景，如港口、礦山以及RoboTaxi，自動駕駛公司選擇從L4級別開始發力，尋求跨越式突破。

鄧志東談到，低速L4更多的是商業模式的創新。然而是否需要經歷L3這個過程，行業仍是有爭議的，傳統車企基於安全性與成本的考量，希望有循序漸進的過程，但由於L3相關政策、法規比較難推進，跨界的科技企業期望直接跨越到L4。

人類駕駛是利用認知指導、在語義理解基礎之上完成汽車的動態駕駛任務（DDT）的。

語義本質是一種知識，是人類可理解與可交流的，包含的信息豐富多樣。在知識邏輯體系裏面，不能違背常識。違背了語義關係，就是違背了常識。在自動駕駛語義環境中，機器要學會去理解自車與道路、他車、行人、信號燈、交通標識之間的關係，需要利用常識去解決長尾問題，並做出最優的預測、決策與規劃。

目前，多目標實體相互關係的語義理解是鄧志東團隊正在突破的課題之一。

具體包括在基於數據驅動的視覺深度學習模型中，如何增加對規則節點的學習，對關係的學習，對知識推理的應用，使得新一代人工智能模型具有可解釋性與高魯棒性。鄧志東談到，團隊正嘗試將黑箱模型轉變為灰箱或白箱，儘管單段模塊本身可能是黑箱，但若實現塊與塊之間的邏輯連接與可解釋性，則有非常大的研究與應用價值。

舉一反三的少樣本與跨模態、跨場景的學習能力也是其中研究的重點。不同於過去二維圖像、三維點雲等低維原始數據的聚類方法，鄧志東團隊目前聚焦在高維特徵空間上的深度無監督學習與深度自監督學習，力圖引入知識及知識推理來解決小樣本學習、跨場景學習問題。

他舉了一個很形象的例子，比如只給AI模型看5只不同形態的“標籤”貓，其他類型的貓僅靠機器自動用深度聚類方法尋找標籤學習，已經是完全可以做到的，且進展非常大。

鄧志東告訴36氪，人與人之間、人與環境之間以語義彼此交流，本質是相互間可以理解、不違背常識，自動駕駛應該關注目標的內涵、外延及其與彼此之間的語義交互關係。

當然，數據驅動與知識驅動的結合已成為共識，科學研究過程中既要有數據驅動的黑箱，也需要知識驅動的白箱，兩者在邏輯上互相關聯，具有可解釋性。

03 談創新：科技成果難以直接轉化成產品

2016年市場開啓時，創始玩家多為高校出去創業的學生，鄧志東回憶到，電動化首先帶來一波衝擊，隨後傳統車企被迫捲入，其次智能化又引起更大的衝擊。蔚小理等研發新能源汽車增加智能化也是市場需求，趨勢明顯。

自動駕駛產業鏈可分為硬、軟與系統等，主要包括車載攝像頭、激光雷達、4D成像毫米波雷達、高精度定位定姿設備、AI芯片、計算平台、域控制器、執行機構、底盤、AI超算離線訓練平台、5G移動通信設備、邊緣計算、雲服務平台、智能路網新基建等，以及高精度地圖、操作系統、AI算法與軟件等，涉及感知層、決策層、規控層等。

從玩家角色看，需要汽車製造商、零部件供應商、車載計算平台開發商、自動駕駛解決方案提供商、出行服務供應商等多方市場主體參與。

鄧志東告訴36氪，國內市場主體目前在自動駕駛的各個細分賽道均有全方位的佈局。對於新入局者，除非真有一些 “殺手鐧” 的東西，要不很難脱穎而出，去分得一杯羹。未來的機會更多還是在產業鏈上游的關鍵零部件或下游的模式創新上，這也是價值鏈的高地。

在專精特新的背景下，科學家創業或成果轉化也成為常態。鄧志東談到，對於從事前沿技術突破的科學家，他的後面非常需要一個高效的工程師團隊來支撐，也需要企業家來主導成果的二次開發與市場化運作，而這些成果轉化要素的整合都需要資本的介入。

尤其自動駕駛領域屬於大系統工程，其中不能有任何短板，一個好的源頭創新思想必須經過各種各樣的試錯實驗、技術驗證和持續的性能迭代。

成立於1999年的 Mobileye 是典型的科學家創業企業，創始人Amnon Shashua 原是以色列希伯來大學的計算機科學教授，創業8年，2007年才推出第一款輔助駕駛產品。2017年被英特爾收購，如今估值已達500億美元。1992年成立的Boston Dynamics (波士頓動力) 也來自於科學家創業，創始人及CEO Marc Raibert曾任CMU與MIT副教授，都屬於那種令投資人既愛又怕的創業者。

鄧志東談到，無論是Mobileye ，還是像波士頓動力這類成立30年仍未盈利的前沿技術公司，中國現實條件下很難存在此類模式的科學家創業企業，原因之一在於從上到下的資本都很難去支持如此長線的投資。

不過，投資人對於高精尖項目的選擇性投資，反而更需要科學家對技術底層邏輯與演進的科學視野及判決。

高校是源頭創新，源頭科技成果並非可以直接轉化成商用產品，這是過去存在的嚴重誤區。

鄧志東告訴36氪，高校的科技成果轉化應主要依靠推動與發展發達的資本來融合主導。一般而言，中間包含二次轉化，三次轉化，市場反饋迭代等，投入其實是非常大的，對此要有清醒的認知。同時，在官產學研用金的大背景下，科學家要去解決真問題，才能夠在成果既要落地，學術研究又需要很前沿之間尋求平衡。

04 談未來：技術成熟後可快速降維應用

鄧志東表示，自動駕駛未來突破點在於可解釋的AI模型與商業模式的創新。

他談到，目前產業內基本形成以美國為代表的“單車智能”路線和以中國為代表的“單車智能+車路協同”路線。國內的優勢在於可以先做政策試點，通過以點帶面，小步快跑，在多樣化應用場景下形成獨特優勢。

政策層面上，截至2021年11月，全國已有38個省/市出台了路測管理細則，先後建設了70個測試示範區，開放了5200多公里測試道路，發放了1000餘張測試牌照。

另外，2022年8月1日，深圳率先實施了《深圳經濟特區智能網聯汽車管理條例》地方法規；8月8日重慶、武漢“雙城”首次啓動了全車無安全員的自動駕駛商業化付費出行服務試點，開始試水全無人、公開道路、商業化收費的規模化RoboTaxi出現服務，使中國的自動駕駛商業化運營走在世界前列。

可見，產業政策積極引導，安全監管穩步推進，市場主體主動參與，產業生態正在不斷完善，合力支撐正在持續發力，鄧志東表示。

在從L2自動輔助駕駛邁向L3+自動駕駛過程中，鄧志東告訴36氪，一對多邊雲接管將成為一個有效的技術演化路徑。按照發展邏輯，安全員從主駕到副座，副座到後座，後座到邊雲接管的演進過程中，未來再經過持續的技術迭代，邊雲安全接管員通過數字孿生平行世界的AI接管預測，逐步實現一對一，一對十，一對一百的接管照看，並最終過渡到 L4 級別的完全無人駕駛。

一對多邊雲接管降低了人力成本，實現了可持續發展的盈利閉環與商業模式，當共享無人駕駛汽車可滿足一個城市的出行服務需求時，機動車絕對數量將會大大減少，目前很多交通難題都會迎刃而解。

未來，隨着自動駕駛技術的成熟，其中涉及的大量共性關鍵技術可以拿來降維應用，包括高價值的視覺感知技術，這樣也能很好地解釋為什麼特斯拉會積極轉到人形機器人的研發。

（完）