為什麼特斯拉實現不了 L5 自動駕駛？

2020-08-15由納喇曉枝發佈於科技

【編者按】L5全自動駕駛短時間內無法大規模落地。與之相比，L3自動駕駛商業是短時間內更加有希望實現的。車企可以聚焦挖掘L3自動駕駛技術的商業價值。

本文轉載自42號車庫，原作者William；由億歐汽車整理轉載，供行業內人士參考。

在過去的十年，自動駕駛從大部分人眼裏的「完全不可能」變成了「一定能實現」。包括我在內的無數對自動駕駛充滿信念的年輕人都投入到了這一領域內。

但其實我們對完全自動駕駛如何實現，怎麼樣才能盈利以及到底什麼時候才能最終普及充滿了困惑。

因此我將在我的這篇文章中結合馬斯克的 2020 自動駕駛願景，從技術、社會接受度及商業應用的角度分析這些問題。

馬斯克的2020自動駕駛願景

特斯拉首席執行官埃隆·馬斯克在上個月上海世界人工智能大會發布的視頻中説到：「我覺得我們已經非常接近 L5 級自動駕駛了。我有信心，我們將在今年完成開發 L5 級別自動駕駛的基本功能」。

這一聲明引爆了行業討論，很多媒體對他的陳述斷章取義並部分誇大，宣稱特斯拉能在 2020 年實現「L5 完全自動駕駛」。

我們先討論「L5 級別自動駕駛的基本功能」。

我個人非常相信，在當下受限場景下，全自動駕駛的基本功能是能很快實現的，任何一家頂級車廠都有實力在今年造出一台沒有方向盤在測試場狂奔避障的「全自動駕駛汽車」，但是沒有然後。

如果馬斯克僅僅討論「L5 級別自動駕駛的基本功能」，那麼該新聞對我沒有吸引力，因為大眾搭載 L4/L5 自動駕駛技術的 Sedric 早在今年年初在漢堡的測試場就已經開發完成了。

世界上第一台通用計算機「ENIAC」於 1946 年誕生，但是直到 20 世紀 80 年代才作為個人電腦大規模普及。一項技術從一開始的科研到產品，再到商品普及的關鍵，是成本與體驗。目前的 L5 自動駕駛樣車均不滿足這兩項要求。

根據 SAE 對於自動駕駛級別的劃分，L5 自動駕駛汽車要求自身可以在任何情況下進行所有駕駛，並且車內人員只是乘客，無需參與駕駛。因此全自動駕駛汽車甚至不需要方向盤和駕駛員座椅，乘客可以在汽車上花費更多的時間從事更有成效的工作。

「我們非常接近 L5 自動駕駛」，這句話沒錯，特斯拉很有可能今年年底就能完成 L5 自動駕駛汽車的基本功能。但「基本」是否意味着「完整且可以部署」？政府和監管機構是否允許他們上路？這些問題馬斯克都沒有解釋。他的話存在很大的解釋空間。

實際上在許多工程問題中，尤其是在人工智能領域，最後一英里往往需要很長時間解決，「接近」永遠不是「等於」，能在測試場跑不代表能應付真實場外道路。

更重要的是，自動駕駛的普及不單單是技術上的事，更需要整個社會願意接受這項技術帶來的變革。

當前市面上的自動駕駛技術，包括特斯拉都是處於 L2 級別，即部分自動化，駕駛員必須始終保持對汽車的控制，並在自動駕駛功能開啓時將手放在方向盤上。

實際上特斯拉在逐步將 L3 級別自動駕駛的功能部署在對外宣稱的 L2 級別自動駕駛平台上，如紅綠燈檢測及針對目的地導航的 Full Self-Driving Capability，讓消費者獲得超出別家 L2 級別自動駕駛的體驗，但是自身不需要承擔 L3 級別的法律風險及倫理悖論。

畢竟對於消費者來説，他們不管你 Level 幾，只關注功能是否新穎可靠，如果此時價格也不超出他們的承受能力，那絕對可以考慮入手了。

馬斯克很多話的目的，其實就是為了讓大家相信特斯拉的技術實力，相信特斯拉純視覺方案的 Full Self-Driving Capability，從而讓更多的普通大眾願意為特斯拉買單。馬斯克是一個偉大的科學家，但這絕對不會妨礙他成為一個狡猾的商人。

現在我們來討論我們工程師感興趣的，「特斯拉的純視覺深度學習解決方案能否在 2020 年甚至接下來的幾年內實現 L5 全自動駕駛？」

我的答案是：不能。

以下將從特斯拉的技術路線、L5 自動駕駛的社會接受度及商業模式方面分析「我為什麼認為馬斯克的 2020 L5 自動駕駛願景實現不了」。

特斯拉的技術路線

馬斯克在以往講話中提出的另一個重要的觀點，他相信特斯拉汽車「僅通過改進軟件即可實現 L5 自動駕駛」。

目前的 L4 自動駕駛公司，如 Waymo 和 Uber 都使用了激光雷達模塊來創建汽車周圍環境的高精度三維地圖，以此彌補純視覺感知的不足，提供更多的安全冗餘。

而特斯拉目前主要依靠基於攝像機的純視覺算法來識別交通場景，通過深度神經網絡從安裝在車輛周圍的八個攝像頭的視頻源中檢測道路、汽車、物體和人。雖然特斯拉還配備了前置雷達和超聲波雷達用以輔助，但是效果有限。

馬斯克的邏輯是：人類大多數情況下僅僅依賴於自身的視覺來識別周圍的物體，人眼能做到的，攝像頭同樣也能做到。

這個邏輯並不完整，首先人類的眼睛背面有連接到大腦的 3D 映射硬件來檢測物體並避免碰撞，至少 2020 年的攝像頭並沒有這一映射模組。

其次，當前的深度神經網絡充其量只是對人類視覺系統的粗略模仿，只是模擬了人類大腦皮層神經細胞的一小部分。

深度學習的侷限性在於，它需要大量的訓練數據才能可靠地工作，當面對訓練數據中未包含的新情況時，它們沒有人類的創造性和靈活性。

因此依靠現存的深度神經網絡，我們無法實現「西部世界」中雷荷波的萬物皆可預測。

最後，人類的眼睛經過數百萬年的進化，視覺皮層對特定的事物如物體形狀、特定的顏色、紋理以及運動追蹤非常敏感。我們的汽車、道路、人行道、路標、紅綠燈等交通設施和建築物都是依據人類的視覺喜好設計。

我們根據人類視覺系統的總體偏好和敏感性，有意識或無意識地選擇了這些物體的顏色、紋理和形狀。

人工智能往往在後天上去學習瞭解部分這些特性，而人類早已經在先天上具備這種優良的識別能力。

也許有一天攝像頭也能達到人眼一樣的效果，但這一天肯定不是今天，也不是今年。

關於深度學習的數據依賴性，馬斯克在他的講話中也提到了，Tesla Autopilot 在中國之所以不能像在美國那樣好用，是因為特斯拉視覺算法的大多數培訓數據都來自美國，這其實和奧迪 A8 的 L3 自動駕駛功能在中國的應用非常受限的原因是一樣的。

由此引出了一個概念：深度學習的長尾問題。

所謂深度學習的長尾問題（Long-tail problem）就是模型所面臨的極端情況或者「Corner case」的數量是未知的，很有可能是無限的。

人類駕駛員能夠迅速適應新的環境和條件，例如新的城市或城鎮，或者以前從未經歷過的天氣條件（積雪、大霧、泥濘小路等）。

當我們處理新的情況時，我們會使用直觀的物理學、常識以及對世界如何運轉的知識來做出理性的決策。

我們瞭解因果關係，並可以確定哪些事件導致了其他事件。我們還了解環境中其他理性行為者的目標和意圖，並可靠地預測其下一步行動。但是目前，深度學習算法還沒有這種功能，因此需要針對每種可能遇到的情況進行預訓練。

即使特斯拉的深度學習算法適應的環境中如高速公路，它們也不擅長處理訓練場景之外的情況，比如前兩個月在台灣發生的特斯拉撞入前方傾翻車輛的事件。特斯拉可以不斷更新其深度學習模型，以應對所謂的「Corner case」，但是實際上這種極端情況是未知的。

馬斯克在他的講話中提到，「我認為實現自動駕駛 L5 目前不存在底層的根本性的挑戰，但是有很多細節問題。我們面臨的挑戰就是要解決所有這些小問題，然後整合系統，持續解決這些長尾問題。你會發現你可以處理絕大多數場景的問題，但是又會不時出現一些奇怪不尋常的場景，所以你必須有一個系統來找出並解決這些奇怪不尋常場景的問題。這就是為什麼你需要現實世界的場景。沒有什麼比現實世界更復雜了。我們創建的任何模擬都是現實世界複雜性的子集」。

他認為 L5 自動駕駛沒有根本性挑戰的信心來源於特斯拉能從全世界收集來自現實世界的數據解決自動駕駛問題，特斯拉通過收集的數據不斷模擬虛擬場景並微調其算法，會讓特斯拉最先逼近現實場景中深度學習長尾問題的極限值。

解決長尾問題上目前有兩種，一種是在大數據集上訓練更大、更復雜的神經網絡，最終在認知任務上達到人類水平的表現。另一種是在大數據集上直接擬合，找到可以覆蓋問題空間更大範圍的正確數據分佈。

這些方法都是基於大數據，如果這些理論是正確的，那麼特斯拉確實可以在可預見的未來通過收集和有效利用越來越多的汽車數據實現 L5 全自動駕駛。

但是有些人認為現有的深度學習理論從根本上是有缺陷的，因為它只能插值。人類對世界的感知不僅有環境信息提取，也有邏輯因果。

而深度學習沒有探索環境的因果模型，這就是為什麼深度學習工程師需要精確地訓練他們想要解決的問題的不同的細微差別。

無論你在多少數據上訓練一個深度學習算法，你都不能完全相信它，因為總是會有許多新奇的情況出現導致推理失敗。

相比而言，人類的大腦不需要明確的培訓，它從每個環境中提取高層次的規則、符號和抽象概念，並用它們來推斷新的設置和情景。

因此，如果深度學習算法沒有對抽象網絡和符號操作的利用，沒有整合常識、因果關係和直覺物理學，它將永遠無法達到人類水平的駕駛能力。

當然目前有很多對於深度學習網絡的改進，如：

Hybrid artificial intelligence：結合了神經網絡和符號人工智能，賦予深度學習處理抽象的能力；

System 2 deep learning：使用了一種純神經網絡的方法來為深度學習提供符號處理能力；

Self-supervised learning：通過自身探索世界來學習，而不需要人類的大量幫助和指導；

Capsule networks：通過觀察像素來創建一個準三維的世界表示，為對象的不同組件之間建立連接。

這是深度學習領域最前沿的早期研究，但是還沒有準備好被部署到自動駕駛汽車和其他人工智能應用中。

綜上所述，特斯拉的純視覺深度學習解決方案沒法在 2020 甚至及接下來的幾年內實現 L5 全自動駕駛。

接下來我們來討論「社會是否做好了接受 L5 全自動駕駛的準備？」

L5 自動駕駛的社會接受度

標準法規

在特斯拉目前宣稱的 L2 自動駕駛中，駕駛員被要求對他們自己的所有駕駛行為負責。

對於由人駕駛汽車引起的事故，我們有明確的規章制度。但是自動駕駛汽車仍然處於灰色地帶，即便是 L3 級別自動駕駛的事故責任劃分，目前都沒有任何國家出具詳細的法律條文。

而 L5 自動駕駛汽車，駕駛員不需要為事故承擔任何負責，那麼製造和提供自動駕駛汽車的公司分別要承擔怎樣的責任？保險公司又應該承擔怎樣的責任？一直不願意對 Autopilot 事故負責的特斯拉是否願意承擔這可能的責任？

人類的自我導向

推崇自動駕駛 AI 的人往往認為，人類駕駛員也會犯很多錯誤，而自動駕駛汽車犯錯的概率相對於人類要小了很多，會讓駕駛變得更加安全。

對於這一點，我是存在疑慮的。首先由於疲倦、大意、酗酒等因素，人類在駕駛中確實會犯很多錯誤，但是目前的樣本數量和數據分佈無法得出駕駛員和 AI 之間的事故發生頻率的準確比較。

其次，與自動駕駛汽車背後的 AI 算法相比，也許人類錯誤頻繁，但卻很少出現怪異的現象，對於怪異的現象人類更容易預測和規避，比如有理智的人類駕駛員都不會往傾翻的卡車上撞。

最後，人類往往會去理解和接受自己主觀行為帶來的後果，但是無法接受自己的生命被別人支配，被動地承擔所有的致命後果，人們更期待自動駕駛的安全性遠超自身。

因此就引出了下一個問題：安全性。

安全性與公眾信任

馬斯克在他的講話中提到了一個問題：「L5 級別自動駕駛的安全性需要達到要求的兩倍？三倍？五倍？還是十倍？人類的可接受水平到底是多少？」。

安全性的評判沒有一個統一的標準，至少與人類同等的安全性是絕對不夠的，只有超出預期才有價值，監管機構也不會認可 L5 自動駕駛達到與人類駕駛員同等的安全性是足夠的。

但就目前的現狀來看，深度學習算法的安全性還遠遠比不上普通人。

人類的推理不僅是對信息的提取和分析，還反應了人的思想，這些因素的綜合使人類能夠做出普遍正確的判斷。

在任何情況下，人們都更傾向於將責任歸咎於技術而不是人類自己，這就導致了人們對技術的信任感缺失，公眾信任的缺失會影響了整個汽車行業。未來勢必會有類似圖靈測試一樣的實驗來評判自動駕駛人工智能的安全性。

那麼要實現類似人類推理一樣的安全性，除了 AI 視覺算法的進步，我們也可以通過增加約束，使得 AI 算法和硬件正常可靠的工作。給 AI 算法加設火車軌道，火車脱軌的概率應該足夠小了吧？

這個約束就是：車路協同。

車路協同

我們可以改變道路和基礎設施，以適應汽車中存在的硬件和軟件。例如，我們可以在道路、分隔線、汽車、道路標誌、橋樑、建築物和物體中嵌入智能傳感器。

這將允許所有這些對象相互識別並通過無線電信號進行通信，也就是 V2X。

計算機視覺在自動駕駛中仍將發揮重要作用，但它將作為汽車及其環境中存在的所有其他智能技術的補充。

隨着 5G 網絡的鋪展以及智能傳感器和互聯網連接的價格下降，以 V2X 為主導的自動駕駛方案會更加常見。

但是目前道路基礎設施現代化的成本並未納入大多數自動駕駛發展的預測，在廣泛區域內運行的 L5 自動駕駛可能需要大量基礎設施投資，才能在整個範圍內可靠運行。

技術和配套設施的變革往往需要企業與政府持續的鉅額投資和時間投入。但對於地方政策制定者來説，自動駕駛配套基礎設施的建設需要考慮很多因素。

首先，儘管地方政策將在基礎設施支出和建設方面會發揮核心作用，但是全國各地不同的經濟、政治、文化、地理和天氣狀況將影響建設的速度和質量。

其次，在取得技術先發的光環優勢之後，各地政府會更多考慮設施的有效利用、投資的回報、各轄區之間的利益均衡、給予的政策激勵、人才培訓及勞動就業等。

最後，萬物互聯帶來的隱私和安全威脅也會是影響道路基礎設施現代化的因素之一。

地理圍欄

地理圍欄是自動駕駛/高級輔助駕駛技術量產的關鍵，也是未來主機厂部署 L2+ 自動駕駛時的主要開發任務之一。

地理圍欄的意思是，只讓自動駕駛技術在功能經過充分測試和認可的區域，有智能基礎設施以及針對自動駕駛量身定製的法規的區域中操作。

也就是限定哪些道路和區域可以開啓車輛自動駕駛功能，哪些道路是默認關閉這一功能的。

地理圍欄的設定需要考慮到城市和高速公路駕駛之間的複雜性差異，基礎設施和駕駛員行為的區域差異以及某些路段能見度差或交通設施不正常的情況。

地理圍欄其實是一種技術過渡的措施，主要是考慮到當前的深度學習狀態，在一夜之間推出全自動駕駛技術的前景並不樂觀，盡最大可能地平衡自動駕駛的體驗與安全性是主機廠當前開發的主要目標。

隨着技術的進步、基礎設施的發展以及法規的適應，這些限制會逐漸減少，從而讓現有的高級輔助駕駛平穩並逐步地過渡到全自動駕駛。

雖然設計地理圍欄內容很無聊，但是我非常建議自動駕駛公司擁有自己的地理圍欄數據庫，這會極大有利於自身技術方案在不同客户間和不同區域內的快速部署。

新事物的變革，社會往往需要很長的時間才能適應這一變化，除了技術本身的演進，標準法規、倫理、公眾信任等還有漫長的路要走。

實現 L5 自動駕駛，不僅意味着技術上達到了，還意味着產品能賣出去給顧客使用。

因此我們來討論下 L4/L5 自動駕駛是否具有成熟的商業模式。

L5 自動駕駛的商業模式

正如我們的道路隨着從馬車到汽車的過渡而發展一樣，隨着軟件驅動和自動駕駛汽車的出現，城市交通可能會經歷更多的技術變革。

可以預測到的是，自動駕駛技術會在很長一段時間擾亂城市交通並使其深層變革，但是這一轉變不會突然發生，至少在接下來的十年中，全自動駕駛將僅限於有限的地理和氣候區域。

伴隨着汽車電氣化、萬物互聯、跨車型服務模式的發展，越來越多的自動化出行系統將在隨後的幾十年中蓬勃發展。

由此產生了用於貨物和服務分配的新模型——物理互聯網。

未來十幾年自動駕駛的市場規模預計是數千億美金，但是自動駕駛背後隨之而來的城市交通出行的變革、勞動力升級會帶來數萬億美金的市場。

自動駕駛的盈利不單單是出售車輛技術解決方案，參與並在「物理互聯網」中提供多樣化的服務，即使提供硬件基礎和軟件平台，也會獲得匹敵甚至超出出售技術方案本身的收益。

在 MIT 自動駕駛未來報告中，研究人員將自動駕駛的未來商業之路分為 4 種模式：

自動出租車隊

Waymo、Uber、DIDI 都組建了自己的自動駕駛車隊，雖然這一領域具有極佳的商業價值和明星效應，可以進一步解決最後一公里的難題，但是在可見的未來會被限定在特定的區域或者路段內，比如從市區去機場。而且駕駛員的監督仍然是必不可少的。

自動裝卸車和客車

由於目前自動駕駛車輛的行駛仍然需要限制在嚴格的地理圍欄中，固定路線的公共交通其實更容易滿足這一要求。

我們可以重塑固定線路的道路設施來增加地理圍欄區域，從而讓自動裝卸車和客車更容易處理沿線駕駛場景。

對於政府來説，自動公交車具有可預測的環境成本和收益，固定的行人出行方式、更大的公共交通利用率、還可以有效改善交通擁堵、提早覆蓋地鐵等重型交通未覆蓋的區域、同時增加基礎就業機會、提高城市形象，因此會作為政府首要推導和支持的自動駕駛商業模式。

自動長途卡車

自動長途卡車同樣具有可預測的環境成本和收益，並且有着固定的交通場景（高速公路），可能會成為最先商用的自動駕駛技術。

通過遠程監控員，各種人車數量之間的聯排（多輛自動駕駛卡車跟隨頭車駕駛員的操控）以及給駕駛員提供途中睡覺的時間，卡車公司可以減少卡車路線中駕駛員的需求量，縮短運輸時間。

因此自動駕駛卡車對客户企業有着很強的經濟吸引力，對自動駕駛公司來説也有着很大的利潤空間。

駕駛員輔助型個人汽車

未來十年，會有更多的主動安全功能出現，駕駛員高級輔助系統依舊是個人車輛自動駕駛主要的商業應用。

L2/L3 自動駕駛車輛逐漸普及，但是 L4/L5 的個人車輛自動駕駛可能得在前面幾個模式實現之後，才會最終普及。

原因在於，個人車輛的 L4/L5 駕駛區域是不應該受到廣泛限制的，而且 L4/L5 車輛的硬件成本勢必不低，個人車輛對於安全性的要求也是最高的，如果不能給駕駛員提供廣泛可用的自動駕駛場景，那麼這一功能對於普通消費者來説是極不划算的，這一技術在個人汽車領域的普及也將會遙遙無期。

除了上述車輛商業模式之外，自動駕駛技術配套基礎設施的建設，由自動駕駛拓展出來的新型交通出行服務都是這一領域未來的商業盈利點。

甚至在未來的很長一段時間，搞自動駕駛基建賺的錢都比出售自動駕駛技術方案賺得多。

在上述自動駕駛商業模式中，L4 自動駕駛卡車可能在 2030 年左右最先普及，而 L5 全自動駕駛尤其是個人汽車處於許多科學、法規、社會和哲學領域的交匯處，需要整個社會為之準備和改變，很有可能 2050 年左右才能最終實現，也很有可能永遠都實現不了，因為 L5 的核心是道路萬物皆可預測，而人類永遠是不守規則的生物。

最後我想説的是，其實 L5 自動駕駛是 L4 場景的不斷延伸，L4/L5 自動駕駛工程上一般會一起討論。

如果 99% 的使用場景都可以實現自動駕駛，那麼它的價值其實已經足夠了，沒必要為了最後的 1% 去付出遠超 1% 的代價，更不要為了追求標準而去開發自動駕駛。

自動駕駛的目的永遠是為了讓駕駛更加安全和智能！

綜上所述，我不認為特斯拉在技術上，社會接受度以及商業模式上做好了在 2020 年甚至未來幾年內實現 L5 自動駕駛的準備。