小鵬汽車吳新宙：P7視角下的高級別自動駕駛背後的視覺感知技術

本文為小鵬汽車自動駕駛副總裁吳新宙來稿，以小鵬P7視角從L2級感知需求、高級別感知需求、自動駕駛研發架構等方面，解讀了小鵬汽車自動駕駛背後的視覺感知技術。

以下為正文的內容

我們知道，開始向電力驅動邁進，是如今每一家汽車製造商都必須要做的事情，但只有真正的智能電動汽車才是汽車未來的下一個賽道。

小鵬的自動駕駛是小鵬汽車智能化的最主要標籤，也是小鵬的最核心差異化。隨着 P7 的推出，我們的主要自動駕駛功能會在下半年通過 OTA 逐步向用户釋放。作為小鵬自動駕駛的 “掌門人”，我也想在接下來的幾個月中逐步的向大家深度解析一下我們自動駕駛的核心能力，讓鵬友們在使用小鵬自動駕駛功能的同時，能夠了解一些 under the hood 的核心算法，同時也能對我們未來功能的演進和規劃有一個瞭解和期待。

今天我們先説一下視覺感知，這可能也是對用户最直觀、最容易理解的能力；後續我們也會逐步深度解析一下其餘部分，包括定位、融合、規劃等核心算法模塊，我們的硬件能力和規劃，以及我們在中後台（大數據）的佈局和思考。

高級別自動駕駛（ L2+）的核心是視覺感知能力

視覺感知是自動駕駛的上游模塊之一（小鵬自動駕駛算法架構見上圖），也是高級別自動駕駛中的最核心能力。每一家注重自動駕駛的量產車企，都會把視覺感知作為一個重中之重來佈局，不管是通過自研還是走供應商的方案。從某個意義上講，視覺方案的優劣，很大程度上會決定該自動駕駛方案的高低優劣之分，以及功能的魯棒性和穩定度。因為，到了今天，毫米波雷達的能力已趨成熟，功能、性能上的差異化很大程度上是來自於視覺。另外，隨着 L2 級自動駕駛逐漸成為整車的標配，許多車廠開始佈局甚至部署更高級別的自動駕駛，這對感知，特別是視覺感知，也產生了更高的要求。隨着 P7 的上市，小鵬會在今年下半年在 P7（智尊版）上逐步釋放更高級的自動駕駛能力，包括在 XPILOT 3.0 中。而這其中，最核心的行車功能是導航輔助駕駛，簡稱NGP（Navigation Guided Pilot）。

具體來説，對 L2 的核心功能而言， ACC（自適應巡航）需要對前車的穩定檢測， LCC（車道居中）則需要對本車車道線的穩定檢測；但是對於更高級自動駕駛來説，自主變道是最核心的功能，他帶來了比 L2 級自動駕駛高出許多的感知需求。為了方便描述，對於感知需求或者是感知能力，我們可以分為兩類：

幾何感知：這是指對周圍環境或事物體的空間理解能力，或者説是對相關物體準確的定位能力。
語意感知：這是指物體類型，屬性，意圖的理解。對於高級別自動駕駛而言，首先，360° 的精準感知成了必須—除了對前車的檢測和判斷，我們需要對周圍所有車輛的位置，速度，和加速度進行跟蹤，來服務於變道的決定，這是幾何感知需求。另外，語意級信息變得更為重要，舉一個簡單的例子，在某些簡版的 LCC 實現中，本車車道線屬性都不是特別重要的。但是自主變道的需求把這個變成必須——因為本車需要避免在車道實線時作出變道的決策；另外，不光是本車車道線屬性，旁車道車道線屬性也需要準確檢測，因為我們需要去推測旁車是否會有切入、變道的意圖。

另外，對每條車道的駕駛限制屬性(是直行車道或是下高速的匝道)，每條車道的限速，該車道與前方其他車道的連接關係，本車都需要⼀個判斷。最後，對於旁車，我們不僅要判斷他在當前的位置，還需要對他的接下來的行為做一個判斷，是為預測。而準確的預測，就需要對該車和它所屬環境中的語意信息都需要⼀個瞭解。我們可從下表把這個需求的不同做⼀個概述。

隨着 L2+ 級自動駕駛對語意，幾何感知的需求的增長，視覺感知也會起到越來越關鍵的作用。因為和其他傳感器相比，攝像頭在獲取語意信息上有着得天獨厚的優勢，因為它有比毫米波雷達高得多的像素密度（2到3個數量級）。同時，通過先進的算法，攝像頭也可以精確的測量周圍環境中的物體位置，同時通過傳感器融合減少誤解和漏檢，極大的提高感知在幾何和語意信息的準確度。這也是為什麼我們説視覺感知是⾼級別自動駕駛的核心能力，而視覺感知能力的 360° 覆蓋，也是邁入高級別自動駕駛的重要門檻。

接下來我們具體聊⼀下小鵬在視覺感知上的佈局。超強的視覺硬件部署小鵬在 P7 上通過 14 個視覺攝像頭的佈置，完成了對遠，中，近三個區域的全方位視覺覆蓋。

小鵬 P7 搭載 XPILOT 3.0 系統

小鵬 P7 搭載 XPILOT 3.0 系統這樣強大的攝像頭組合在國內外都是⾮常領先的，也為我們在泊車和行車上做出差異化打下了基礎。

遠區域（50m+）: 前視主攝像頭和 narrow 攝像頭；後視主攝像頭；
中區域（3m至100m): 魚眼攝像頭，覆蓋360°；
近區域（0m至10m）：環視攝像頭，覆蓋 360°；主要用於泊車。

超魯棒的車輛和車道線檢測是視覺感知能力的基石無論是對於 L2 或是更高級自動駕駛，視覺感知的基石一定是車輛和車道線的檢測能力。在這兩個方面，小鵬主要注重三大項的工作：

（1）建立高多樣性，涵蓋中國儘可能大部分的駕駛場景數據集；過去兩年，P7 的感知開發處於完成 0 到 1 狀態，或者説是冷啓動狀態。為此，小鵬建立了自己的數據採集團隊，歷經兩年，在不同的城市、不同場景、採集了大量的 360 度攝像頭數據。

（2）建立快速的數據獲取和網絡訓練之間的閉環機制，高效解決感知性能的長尾問題。深度學習網絡的性能往往在一定數據訓練量之後性能會趨於飽和，比如在準確度達到 90% 以後，往往增加數個百分比的性能需要倍增訓練數據量。比如下圖顯示了車道線檢測準確率隨着訓練數據量的變化，在 90% 以後，使⽤簡單增加訓練數據量的方法對性能的增長是非常緩慢的。

為了打破這個長尾的迷局，小鵬在數據上的核心戰略是定向標註和定向獲取。所謂定向標註，也就是從目前網絡性能的缺陷或是測試過程中發現的核心視覺感知問題，能夠定向地從現有數據庫中尋找相關的數據，進行標註和增加到訓練數據集。目前小鵬內部的工具鏈已經有在數天內完成這個閉環的能力（從發現問題到解決問題）。所謂定向獲取，是要更好的解決更長尾事件（ 0.1%，0.01%，…)，因為這些數據可能在現有的數據集中也是匱乏的。

作為主機廠，小鵬的核心佈局是建立可以從自己的數據採集車和用户車輛中可以在線檢測這些長尾事件，並獲取這些數據上傳至雲端，用於算法改進。這兩項能力，是我們快速迭代核心感知算法功能和性能的核心能力。在下圖顯示了這個策略的效果，我們只用了約 12% 的定向數據，取得了最後性能的快速提升。

（3）軟硬件結合，高效實現網絡在硬件中的實現。14個攝像頭，N 個深度學習網絡，數十個深度學習輸出物，需要在小鵬基於 Xavier 的主控 ECU 上並行處理，同時平衡好網絡性能和魯棒性。在此我們做了大量的工作，包括對網絡的大量優化，讓網絡在不同任務間，設置不同攝像頭之間共享資源，同時充分利用 Xavier上強大的運算資源（GPU，DLA等）。小鵬自研的車道線檢測就是上述策略很好的例子。為了用户在國內特有的駕駛場景下有更好的體驗，我們在過去⼀年內完成了【 X】版⽹絡的更新和【 Y】個corner case的增強。目前來看起到了非常好的效果，在內部測試中，我們的 LCC 顯示了非常強悍的抗干擾能力。

字符干擾

雨天、遮擋

暴雨、夜間

另外，在解決車輛、車道線的檢測準確率之外，我們也在快速地加入和車輛，車道線更多的特性，來幫助感知在幾何和語意上的能力。首先，攝像頭有非常強的相對幾何測量能力——車輛的長寬高比例、車輛在車道線中有多居中，還有旁車和本車相比的相對位姿，這些我們都在通過深度學習網絡來實現。而這些信息通過毫米波雷達往往是很難拿到⼀個準確信息的。同時，這些信息對旁車的判斷和行為預測都是非常重要的。比如對旁車切入意圖的判斷，除了看旁車和車道線的相對位置外，準確的車輛航向角也會有很大的幫助。

簡短總結⼀下。視覺感知是自動駕駛能力，特別是 L2 以上級別自動駕駛的最核心能力。通過之前兩到三年持續不斷的努力和投入，小鵬已經建立起了端到端自研自動駕駛全算法堆棧的能力，包括視覺感知，並將隨着 P7 的上市而量產。這在國內的主機廠中可以説是獨一無二的。目前我們正在高速和城市場景的視覺感知上持續發力，力爭在今年下半年和明年給小鵬 P7 的用户在中國駕駛環境下帶來不一樣的駕駛體驗。萬分期待 P7 的自動駕駛能力與大家的早日見面，和逐步提升！

雷鋒網雷鋒網雷鋒網