CVPR 2020 | 可擴充套件且高效,谷歌提出目標檢測“新標杆”

CVPR 2020 | 可擴充套件且高效,谷歌提出目標檢測“新標杆”

本文解讀的是CVPR2020 接收論文《EfficientDet: Scalable and Efficient Object Detection》,論文作者來自谷歌團隊。

CVPR 2020 | 可擴充套件且高效,谷歌提出目標檢測“新標杆”

論文地址:https://arxiv.org/pdf/1911.09070.pdf

開源地址:https://github.com/google/automl/tree/master/efficientdet

一、研究動機  

目標檢測作為計算機視覺的核心應用之一,在機器人技術、無人駕駛汽車等精度要求高、計算資源有限的場景中變得越來越重要。

不幸的是,現有的許多高精度檢測器還無法應對這些限制。更重要的是,現實世界中的目標檢測應用程式執行在各種平臺上,往往需要不同的資源。由此自然而然要提出的一個問題是,如何設計精確、高效,並且還能夠適用於各類存在資源限制問題的場景的目標檢測器?

在CVPR 2020 論文《EfficientDet:可擴充套件、高效的目標檢測》中,谷歌研究者們引入了一系列新的可擴充套件的高效的目標檢測器。EfficientDet 基於此前關於可擴充套件神經網路的一項工作EfficientNet,並結合一種新的雙向特徵網路BiFPN以及新的擴充套件規則,在比當前最先進的檢測器縮小了9倍以及使用了更少得多的計算量的同時,實現了當前最高的精度。

下圖為該模型的完整架構: 

CVPR 2020 | 可擴充套件且高效,谷歌提出目標檢測“新標杆”

EfficientDet 架構。EfficientDet 使用EfficientNet作為骨幹網路,並結合使用了最新提出的BiFPN特徵網路。 

二、模型架構最佳化

EfficientDet背後的靈感源自谷歌研究者們透過對現有最先進的檢測模型進行系統研究以找到提高計算效率的解決方案的嘗試。

一般而言,目標檢測器主要由三個部分組成:從給定影象中提取特徵的骨幹網路;從骨幹網路中提取多級特徵作為輸入並輸出一系列表示影象顯著特徵的融合特徵的特徵網路;以及使用融合特徵預測每個目標的類和位置的最終的類/方框網路。經過驗證這些部分的各種設計方式,他們最終確定了提高效能和效率的關鍵最佳化。

此前的檢測器主要依靠ResNets、ResNeXt或AmoebaNet作為骨幹網路,然而這些網路要麼功能較弱,要麼效率較低。因此一個最佳化是,透過採用EfficientNet作為骨幹網路,以極大地提高效率。例如,從採用ResNet-50作為骨幹網路的RetinaNet 基準開始,他們的消融研究表明,近用EfficientNet-B3替代ResNet-50 ,便能夠提高3%的精度,與此同時還能減少20%的計算量。

另一個最佳化是提高特徵網路的效率。雖然以往的檢測器大多采用自上而下的特徵金字塔網路(FPN),但他們發現自上而下的FPN本質上受到單向資訊流的限制。可替代FPN的網路 ,比如PANet,添加了一個額外的自下而上的流,往往要以增加計算量為代價。

採用神經架構搜尋(NAS)的嘗試,則找到了更復雜的NAS-FPN架構。然而,這種網路架構雖然有效,但對於特定的任務來說,也是不規則的、高度最佳化的,這使得它很難適應其他任務。

為了解決這些問題,他們提出了一種新的雙向特徵網路 BiFPN,該網路結合了FPN、PANet、NAS-FPN的多級特徵融合思想,即使得資訊既能夠自上而下,也能夠自下而上地流動,同時使用規則和高效的連線。

CVPR 2020 | 可擴充套件且高效,谷歌提出目標檢測“新標杆”
 

BiFPN 和此前的特徵網路的對比。BiFPN 允許特徵(從低解析度的P3層到高解析度的P7層)既能夠自下而上也能夠自上而下地反覆流動。

為了進一步提高效率,谷歌研究者還提出了一種新的快速歸一化融合技術。 傳統的方法通常對輸入到FPN的所有特徵一視同仁,即使對於那些解析度差別很大的特徵亦如是。然而,他們發現不同解析度下的輸入特徵對輸出特徵的貢獻往往並不相等。

因此,他們為每個輸入特徵新增一個額外的權重,並讓網路瞭解每個特徵的重要性。同時,他們也用更便宜些的深度可分離卷積來代替所有的正則卷積。透過這些最佳化,BiFPN進一步提高了4%的精度,同時降低了50%的計算成本。 

第三個最佳化涉及在不同的資源約束下實現更好的精度和效率權衡。谷歌研究者此前的相關工作已經表明,聯合縮放網路的深度、寬度和解析度,可以顯著提高影象識別的效率。

受此啟發,他們針對目標檢測器提出了一種新的複合縮放方法,它可以聯合縮放解析度、深度和寬度。每個網路部分,即骨幹網路、特徵網路和邊框/類預測網路,都將擁有一個單一的複合縮放因子,該因子使用基於啟發式的規則控制所有的縮放維度。這種方法可以透過計算給定目標資源約束的縮放因子,便能夠輕易地確定如何縮放模型。

結合新的骨幹網路和BiFPN,他們首先建立了一個小尺寸的EfficientDet-D0 基線,然後應用複合縮放法得到了 EfficientDet-D1至D7。每一個連續的模型都要花費較高的計算成本,涉及到每秒浮點運算次數(FLOPS)從30億次到3000億次的各類系統資源限制,並且能提供更高的精度。

三、模型效能 

他們在一個廣泛用於目標檢測的基準資料集——COCO資料集上對EfficientDet 進行了評估。其中,EfficientDet-D7的平均精度(mAP)為52.2,比現有最先進的模型高出1.5個點,同時使用的引數還減少了4倍、計算量減少了9.4倍。 

CVPR 2020 | 可擴充套件且高效,谷歌提出目標檢測“新標杆”

相同設定下,EfficientDet 在COCO 測試集上達到的最佳精度是52.2mAP,比現有最先進的模型高出1.5個點(3045B FLOPs後的精度未展示)。而在同樣的精度下,EfficientDet 模型比此前的檢測器,大小上減少了4到9倍,計算量上減少了13至42倍。

與此同時,他們還比較了EfficientDet和先前模型在引數大小和CPU/GPU延遲方面的表現。在差不多的精度下,EfficientDet模型在GPU上比其他探測器快2-4倍,在CPU上比其他探測器快5-11倍。雖然EfficientDet 模型主要是為目標檢測而設計的,但谷歌研究者也檢驗了它們在其他任務(如語義分割)上的效能。

為了執行分割任務,他們稍微修改了EfficientDet-D4,將檢測頭和檢測的損失函式替換為分割頭和分割的損失函式,同時保留了相同大小的骨幹網路和BiFPN。

此模型與在Pascal VOC 2012(一個廣泛用於分割基準的資料集)上效能最好的分割模型—— DeepLabV3 的比較結果如下: 

CVPR 2020 | 可擴充套件且高效,谷歌提出目標檢測“新標杆”

在沒有在COCO資料集上進行預訓練的相同設定下, EfficientDet 在Pascal VOC 2012資料集上實現的效能要高於DeepLabV3 ,其中計算量減少了9.8倍。

基於 EfficientDet的表現,谷歌研究者表示,希望它能夠作為未來目標檢測相關研究工作的新基石,並且有助於研究者開發出高精度的目標檢測模型,更好地服務於更多現實世界的應用。

via https://ai.googleblog.com/2020/04/efficientdet-towards-scalable-and.html 雷鋒網雷鋒網雷鋒網

版權宣告:本文源自 網路, 於,由 楠木軒 整理釋出,共 2883 字。

轉載請註明: CVPR 2020 | 可擴充套件且高效,谷歌提出目標檢測“新標杆” - 楠木軒