CVPR 2020 | 可擴展且高效,谷歌提出目標檢測“新標杆”

CVPR 2020 | 可擴展且高效,谷歌提出目標檢測“新標杆”

本文解讀的是CVPR2020 接收論文《EfficientDet: Scalable and Efficient Object Detection》,論文作者來自谷歌團隊。

CVPR 2020 | 可擴展且高效,谷歌提出目標檢測“新標杆”

論文地址:https://arxiv.org/pdf/1911.09070.pdf

開源地址:https://github.com/google/automl/tree/master/efficientdet

一、研究動機  

目標檢測作為計算機視覺的核心應用之一,在機器人技術、無人駕駛汽車等精度要求高、計算資源有限的場景中變得越來越重要。

不幸的是,現有的許多高精度檢測器還無法應對這些限制。更重要的是,現實世界中的目標檢測應用程序運行在各種平台上,往往需要不同的資源。由此自然而然要提出的一個問題是,如何設計精確、高效,並且還能夠適用於各類存在資源限制問題的場景的目標檢測器?

在CVPR 2020 論文《EfficientDet:可擴展、高效的目標檢測》中,谷歌研究者們引入了一系列新的可擴展的高效的目標檢測器。EfficientDet 基於此前關於可擴展神經網絡的一項工作EfficientNet,並結合一種新的雙向特徵網絡BiFPN以及新的擴展規則,在比當前最先進的檢測器縮小了9倍以及使用了更少得多的計算量的同時,實現了當前最高的精度。

下圖為該模型的完整架構: 

CVPR 2020 | 可擴展且高效,谷歌提出目標檢測“新標杆”

EfficientDet 架構。EfficientDet 使用EfficientNet作為骨幹網絡,並結合使用了最新提出的BiFPN特徵網絡。 

二、模型架構優化

EfficientDet背後的靈感源自谷歌研究者們通過對現有最先進的檢測模型進行系統研究以找到提高計算效率的解決方案的嘗試。

一般而言,目標檢測器主要由三個部分組成:從給定圖像中提取特徵的骨幹網絡;從骨幹網絡中提取多級特徵作為輸入並輸出一系列表示圖像顯著特徵的融合特徵的特徵網絡;以及使用融合特徵預測每個目標的類和位置的最終的類/方框網絡。經過驗證這些部分的各種設計方式,他們最終確定了提高性能和效率的關鍵優化。

此前的檢測器主要依靠ResNets、ResNeXt或AmoebaNet作為骨幹網絡,然而這些網絡要麼功能較弱,要麼效率較低。因此一個優化是,通過採用EfficientNet作為骨幹網絡,以極大地提高效率。例如,從採用ResNet-50作為骨幹網絡的RetinaNet 基準開始,他們的消融研究表明,近用EfficientNet-B3替代ResNet-50 ,便能夠提高3%的精度,與此同時還能減少20%的計算量。

另一個優化是提高特徵網絡的效率。雖然以往的檢測器大多采用自上而下的特徵金字塔網絡(FPN),但他們發現自上而下的FPN本質上受到單向信息流的限制。可替代FPN的網絡 ,比如PANet,添加了一個額外的自下而上的流,往往要以增加計算量為代價。

採用神經架構搜索(NAS)的嘗試,則找到了更復雜的NAS-FPN架構。然而,這種網絡架構雖然有效,但對於特定的任務來説,也是不規則的、高度優化的,這使得它很難適應其他任務。

為了解決這些問題,他們提出了一種新的雙向特徵網絡 BiFPN,該網絡結合了FPN、PANet、NAS-FPN的多級特徵融合思想,即使得信息既能夠自上而下,也能夠自下而上地流動,同時使用規則和高效的連接。

CVPR 2020 | 可擴展且高效,谷歌提出目標檢測“新標杆”
 

BiFPN 和此前的特徵網絡的對比。BiFPN 允許特徵(從低分辨率的P3層到高分辨率的P7層)既能夠自下而上也能夠自上而下地反覆流動。

為了進一步提高效率,谷歌研究者還提出了一種新的快速歸一化融合技術。 傳統的方法通常對輸入到FPN的所有特徵一視同仁,即使對於那些分辨率差別很大的特徵亦如是。然而,他們發現不同分辨率下的輸入特徵對輸出特徵的貢獻往往並不相等。

因此,他們為每個輸入特徵添加一個額外的權重,並讓網絡瞭解每個特徵的重要性。同時,他們也用更便宜些的深度可分離卷積來代替所有的正則卷積。通過這些優化,BiFPN進一步提高了4%的精度,同時降低了50%的計算成本。 

第三個優化涉及在不同的資源約束下實現更好的精度和效率權衡。谷歌研究者此前的相關工作已經表明,聯合縮放網絡的深度、寬度和分辨率,可以顯著提高圖像識別的效率。

受此啓發,他們針對目標檢測器提出了一種新的複合縮放方法,它可以聯合縮放分辨率、深度和寬度。每個網絡部分,即骨幹網絡、特徵網絡和邊框/類預測網絡,都將擁有一個單一的複合縮放因子,該因子使用基於啓發式的規則控制所有的縮放維度。這種方法可以通過計算給定目標資源約束的縮放因子,便能夠輕易地確定如何縮放模型。

結合新的骨幹網絡和BiFPN,他們首先創建了一個小尺寸的EfficientDet-D0 基線,然後應用複合縮放法得到了 EfficientDet-D1至D7。每一個連續的模型都要花費較高的計算成本,涉及到每秒浮點運算次數(FLOPS)從30億次到3000億次的各類系統資源限制,並且能提供更高的精度。

三、模型性能 

他們在一個廣泛用於目標檢測的基準數據集——COCO數據集上對EfficientDet 進行了評估。其中,EfficientDet-D7的平均精度(mAP)為52.2,比現有最先進的模型高出1.5個點,同時使用的參數還減少了4倍、計算量減少了9.4倍。 

CVPR 2020 | 可擴展且高效,谷歌提出目標檢測“新標杆”

相同設置下,EfficientDet 在COCO 測試集上達到的最佳精度是52.2mAP,比現有最先進的模型高出1.5個點(3045B FLOPs後的精度未展示)。而在同樣的精度下,EfficientDet 模型比此前的檢測器,大小上減少了4到9倍,計算量上減少了13至42倍。

與此同時,他們還比較了EfficientDet和先前模型在參數大小和CPU/GPU延遲方面的表現。在差不多的精度下,EfficientDet模型在GPU上比其他探測器快2-4倍,在CPU上比其他探測器快5-11倍。雖然EfficientDet 模型主要是為目標檢測而設計的,但谷歌研究者也檢驗了它們在其他任務(如語義分割)上的性能。

為了執行分割任務,他們稍微修改了EfficientDet-D4,將檢測頭和檢測的損失函數替換為分割頭和分割的損失函數,同時保留了相同大小的骨幹網絡和BiFPN。

此模型與在Pascal VOC 2012(一個廣泛用於分割基準的數據集)上性能最好的分割模型—— DeepLabV3 的比較結果如下: 

CVPR 2020 | 可擴展且高效,谷歌提出目標檢測“新標杆”

在沒有在COCO數據集上進行預訓練的相同設置下, EfficientDet 在Pascal VOC 2012數據集上實現的性能要高於DeepLabV3 ,其中計算量減少了9.8倍。

基於 EfficientDet的表現,谷歌研究者表示,希望它能夠作為未來目標檢測相關研究工作的新基石,並且有助於研究者開發出高精度的目標檢測模型,更好地服務於更多現實世界的應用。

via https://ai.googleblog.com/2020/04/efficientdet-towards-scalable-and.html 雷鋒網雷鋒網雷鋒網

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 2883 字。

轉載請註明: CVPR 2020 | 可擴展且高效,谷歌提出目標檢測“新標杆” - 楠木軒