CVPR 2020 目標檢測論文精選

字幕組雙語原文：CVPR 2020 目標檢測論文精選

英語原文：CVPR 2020: The Top Object Detection Papers

翻譯：雷鋒字幕組（李珺毅、沫年惜雪）

一、基於在點雲上的3D目標檢測的分層圖形網絡

原文標題：A Hierarchical Graph Network for 3D Object Detection on Point Clouds

這篇論文提出了一種基於圖卷積(gconv)的三維目標檢測層次圖網絡(hgnet)。這個網絡通過處理原始點雲，直接預測目標的3 d邊界框。對於檢測目標，HGNet能夠捕捉這些點之間的關係並且使用多層次語義。

HGNet包含三個主要組件:

一個基於U型圖卷積的網絡（gu-net）
一個方案生成器
一個方案推理模塊(ProRe Module) ----使用一個全連接層圖表來推理方案

作者提出一個注意形態的圖卷積 (SA-GConv)去捕捉原始的形狀特徵。這是通過建立模型的相對幾何位置來描述物體的形狀。

SA-GConv 基於u型網絡捕捉多層次特徵。然後映射到相同的特徵空間的投票模塊並且用於生成建議。在下一步中,GConv基於建議推理模塊，利用方案來預測邊框。

這裏是在sun rgb-d v1數據集上獲得的一些性能結果。

二、HVNET：基於激光雷達的3D目標檢測的混合體素網絡

原文標題：HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection

這篇文章中使用的體素特徵編碼（VFE）包含3步：

體素化——將點雲分配給2D體素網絡
體素特徵提取——計算和網絡相關的點的特徵，饋送到PointNet樣式的功能編碼器
投影——將逐點特徵聚合到體素級特徵並投影到其原始網格。這就形成了一個偽圖像特徵映射

體素的大小在VFE方法中非常重要。較小的體素尺寸可以捕獲更精細的幾何特徵。它們也更擅長對象本地化，但推理時間更長。使用較粗的體素可以獲得更快的推理速度，因為這會導致較小的特徵圖。但是，它的性能較差。

作者提出了混合體素網絡（HVNet），以實現細粒度體素功能的利用。它由三個步驟組成：

多尺度體素化-創建一組特徵體素尺度並將它們分配給多個體素。
混合體素特徵提取-計算每個比例的體素相關特徵，並將其輸入到關注特徵編碼器（AVFE）中。每個體素比例尺上的要素都是逐點連接的。
動態要素投影-通過創建一組多比例項目體素將要素投影回偽圖像。

這是在KITTI數據集上的實驗結果

三、Point-GNN:用於3D目標檢測的點雲圖神經網絡

原文標題：Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud

本文作者提供了圖神將網絡---Point-GNN---在LiDAR點雲中檢測物體。該網絡預測了圖中每個頂點所屬對象的類別和形狀。Point-GNN有一個自動迴歸機制，可以在一個輸入中檢測多個對象。

該方法由三個部分組成：

圖構造:使用體素下采樣點雲進行圖構造
一種T迭代的圖形神經網絡
邊界框合併和得分

以下是在KITTI數據集上獲得的結果：

代碼：WeijingShi/Point-GNN

四、偽裝目標檢測

原文標題：Camouflaged Object Detection

本文針對偽裝對象檢測(COD)所面臨的挑戰，對嵌入在其周圍環境中的目標進行檢測。作者還提供了一個名為COD10K的新數據集。它包含10,000張圖片，覆蓋了許多自然場景中偽裝的物體。它具有78個對象類別。圖像帶有類別標籤，邊界框，實例級別和消光級別的標籤。

作者開發了一個稱為搜索識別網絡(SINet)的COD框架。代碼可以在這裏找到：DengPingFan/SINet

該網絡有兩個主要模塊：

用於搜尋偽裝物體的搜索模塊
識別模塊(IM)用於檢測對象

以下是在各個數據集上得到的結果：

五、基於注意力- RPN和多關係檢測器的少目目標檢測

原文標題：Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

本文提出了一種少鏡頭目標檢測網絡，其目標是檢測含有少量註釋示例的不可見類別目標。

他們的方法包括注意力- RPN、多關係檢測器和對比訓練策略。該方法利用少鏡頭支持集和查詢集之間的相似性來識別新對象，同時減少了誤識別。作者還提供了一個包含1000個類別的新數據集，其中的對象具有高質量的註釋。

fanq15/Few-Shot-Object-Detection-Dataset

該網絡體系結構由一個具有多個分支的權重共享框架組成，一個分支是查詢集，其他分支是支持集。權重共享框架的查詢分支是一個更快的R-CNN網絡。

介紹了一種帶有多關係模塊的注意- rpn和檢測器，用於在支持和查詢中可能出現的框之間精確解析。

下面是在ImageNet數據集上獲得的一些結果。

以下是一些在一些數據集上獲得的觀察結果。

六、D2Det:面向高質量的對象檢測和實例分割

原文標題：D2Det: Towards High-Quality Object Detection and Instance Segmentation

本文作者提出了D2Det，一種既能精確定位又能精確分類的方法。他們引入了一個稠密的局部迴歸來預測一個目標建議區域的多個稠密盒偏移量。這使他們能夠實現精確的定位。

為了實現準確的分類，本文還引入了一種有區別的RoI pooling方案。pooling方案從該方案的多個子區域中抽取樣本，並進行自適應加權以獲得識別特徵。

代碼：JialeCao001/D2Det

該方法基於標準的Faster R-CNN框架。在該方法中，傳統的Faster R-CNN的盒偏置迴歸被提出的密集局部迴歸所代替。在該方法中，通過區分性的RoI pooling來增強分類能力。

在兩階段方法中，第一階段使用區域建議網絡(RPN)，第二階段使用單獨的分類和迴歸分支。分類分支是基於區分池的。局部迴歸分支的目標是對象的精確定位。

以下是MS COCO數據集的結果:

思考

CVPR 2020提供了更多關於目標檢測和其他計算機視覺任務的探索和思考，如果您想進一步研究，這裏的開源倉庫包含所有的會議論文。

CVPR 2020 Open Access Repository

雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊，匯聚五百多位志願者的力量，分享最新的海外AI資訊，交流關於人工智能技術領域的行業變革與技術創新的見解。

團隊成員有大數據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT諮詢人、在校師生；志願者們來自IBM、AVL、Adobe、阿里、百度等知名企業，北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

如果，你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起，學習新知，分享成長。

雷鋒網雷鋒網