谷歌提出Context R-CNN, 利用時域上下文信息的增強目標檢測系統

谷歌提出Context R-CNN, 利用時域上下文信息的增強目標檢測系統

生態問題刻不容緩的今天,有效的生態系統監測能夠幫助研究人員更好地提出環境保護措施。靜態捕捉相機就是放置在野外環境中的最具代表性的一種監測傳感器。然而,對於廣泛應用的靜態相機來説,自動地分析處理還面臨着一系列的挑戰。

由於靜態相機的拍攝場景固定,拍攝圖像中的背景異常重複,因此沒有足夠充分的數據多樣性,機器學習模型將傾向於學習背景,使其在新場景下缺乏足夠的泛化性。為了解決這一問題,來自谷歌的研究人員提出了一種基於時域上下文的互補方法Context R-CNN,提升了目標檢測模型在全新相機設置場景下的泛化性。

有效的生態系統監測將幫助研究人員更好的理解全球生態系統的動力學行為、物種多樣性、量化人類活動和氣候變化的影響,並提出有效的保護措施。為了獲取高質量的數據提高監測效率,生態學家耗費了大量的努力在野外環境中放置檢測傳感器,而靜態捕捉相機就是其中最具代表性的一種。

隨着傳感器監測網絡的逐漸發展壯大,對於全球範圍內生物多樣性數據的手工分析變成了全球實時生態精確監測的瓶頸所在。雖然有多種基於機器學習的自動化分析方法,但對於廣泛應用的靜態相機來説,自動地分析處理還面臨着一系列的挑戰,包括功耗和存儲限制、採樣率較低、運動觸發造成的非規則拍攝結果等。

為了有效處理野外靜態相機的拍攝結果,計算機視覺模型必須對各種情形下的目標具有足夠的魯棒性,包括偏離中心、離焦、低光照、尺度變化劇烈等等。此外靜態相機最大的不同在於它的拍攝場景固定,這會使拍攝圖像中的背景異常重複。沒有足夠充分的數據多樣性,機器學習模型將傾向於學習背景,使其在新場景下缺乏足夠的泛化性。

機器學習和生態學界的研究人員已經攜手完成了像LILA BC 和 Wildlife Insights 等大規模的專家標註數據集,這些數據來自於多個研究團隊在不同場景下的相機拍攝結果以提升數據的多樣性。但數據的積攢需要大量人力物力並且進展緩慢,同時在顧及多樣性、世界範圍內代表性數據和物種分類的要求下變得異常繁雜。

谷歌提出Context R-CNN, 利用時域上下文信息的增強目標檢測系統

這張清晨濃霧中的野外圖像幾乎什麼都看不清,為自動分析帶來了十分巨大的挑戰。

為了解決這一問題,來自谷歌的研究人員提出了一種基於時域上下文的互補方法Context R-CNN,提升了目標檢測模型在全新相機設置場景下的泛化性。新型的目標檢測架構通過提取每個相機在時間維度上的上下文線索來改善新場景下的目標識別效果,而無需額外的來自多個相機的訓練數據。在面對複雜圖像時,上下文R-CNN方法可以從同一相機從長達一個月的上下文信息中回溯出最為相關的目標並幫助算法進行識別。

這種方法超過了僅僅使用單幀圖像的FasterR-CNN方法,在多個生態環境圖像檢測領域內都具有明顯的優勢。研究人員已將模型整合到TF Object Detection API中,為相關研究人員提供更為簡化的訓練和部署。

谷歌提出Context R-CNN, 利用時域上下文信息的增強目標檢測系統

上圖中顯示了上下文信息(長達一個月)是如何幫助專家確定模糊場景中的動物的。上下文中目標形狀、尺寸、每天固定的食草時間幫助算法確定這是角馬。

上下文R-CNN模型

上下文R-CNN主要利用靜態相機拍攝圖像序列間的高度相關性,在無需額外人工標註數據的情況下提升算法在複雜情況下的性能,同時改善在新的相機設置下的泛化性。與Faster R-CNN類似,它也採用了兩階段目標檢測架構。

谷歌提出Context R-CNN, 利用時域上下文信息的增強目標檢測系統

上圖顯示了上下文R-CNN的頂層架構,顯示了檢測模型與長期上下文信息如何有效系統提升性能。

為了抽取某一相機的上下文信息,研究人員首先利用參數固定的特徵抽取器從較大的時間跨度中構建出上下文存儲空間(下圖中M);隨後每幅圖像在對應上下文信息聚合的幫助下,上下文R-CNN將會更好地在複雜情況下對目標進行檢測(包括低光、濃霧、模糊等場景)。這種聚合利用attention方式實現,它對靜態相機中出現的稀疏和非規則採樣具有較好的魯棒性。

谷歌提出Context R-CNN, 利用時域上下文信息的增強目標檢測系統

第一階段的Faster R-CNN將提出潛在目標,而第二階段將對每個候選目標進行分類。在Context R-CNN中針對第一階段的候選目標,使用基於相似性的注意力機制來確定當前目標與記憶池中特徵的相關性。隨後利用相關性權重加權記憶池中的特徵來構建針對這一目標的上下文特徵,並將其添加到原始的目標特徵後,送入第二階段的Faster R-CNN中進行最終的分類。

谷歌提出Context R-CNN, 利用時域上下文信息的增強目標檢測系統

Context R-CNN將近一個月的上下文信息用於幫助分類當前目標。綠色數字顯示了每個記憶特徵與當前目標的注意力相關性權重。

實驗結果

研究人員在多樣性區域的動物捕獲相機數據集Snapshot Serengeti (SS) 和 Caltech Camera Traps (CCT)上測試了Context R-CNN的性能。

谷歌提出Context R-CNN, 利用時域上下文信息的增強目標檢測系統

與左側 Faster R-CNN 相比, Context R-CNN 可以在更為困難環境中捕捉到被樹枝遮擋的大象、低光照下的羚羊和位於圖像邊緣的猴子。

下表顯示了模型的提升,在SS和CCT上mAP分別實現了47.5%和34.3%的相對提升。同時研究人員發現隨着時間上下文信息跨度的增加,模型的性能有着正相關的提升。

谷歌提出Context R-CNN, 利用時域上下文信息的增強目標檢測系統

與單幀Faster R-CNN相比 本文方法的mAP和AR值都有了明顯地提升

目前研究人員正在努力將Context R-CNN應用到Wildlife Insights監測平台中去,基於野外相機網絡實現便捷的大規模、全球生態系統監測。

如果想要了解更多關於這種針對靜態相機的通用上下文增強方法,請參看論文和代碼API:

paper:https://arxiv.org/pdf/1912.03538.pdf
API:

https://github.com/tensorflow/models/blob/master/research/object_detection/README.md#june-17th-2020
https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/context_rcnn.md
https://github.com/tensorflow/models/blob/master/research/object_detection/colab_tutorials/context_rcnn_tutorial.ipynb

ref:

https://dribbble.com/shots/6886223-Camera-Trap

https://www.pinterest.com/pin/121808364900296536/

http://animalia-life.club/other/animated-walking-tiger.html

谷歌提出Context R-CNN, 利用時域上下文信息的增強目標檢測系統

來掃我呀

關於我“門”

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社羣以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社羣專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在近四年的時間裏,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 3197 字。

轉載請註明: 谷歌提出Context R-CNN, 利用時域上下文信息的增強目標檢測系統 - 楠木軒