MIT發現:ImageNet資料集存在系統性缺陷，用作基準資料集時與真實值不一致

2020-08-04由弓四清釋出於科技

麻省理工學院(MIT)的研究人員近日得出結論稱，著名的ImageNet資料集其實存在“系統性註釋問題”(systematic annotation issues):當用作基準資料集時，它與真實值或直接觀測值不一致。

研究人員在題為“From ImageNet to Image Classification: Contextualizing Progress on Benchmarks”的論文中寫道:“我們的分析精確地指出——嘈雜的資料收集管道，是如何導致基準結果和它所代表的現實世界任務之間的系統性偏差的。”“我們相信，開發能夠在保持可擴充套件性的同時更好地捕捉底層真相的註釋管道，是未來研究的重要途徑。”

2009年，當斯坦福大學視覺實驗室(Stanford University Vision Lab)在計算機視覺和模式識別(CVPR)會議上介紹ImageNet時，它比許多以前存在的影象資料集要大得多。ImageNet的資料集包含了數百萬張照片，是在兩年多的時間裡收集到的。

ImageNet將WordNet層次結構用於資料標籤，並被廣泛用作物件識別模型的基準。直到2017年，ImageNet的年度競賽還在推進計算機視覺領域發揮著作用。

但在仔細檢查ImageNet的“基準任務錯位”(benchmark task misalignment)後，MIT團隊發現ImageNet大約20%的照片包含多個物體。他們對多目標識別模型的分析顯示，在一張照片中有多個目標會導致總體準確率下降10%。作者說，這些問題的核心是用於建立像ImageNet這樣的大規模影象資料集的資料收集管道。

“總的來說，這個(註釋)管道表明，單個ImageNet標籤可能並不總是足以捕獲ImageNet影象內容。然而，當我們訓練和評估時，我們把這些標籤當作基本事實。”報告合著者、麻省理工學院博士候選人Shibani Santurkar在一個關於機器學習(ICML)的國際會議上介紹這項工作時說。“因此，這可能導致ImageNet基準測試和現實世界物體識別任務之間的不一致，無論是在我們鼓勵我們的模型去做的特徵方面，還是在我們如何評估它們的效能方面。”

根據研究人員的說法，一個理想的大規模影象資料集的方法是收集世界上單個物體的影象，並讓專家在精確的類別中標記它們，但這並不便宜，而且也不容易進行擴充套件。相反，ImageNet從搜尋引擎和像Flickr這樣的網站上收集圖片。它會從網際網路搜尋引擎中抓取的圖片，然後由亞馬遜的Amazon Mechanical Turk等外包平臺對從網際網路搜尋引擎收集來的圖片進行分類標註。

研究人員指出，Amazon Mechanical Turk給ImageNet照片貼標籤時，被引導聚焦於單一物體，而忽略其他物體或遮擋物。研究人員說，其他大規模影象資料集也遵循類似的——但可能存在問題的——管道。

為了評估ImageNet，研究人員建立了一個管道，要求人類資料標籤人員從多個標籤中選擇一個，並選擇與照片最相關的標籤。然後，最頻繁選擇的標籤被用於訓練模型，以確定研究人員所說的“絕對基礎事實”(absolute ground truth)。

“我們利用的關鍵思想是利用模型預測實際增加ImageNet標籤。具體來說，我們採用了廣泛的模型，並將它們的前五種預測綜合起來，從而得到一組候選標籤，”Santurkar說。“然後我們使用人工註釋者來確定這些標籤的有效性，但不是問他們單個標籤是否有效，我們獨立地對多個標籤重複這個過程。這讓我們能夠確定與一張圖片相關的一組標籤。”

但是該團隊警告說，他們的方法並不是對“絕對基礎事實”的完美匹配，因為他們也使用了非專業的資料標籤。他們得出的結論是，對於不是專家的人來說，在某些情況下很難準確地標註圖片。比如，除非你是犬類專家，否則從24種梗類犬選擇一種標籤可能是很困難的。

該小組的論文在5月底首次發表後，於上個月在ICML上被接受發表。這篇論文在會議上發表之前，麻省理工學院決定從網際網路上刪除8000萬張微型影象資料集，並要求擁有該資料集副本的研究人員刪除它們。

這些措施是在研究人員提請注意資料集中的攻擊性標籤，比如N開頭的詞，以及性別歧視的術語和其他貶損標籤後採取的。研究人員在審查了2006年釋出的8000萬小影象資料集後得出結論，這些標籤是WordNet層次結構的結果。

ImageNet也使用WordNet的層次結構。在ACM FaccT會議上發表的一篇論文中，ImageNet創造者表示，他們計劃刪除資料集Person子樹中幾乎所有的約2800個類別。他們還提到了其他資料集的問題，如缺乏形象的多樣性。

除了用於訓練和基準測試模型的大規模影象資料集之外，大規模文字資料集的缺陷是7月初計算語言學協會(ACL)會議的一個關鍵主題。

翻譯/前瞻經濟學人APP資訊組

原文來源:https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/