MIT發現:ImageNet數據集存在系統性缺陷，用作基準數據集時與真實值不一致

2020-08-04 由弓四清發佈於科技

麻省理工學院(MIT)的研究人員近日得出結論稱，著名的ImageNet數據集其實存在“系統性註釋問題”(systematic annotation issues):當用作基準數據集時，它與真實值或直接觀測值不一致。

MIT發現:ImageNet數據集存在系統性缺陷，用作基準數據集時與真實值不一致

研究人員在題為“From ImageNet to Image Classification: Contextualizing Progress on Benchmarks”的論文中寫道:“我們的分析精確地指出——嘈雜的數據收集管道，是如何導致基準結果和它所代表的現實世界任務之間的系統性偏差的。”“我們相信，開發能夠在保持可擴展性的同時更好地捕捉底層真相的註釋管道，是未來研究的重要途徑。”

2009年，當斯坦福大學視覺實驗室(Stanford University Vision Lab)在計算機視覺和模式識別(CVPR)會議上介紹ImageNet時，它比許多以前存在的圖像數據集要大得多。ImageNet的數據集包含了數百萬張照片，是在兩年多的時間裏收集到的。

ImageNet將WordNet層次結構用於數據標籤，並被廣泛用作對象識別模型的基準。直到2017年，ImageNet的年度競賽還在推進計算機視覺領域發揮着作用。

但在仔細檢查ImageNet的“基準任務錯位”(benchmark task misalignment)後，MIT團隊發現ImageNet大約20%的照片包含多個物體。他們對多目標識別模型的分析顯示，在一張照片中有多個目標會導致總體準確率下降10%。作者説，這些問題的核心是用於創建像ImageNet這樣的大規模圖像數據集的數據收集管道。

“總的來説，這個(註釋)管道表明，單個ImageNet標籤可能並不總是足以捕獲ImageNet圖像內容。然而，當我們訓練和評估時，我們把這些標籤當作基本事實。”報告合著者、麻省理工學院博士候選人Shibani Santurkar在一個關於機器學習(ICML)的國際會議上介紹這項工作時説。“因此，這可能導致ImageNet基準測試和現實世界物體識別任務之間的不一致，無論是在我們鼓勵我們的模型去做的特徵方面，還是在我們如何評估它們的性能方面。”

根據研究人員的説法，一個理想的大規模圖像數據集的方法是收集世界上單個物體的圖像，並讓專家在精確的類別中標記它們，但這並不便宜，而且也不容易進行擴展。相反，ImageNet從搜索引擎和像Flickr這樣的網站上收集圖片。它會從互聯網搜索引擎中抓取的圖片，然後由亞馬遜的Amazon Mechanical Turk等外包平台對從互聯網搜索引擎收集來的圖片進行分類標註。

研究人員指出，Amazon Mechanical Turk給ImageNet照片貼標籤時，被引導聚焦於單一物體，而忽略其他物體或遮擋物。研究人員説，其他大規模圖像數據集也遵循類似的——但可能存在問題的——管道。

為了評估ImageNet，研究人員創建了一個管道，要求人類數據標籤人員從多個標籤中選擇一個，並選擇與照片最相關的標籤。然後，最頻繁選擇的標籤被用於訓練模型，以確定研究人員所説的“絕對基礎事實”(absolute ground truth)。

“我們利用的關鍵思想是利用模型預測實際增加ImageNet標籤。具體來説，我們採用了廣泛的模型，並將它們的前五種預測綜合起來，從而得到一組候選標籤，”Santurkar説。“然後我們使用人工註釋者來確定這些標籤的有效性，但不是問他們單個標籤是否有效，我們獨立地對多個標籤重複這個過程。這讓我們能夠確定與一張圖片相關的一組標籤。”

但是該團隊警告説，他們的方法並不是對“絕對基礎事實”的完美匹配，因為他們也使用了非專業的數據標籤。他們得出的結論是，對於不是專家的人來説，在某些情況下很難準確地標註圖片。比如，除非你是犬類專家，否則從24種梗類犬選擇一種標籤可能是很困難的。

該小組的論文在5月底首次發表後，於上個月在ICML上被接受發表。這篇論文在會議上發表之前，麻省理工學院決定從互聯網上刪除8000萬張微型圖像數據集，並要求擁有該數據集副本的研究人員刪除它們。

這些措施是在研究人員提請注意數據集中的攻擊性標籤，比如N開頭的詞，以及性別歧視的術語和其他貶損標籤後採取的。研究人員在審查了2006年發佈的8000萬小圖像數據集後得出結論，這些標籤是WordNet層次結構的結果。

ImageNet也使用WordNet的層次結構。在ACM FaccT會議上發表的一篇論文中，ImageNet創造者表示，他們計劃刪除數據集Person子樹中幾乎所有的約2800個類別。他們還提到了其他數據集的問題，如缺乏形象的多樣性。

除了用於訓練和基準測試模型的大規模圖像數據集之外，大規模文本數據集的缺陷是7月初計算語言學協會(ACL)會議的一個關鍵主題。

翻譯/前瞻經濟學人APP資訊組

原文來源:https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/

轉載請註明： MIT發現:ImageNet數據集存在系統性缺陷，用作基準數據集時與真實值不一致 - 楠木軒