MIT道歉：高引用AI數據集涉嫌種族偏見，永久下架

智東西（公眾號：zhidxcom）編| 李水青

導語：近日，在美國引發的種族歧視爭端不斷升温，影響到多個行業和社會領域，學術圈也不例外。繼近日圖靈獎得主被罵退Twitter後，美國頂級學府也因AI數據集帶有種族偏見引起爭議。

智東西7月2日消息，近日，麻省理工學院將其用於訓練AI系統的數據集“Tiny Images”永久下線，原因是帶有許多涉及種族歧視、性別歧視、戀童癖等傾向的圖像和標籤。

麻省理工學院教授Antonio Torralba説：“我們深表歉意。”據稱，Tiny Images數據集存在問題的一大原因是採用了大量搜索引擎整合數據而變得魚龍混雜，同時還因為圖片尺寸太小無法通過人工識別和過濾。

Tiny Images數據庫創建於2008年，在arXiv上被高頻引用，廣泛用於圖像識別等機器學習模型。例如，如果向其中一個系統顯示公園的照片，它可能會告訴您有關快照中存在的兒童、成人、寵物、樹木等信息。不過，這些系統也可能將黑人、亞裔或女性標記為“妓女”、“戀童癖”等不尊重詞彙。

雖然這些偏見圖像標籤只是數據集中的少數，可一旦基於數據集訓練的AI系統被用於產品方案，對黑人、亞裔、女性等人羣以及整個社會效益的負面影響是巨大的。比如，年初在底特律的一個黑人在就被面部識別軟件誤認為是可疑小偷後，被警察誤捕。

長期以來，Tiny Images數據集會和更知名的ImageNet訓練集一起用於基準計算機視覺算法。但是，與ImageNet不同，到目前為止，還沒有人對Tiny Images的內容進行審查。

一、被隱私初創公司盯上，MIT緊急刪除數據集

“Tiny Images下線”事件的導火索是一篇論文。論文的作者是硅谷一家隱私初創公司UnifyID的首席科學家Vinay Prabhu和愛爾蘭都柏林大學的博士學位候選人Abeba Birhane。

Prabhu和Birhane發現，在MIT數據庫中，有成千上萬張帶有針對黑人和亞洲人的種族主義誹謗標籤的圖像，以及侮辱女性的詞彙。此前，他們剛剛將研究結果以一個數據集的形式提交給了明年舉行的計算機視覺大會。

▲MIT數據集中標有所選問題單詞的圖片數量

這個數據集包含從Google影像中抓取的超過79,300,000張圖像，分佈在75,000多個類別中。可以從麻省理工學院的計算機科學和人工智能實驗室（CSAIL）的網站上在線搜索和細讀具有220萬張圖像的較小版本。

而後，麻省理工學院作出反應，在星期一從CSAIL網站上刪除了該可視化以及可下載的完整數據庫。

二、MIT：不知情！圖片太小無法手動過濾

麻省理工學院教授Antonio Torralba説，實驗室根本不知道這些令人反感的圖像和標籤存在於數據集中。

“很顯然，我們應該手工篩選它們，”他告訴外媒Register。“為此，我們深表歉意。實際上，我們已經使數據集脱機，以便可以刪除有問題的圖像和類別。”

麻省理工學院CSAIL在其網站上的一份聲明中表示，由於圖像太小，無法進行手動檢查和手動過濾，因此該數據集將永久脱機。該實驗室還承認，它是自動從互聯網上獲取圖像的，而無需檢查圖書館是否吸收了任何令人反感的圖片或語言，並敦促人們刪除其數據副本：

引起我們注意的是，Tiny Images數據集包含一些貶義性術語，例如分類方式和令人反感的圖像。這是依賴於WordNet名詞的自動數據收集程序的結果。我們對此深表關切，並向可能受到影響的人們表示歉意。

數據集太大到達8000萬張圖像，並且圖像太小，只有32 x 32像素，以至於人眼很難辨別這些內容。因此，即使去手動過濾這些圖片，也無法保證可以完全刪除令人反感的圖像。

因此，我們決定正式撤銷數據集。它已脱機，並且不會重新聯機。我們要求社區將來不要使用它，並刪除可能已下載的數據集的任何現有副本。

Tiny Images中的圖片都很小，是為了適配2000年代末和2010年代初的計算機視覺算法，這也是Tiny Images名字的由來。

Torralba教授説：“這個數據集包含53,464個不同的名詞，都是直接從WordNet拷貝過來的。”他指的是普林斯頓大學（Princeton University）將英語單詞分類成相關集的數據庫。“然後這些系統就會自動從當時的互聯網搜索引擎上下載相應名詞的圖片，並使用當時可用的過濾器來收集8000萬張圖片。”

三、偏見源於搜索引擎，從1980年的WordNet説起

WordNet於1980年代中期在普林斯頓認知科學實驗室建立，由George Armitage Miller創立，他是認知心理學的創始人之一。“Miller着迷於單詞之間的關係。”普拉布告訴我們，“數據庫本質上映射了單詞如何相互關聯。”

例如，“貓和狗”一詞比“貓和傘”更緊密相關。不幸的是，WordNet中的某些名詞是種族“ist”語，或者帶有侮辱色彩。幾十年後的今天，隨着學者和開發人員將數據庫用作方便的英語單詞孤島，這些術語困擾着現代機器學習。

“在構建龐大的數據集時，您需要某種結構，” Birhane説，“這就是WordNet有效的原因。它為計算機視覺研究人員提供了一種對圖像進行分類和標記的方法。當您只可以使用WordNet時，為什麼要自己做呢？”

WordNet本身並不會像單詞列表那樣有害，但是當與圖像和AI算法結合使用時，WordNet可能會帶來令人不快的後果。Birhane説：“ WordNet項目的主要目的是映射彼此接近的單詞。但是，當您開始將圖像與這些單詞相關聯時，您就是在拍一張真人照片並將其與刻板印象永久存在的有害詞劃等號。”

ImageNet也存在相同的問題，因為它也使用WordNet進行了註釋。名為ImageNet Roulette的實驗允許人們將照片提交到ImageNet訓練的神經網絡，該網絡將使用數據集中的標籤描述圖像。毫不奇怪，人們餵給他們最着迷的系統快照：自拍照。當軟件使用種族主義和冒犯性標籤描述他們時，有些人感到震驚。

四、問題數據比例小，對AI模型的社會效應影響大

在這些龐大的數據集中，有問題的圖像和標籤所佔的比例很小，並且很容易將其作為異常現象清除掉。Prabhu和Birhane認為，如果將這些材料用於訓練現實世界中使用的機器學習模型，則可能導致真正的傷害。

他們在論文中寫道：“缺乏對數據集的批判和規範，對婦女、種族和少數民族以及社會邊緣的弱勢個人和社區造成了極大的負面影響。”

▲馬賽克下據稱是穿着比基尼的女性

這些羣體在AI訓練數據集中通常不能很好地表現出來。這就是面部識別算法難以識別膚色較深的女性和女性的原因。

底特律的一個黑人在今年早些時候被面部識別軟件誤認為是可疑小偷後，被警察誤捕。這也是有爭議的 AI算法從低分辨率快照生成高分辨率圖像的原因，該算法將Barack Obama的模糊照片變成了比Black更白種的人。

Birhane説：“人們不會考慮這些模型將如何應用或將其用於什麼。他們只是想‘哦，這是我可以做的很酷的事情’。但是，當您開始更深入地思考時，您將開始發現所有這些陰險的目的，並瞭解這些危害如何顯現。”

這種問題並不是無法解決的，比如Facebook已經在聘請同意將自己的面孔用於數據集的演員，生成在訓練軟件以檢測計算機生成的圖像數據集，可以通過人為選擇來儘量避免類似種族偏見問題。

結語：從數據集切入，促進AI模型“去偏見”

在被業內人士指出數據集存在種族歧視等偏見後，麻省理工學院（MIT）迅速永久下線了該數據集。MIT教授對此道歉，這種缺漏更多地是源於研究者只考慮到數據集名詞拷貝時的便利性，而沒有對可能出現的種族偏見問題進行考慮和解決。

長期以來，人臉識別等AI模型在西方都被詬病帶有偏見，使得許多地區禁用技術。當我們看到這些種族歧視等偏見的一大根源是來自數據集時，機器視覺研發者一方面被困擾，一方面也許能找到解決問題的新辦法。

文章來源：The Register