數據集永久下架，微軟不是第一個，MIT 也不是最後一個

麻省理工學院（MIT）近日發佈了一則致歉聲明，宣佈將 Tiny Images Dataset 數據集永久下架，並向全社會呼籲共同停用並刪除這個數據集，已有該數據集的用户不要再向他人提供。

近一年內，已經有數個由企業和科研機構發佈的知名數據集，遭到下架或永久封禁的處理，其中包括微軟的 MS Celeb 1M 名人數據集、杜克大學發佈用於行人識別的 Duke MTMC 監控數據集、和斯坦福大學發佈的人頭檢測 Brainwash 數據集。

這次下架的 Tiny Images Dataset 圖像數據集由 MIT 在 2006 年開始立項併發布。正如其命名，這是一個微小圖像數據集。

包含 7930 萬張 32 * 32 像素的彩色圖像，基本採集自 Google Images。

數據集較大，文件、元數據和描述符以二進制文件形式存儲

需使用 MATBLAB 工具箱和索引數據文件進行加載

整個數據集近 400 Gb 大小，數據集規模之大，也讓該數據集成為計算機視覺研究領域中，最熱門數據集之一。

與該數據集同時發佈的論文《80 million tiny images: a large dataset for non-parametric object and scene recognition》，這篇論文的可查詢引用，也高達 1718 次。

一篇論文，引發的大型數據集自檢

讓 Tiny Images Dataset 圖像數據集陷入風口浪尖的，正是在近期發佈的一篇論文《Large Image Dataset: a pyrrhic win for Computer Vision?》（大型數據集：是計算機視覺的隱藏殺器？）

論文對這些大型數據集的合規性，提出了強烈的質疑。

論文地址：https://arxiv.org/pdf/2006.16923.pdf

兩位作者，一位是 UnifyID 的首席科學家 Vinay Prabhu 。UnifyID 是硅谷的一家人工智能初創公司，為客户提供用户身份驗證的解決方案。

另一位作者是都柏林大學的博士學位候選人 Abeba Birhane。

論文主要以 ImageNet-ILSVRC-2012 數據集為例，作者發現數據集中包含少數偷拍（比如海灘中偷拍他人，甚至包含隱私部位）的圖像，認為由於審核不嚴格，這些圖片嚴重侵犯了當事人的隱私。

曾經的經典數據集，如今成政治不正確

和 ImageNet 涉嫌侵犯隱私不同，論文中對 Tiny Images Dataset 進行聲討原因是：數據集中有數萬張種族歧視、女性歧視標籤的圖像。

並指出 Tiny Images Dataset 由於未經任何審核，存在的歧視、侵犯隱私的問題更加嚴重。

Tiny Images Dataset 部分選取

這就要説到 Tiny Images Dataset 是基於 WordNet 的規範進行標記，把近八千萬張圖像分為 75,000 個類別。

也正是因為 WordNet 的部分標記，讓數據集遭受了質疑。

WordNet 的鍋，圖像數據集一起背

眾所周知，WordNet 由普林斯頓大學認知科學實驗室的心理學家、語言學家和計算機工程師聯合設計，自 1985 年發佈以來，一直作為英文世界裏最規範、全面的英語詞典系統。

規範、全面的意思就是：客觀地採集人類社會里存在的英文詞彙，並賦予其理解和關聯。

在 Tiny Images Dataset 中，採用了 WordNet 中的 53,464 個不同名詞，來作為圖片的標籤。

數據集中涉及種族、性別的敏感詞統計

也正因為如此，直接引用人類社會存在的表達，就不可避免地引入一些涉及種族歧視、性別歧視的詞彙。

比如，表示明確侮辱或貶義的詞彙 Bi*ch、Wh*re、Ni*ger 等等，均成為了圖片的相關標籤，除此以外，還有一些主觀判斷性的稱謂，比如 molester 猥褻者、pedophile 戀童癖等。

科學研究之前，需衡量社會影響

作者認為大型圖像數據集，很多在建設之初，並沒有仔細衡量社會影響，會對個人權益構成威脅和傷害。

因為信息開源的當下，任何人都可以利用開放 API 運行一段查詢，來定義或判斷 ImageNet 或其他數據集中人類的身份或畫像，這對當事人來説確實是危險，也是侵犯。

作者也給了三點解決方向：

一是合成真實和數據集蒸餾，比如在模型訓練期間使用（或增強）合成圖像來代替真實圖像；

二是對數據集強化基於倫理道德的過濾；

三是定量數據集審計，作者對 ImageNet 進行了跨範疇的定量分析，用來評估道德違規的程度，也用來衡量基於模型註釋的方法其可行性。

數據集下架：或出於自覺，或外部壓力

因為輿論壓力，或是自我覺察而主動下架的數據集，MIT 並不是第一家。微軟早在 2019 年中，就下架了著名的 MS Celeb 1M 數據集，並宣佈不再使用。

MS Celeb 1M 數據集是由網絡中找到 100 萬個名人，根據受歡迎程度選出 10 萬個，然後利用搜索引擎，每個人挑出的大約 100 張圖片，所得到的數據集。

MS Celeb 1M 數據集

MS Celeb 1M 常被用來做面部識別的訓練，最早該數據集服務於 MSR IRC 比賽，這也是世界上最高水平的圖像識別賽事之一，包括 IBM，松下，阿里巴巴，Nvidia 和日立等公司，也都使用這個數據集。

根據協議，可以將照片用於學術研究，但微軟發佈數據集後，卻並不能有效監督數據集的使用。

除了 MS Celeb 1M 數據集，還有杜克大學發佈用於行人識別的 Duke MTMC 監控數據集、和斯坦福大學發佈的人頭檢測 Brainwash 數據集。

儘快下載其他數據集，也許明天也會下架

近期甚囂塵上的 black lives matter 種族平權運動，讓歐美各界陷入慌亂，計算機學界、工程界也有不斷地討論、紛爭和反思。

最初，以 Github、Go 語言為代表的企業和組織，開始對命名規範，進行了修改，比如應避免使用「Blacklist」和「Whitelist」一詞，而應使用中性詞「Blocklist」和「 Allowlist」，又或者將默認分支名稱從「master」更改為「trunk」。

又有深度學習先驅 Lecun 被指涉嫌種族歧視、性別歧視的言論，主動退出 Twitter。

現在，政治正確的矛頭或將對準大型數據集。

誠然，大量數據集在設計之初，有很多欠缺考量、未完善的部分。但是在當前條件下，但直接下架相關數據集，也不是最好的解決偏見的辦法。

畢竟這些圖片，並不僅存在於這些數據集中，這些偏見，也不僅僅是 WordNet 裏的幾個詞。

下架了數據集，圖片依然在互聯網各個角落，停用了 WordNet ，這些詞也依舊在人們的觀念裏。想要解決 AI 的偏見，還是得重視起社會文化中長期存在的偏見。