智东西(公众号:zhidxcom)编| 李水青
导语:近日,在美国引发的种族歧视争端不断升温,影响到多个行业和社会领域,学术圈也不例外。继近日图灵奖得主被骂退Twitter后,美国顶级学府也因AI数据集带有种族偏见引起争议。
智东西7月2日消息,近日,麻省理工学院将其用于训练AI系统的数据集“Tiny Images”永久下线,原因是带有许多涉及种族歧视、性别歧视、恋童癖等倾向的图像和标签。
麻省理工学院教授Antonio Torralba说:“我们深表歉意。”据称,Tiny Images数据集存在问题的一大原因是采用了大量搜索引擎整合数据而变得鱼龙混杂,同时还因为图片尺寸太小无法通过人工识别和过滤。
Tiny Images数据库创建于2008年,在arXiv上被高频引用,广泛用于图像识别等机器学习模型。例如,如果向其中一个系统显示公园的照片,它可能会告诉您有关快照中存在的儿童、成人、宠物、树木等信息。不过,这些系统也可能将黑人、亚裔或女性标记为“妓女”、“恋童癖”等不尊重词汇。
虽然这些偏见图像标签只是数据集中的少数,可一旦基于数据集训练的AI系统被用于产品方案,对黑人、亚裔、女性等人群以及整个社会效益的负面影响是巨大的。比如,年初在底特律的一个黑人在就被面部识别软件误认为是可疑小偷后,被警察误捕。
长期以来,Tiny Images数据集会和更知名的ImageNet训练集一起用于基准计算机视觉算法。但是,与ImageNet不同,到目前为止,还没有人对Tiny Images的内容进行审查。
一、被隐私初创公司盯上,MIT紧急删除数据集“Tiny Images下线”事件的导火索是一篇论文。论文的作者是硅谷一家隐私初创公司UnifyID的首席科学家Vinay Prabhu和爱尔兰都柏林大学的博士学位候选人Abeba Birhane。
Prabhu和Birhane发现,在MIT数据库中,有成千上万张带有针对黑人和亚洲人的种族主义诽谤标签的图像,以及侮辱女性的词汇。此前,他们刚刚将研究结果以一个数据集的形式提交给了明年举行的计算机视觉大会。
▲MIT数据集中标有所选问题单词的图片数量
这个数据集包含从Google影像中抓取的超过79,300,000张图像,分布在75,000多个类别中。可以从麻省理工学院的计算机科学和人工智能实验室(CSAIL)的网站上在线搜索和细读具有220万张图像的较小版本。
而后,麻省理工学院作出反应,在星期一从CSAIL网站上删除了该可视化以及可下载的完整数据库。
二、MIT:不知情!图片太小无法手动过滤麻省理工学院教授Antonio Torralba说,实验室根本不知道这些令人反感的图像和标签存在于数据集中。
“很显然,我们应该手工筛选它们,”他告诉外媒Register。“为此,我们深表歉意。实际上,我们已经使数据集脱机,以便可以删除有问题的图像和类别。”
麻省理工学院CSAIL在其网站上的一份声明中表示,由于图像太小,无法进行手动检查和手动过滤,因此该数据集将永久脱机。该实验室还承认,它是自动从互联网上获取图像的,而无需检查图书馆是否吸收了任何令人反感的图片或语言,并敦促人们删除其数据副本:
引起我们注意的是,Tiny Images数据集包含一些贬义性术语,例如分类方式和令人反感的图像。这是依赖于WordNet名词的自动数据收集程序的结果。我们对此深表关切,并向可能受到影响的人们表示歉意。
数据集太大到达8000万张图像,并且图像太小,只有32 x 32像素,以至于人眼很难辨别这些内容。因此,即使去手动过滤这些图片,也无法保证可以完全删除令人反感的图像。
因此,我们决定正式撤销数据集。它已脱机,并且不会重新联机。我们要求社区将来不要使用它,并删除可能已下载的数据集的任何现有副本。
Tiny Images中的图片都很小,是为了适配2000年代末和2010年代初的计算机视觉算法,这也是Tiny Images名字的由来。
Torralba教授说:“这个数据集包含53,464个不同的名词,都是直接从WordNet拷贝过来的。”他指的是普林斯顿大学(Princeton University)将英语单词分类成相关集的数据库。“然后这些系统就会自动从当时的互联网搜索引擎上下载相应名词的图片,并使用当时可用的过滤器来收集8000万张图片。”
三、偏见源于搜索引擎,从1980年的WordNet说起WordNet于1980年代中期在普林斯顿认知科学实验室建立,由George Armitage Miller创立,他是认知心理学的创始人之一。“Miller着迷于单词之间的关系。”普拉布告诉我们,“数据库本质上映射了单词如何相互关联。”
例如,“猫和狗”一词比“猫和伞”更紧密相关。不幸的是,WordNet中的某些名词是种族“ist”语,或者带有侮辱色彩。几十年后的今天,随着学者和开发人员将数据库用作方便的英语单词孤岛,这些术语困扰着现代机器学习。
“在构建庞大的数据集时,您需要某种结构,” Birhane说,“这就是WordNet有效的原因。它为计算机视觉研究人员提供了一种对图像进行分类和标记的方法。当您只可以使用WordNet时,为什么要自己做呢?”
WordNet本身并不会像单词列表那样有害,但是当与图像和AI算法结合使用时,WordNet可能会带来令人不快的后果。Birhane说:“ WordNet项目的主要目的是映射彼此接近的单词。但是,当您开始将图像与这些单词相关联时,您就是在拍一张真人照片并将其与刻板印象永久存在的有害词划等号。”
ImageNet也存在相同的问题,因为它也使用WordNet进行了注释。名为ImageNet Roulette的实验允许人们将照片提交到ImageNet训练的神经网络,该网络将使用数据集中的标签描述图像。毫不奇怪,人们喂给他们最着迷的系统快照:自拍照。当软件使用种族主义和冒犯性标签描述他们时,有些人感到震惊。
四、问题数据比例小,对AI模型的社会效应影响大在这些庞大的数据集中,有问题的图像和标签所占的比例很小,并且很容易将其作为异常现象清除掉。Prabhu和Birhane认为,如果将这些材料用于训练现实世界中使用的机器学习模型,则可能导致真正的伤害。
他们在论文中写道:“缺乏对数据集的批判和规范,对妇女、种族和少数民族以及社会边缘的弱势个人和社区造成了极大的负面影响。”
▲马赛克下据称是穿着比基尼的女性
这些群体在AI训练数据集中通常不能很好地表现出来。这就是面部识别算法难以识别肤色较深的女性和女性的原因。
底特律的一个黑人在今年早些时候被面部识别软件误认为是可疑小偷后,被警察误捕。这也是有争议的 AI算法从低分辨率快照生成高分辨率图像的原因,该算法将Barack Obama的模糊照片变成了比Black更白种的人。
Birhane说:“人们不会考虑这些模型将如何应用或将其用于什么。他们只是想‘哦,这是我可以做的很酷的事情’。但是,当您开始更深入地思考时,您将开始发现所有这些阴险的目的,并了解这些危害如何显现。”
这种问题并不是无法解决的,比如Facebook已经在聘请同意将自己的面孔用于数据集的演员,生成在训练软件以检测计算机生成的图像数据集,可以通过人为选择来尽量避免类似种族偏见问题。
结语:从数据集切入,促进AI模型“去偏见”在被业内人士指出数据集存在种族歧视等偏见后,麻省理工学院(MIT)迅速永久下线了该数据集。MIT教授对此道歉,这种缺漏更多地是源于研究者只考虑到数据集名词拷贝时的便利性,而没有对可能出现的种族偏见问题进行考虑和解决。
长期以来,人脸识别等AI模型在西方都被诟病带有偏见,使得许多地区禁用技术。当我们看到这些种族歧视等偏见的一大根源是来自数据集时,机器视觉研发者一方面被困扰,一方面也许能找到解决问题的新办法。
文章来源:The Register