一项自动标记图像的谷歌服务会根据给定图像的肤色产生截然不同的结果。该公司解决了这个问题,但问题可能更广泛。
为抗击新冠病毒,多国下令公民在火车站或机场接受体温检测。在这种情况下所需的设备——手持式温度计,已经从专业物品变成了常见物品。
人工智能的一个分支,称为“计算机视觉”,专注于自动图像标记。大多数计算机视觉系统都是在包含很少手持式温度计图像的数据集上进行训练的。因此,他们无法正确标记设备。
在推特上疯传的一项实验中,AlgorithmWatch 表明,计算机视觉服务 Google Vision Cloud 将一张持有温度计的深色皮肤人的图像标记为“枪”,而一张浅色皮肤人的类似图像则被标记为“电子枪”。设备”。随后的实验表明,持有温度计的深色皮肤手的图像被标记为“枪”,而手上覆盖有鲑鱼色的同一图像足以让计算机将其标记为“单眼”。
4 月 3 日,Google Vision Cloud 在添加叠加层后生成了截然不同的标签。
谷歌此后更新了其算法。截至 4 月 6 日,它不再返回“枪支”标签。
谷歌产品战略和运营总监 Tracy Frey 在给 AlgorithmWatch 的一份声明中写道,“这个结果是不可接受的。认识到这一结果与种族主义之间的联系很重要,我们对这可能造成的任何伤害深表歉意。”
“我们的调查发现一些物品被错误地标记为枪支,并且这些结果存在于各种肤色中。我们调整了置信度分数,以便在照片中出现枪支时更准确地返回标签。”弗雷女士补充说,谷歌没有发现“没有证据表明与肤色有关的系统性偏见。”
代尔夫特理工大学研究自动化系统偏差主题的博士生阿加特·巴莱恩 (Agathe Balayn) 对此表示赞同。她测试了谷歌服务中的几张图像,得出的结论是,这个例子可能是“一个没有统计偏差的不准确案例”。她写道,在没有更严格的测试的情况下,不可能说该系统存在偏见。
很容易理解为什么计算机视觉会根据肤色产生不同的结果。此类系统处理数百万张由人类精心标记的图片(例如,当您单击包含汽车或桥梁的方块以证明您不是机器人时所做的工作),并从中进行自动推论。
计算机视觉无法识别人类意义上的任何物体。它依赖于训练数据中相关的模式。研究表明,一旦狗在雪地背景下拍照,计算机视觉就会将它们标记为狼,而当牛站在海滩上时,计算机视觉就会将它们标记为狗。
由于深色皮肤的人可能更频繁地出现在训练数据集中描绘暴力的场景中,因此计算机对深色皮肤的手的图像进行自动推理更有可能将其标记为来自暴力词汇领域的术语。
其他计算机视觉系统也表现出类似的偏差。去年 12 月,Facebook 拒绝让一名巴西 Instagram 用户为一张照片做广告,称其中含有武器。事实上,这是一个男孩和一级方程式赛车手刘易斯·汉密尔顿的画。两个角色都有深色皮肤。
标签错误可能会对物理世界产生影响。纽约大学 AI Now 研究所的技术研究员、计算机视觉专家黛博拉·拉吉 (Deborah Raji) 在一封电子邮件中写道,在美国,武器识别工具被用于学校、音乐厅、公寓大楼和超市。在欧洲,一些警察部队部署的自动监控也可能使用它。拉吉女士写道,由于这些系统大多数与谷歌视觉云相似,“它们很容易有相同的偏见”。因此,深色皮肤的人更有可能被标记为危险的,即使他们持有像手持温度计这样无害的物体。
FrauenLoop 是一个注重包容性的技术专家社区,其创始人兼首席执行官 Nakeema Stefflbauer 在一封电子邮件中写道,计算机视觉软件中的偏见“肯定”会影响深色皮肤个体的生活。她补充说,由于女性和深色皮肤的人的错误识别率始终较高,因此用于监视的计算机视觉的传播将对他们产生不成比例的影响。
例如,青少年 Ousmane Bah 因人脸识别错误而被错误地指控在 Apple Store 商店盗窃,而 Amara K. Majeed 因脸部识别错误而被错误地指控参与 2019 年斯里兰卡爆炸案。斯特夫鲍尔女士预计,由于识别错误,如果缺乏有效的监管,整个群体最终可能会避开某些建筑物或社区。她补充说,如果计算机视觉得到更广泛的部署,个人的行动可能会面临事实上的限制。
谷歌董事弗雷女士在声明中写道,公平是谷歌的“核心人工智能原则”之一,他们“致力于在开发机器学习方面取得进展,并将公平作为成功机器学习的关键衡量标准。”
但谷歌的图像识别工具之前也曾返回过带有种族偏见的结果。 2015 年,谷歌照片将两只深色皮肤的个体标记为“大猩猩”。据《连线》报道,该公司已道歉,但并未解决该问题。相反,它只是停止返回“大猩猩”标签,即使对于该特定哺乳动物的照片也是如此。
AI Now 的黛博拉·拉吉 (Deborah Raji) 表示,科技公司仍然生产带有种族偏见的产品,至少可以用两个原因来解释。首先,他们的团队绝大多数是白人和男性,因此在开发阶段不太可能发现并解决歧视其他群体的结果。其次,“公司现在刚刚开始建立正式流程来测试和报告这些系统工程中的此类故障,”她写道。 “外部问责是目前提醒这些工程团队的主要方法,”她补充道。
“不幸的是,当有人抱怨时,许多人已经受到模型偏见表现的不成比例的影响。”