AI赋能的判定机制的倾向性

最近忙着论文的事情,没有时间写一些技术博客,而且CSDN的图床经常出现问题,也懒得整理了。

今天也是说些闲话,讨论下对未来AI赋能判定机制的一些思考。


什么是AI赋能的判定机制,主要其实就是:基于机器智能的技术手段,来代替人类评判事情。

可以举例几个典型应用:

AI自动面试

AI面部识别罪犯

AI病理检测

等等.....

最近恰好很火的一条新闻:

《面部识别预测罪犯”研究遭1700名学者联名反对》
 
 

下面是具体内容:

在一份长长的公开信中,数千名 AI 研究人员呼吁科学出版商 Springer Nature 不要发表一篇论文。据介绍,该研究提出了一种面部识别系统,能够预测一个人是否为犯罪分子。这篇论文由美国哈里斯堡科技大学(Harrisburg University of Science and Technology)提交。

是什么研究引发了如此争议?在这篇名为《A Deep Neural Network Model to Predict Criminality Using Image Processing》的论文中,研究人员称该技术没有种族偏见,根据照片中人的面部特征预测是否为罪犯的准确性达到了 80%,这一深度学习方法是面向执法机构开发的。

这篇论文的第一作者,哈里斯堡科技大学在读博士 Jonathan Korn 是一名前纽约警察。同为论文作者的 Roozbeh Sadeghian 教授在论文提交的新闻中表示:“我们知道机器学习技术在与面部识别和情感检测有关的各种任务上可实现超过人类的水平。新研究表明,这些工具可以从图像中提取出高度可预测犯罪的微小特征,这证明了新方法的强大。”

在原先的计划中,这篇论文会被收录在施普林格·自然旗下研究丛书「Springer Nature – Research Book Series: Transactions on Computational Science & Computational Intelligence」中。

“通过无偏见地自动识别潜在威胁,我们可以实现预防犯罪的目标,为执法部门和军事应用提供受到隐形偏见和情感因素更小的工具,”论文作者之一的 Nathaniel Ashby 表示。“我们的下一步是寻找合作伙伴以推进这一使命。”

然而事情并不如作者所想的那样顺利。在新闻发布之后,“AI 看人脸预测犯罪”的研究很快引发了不小的争议。在社交网络上,业界专家就效率、隐私和道德等原则达成了共识,称该计划不负责任、牵强附会且「错得离谱」,因为这可能引出 AI 判断一些人是天生罪犯的奇怪结果。

在论文提交后,哈里斯堡科技大学的新闻稿。在 5 月份这篇新闻因争议过大又被删除。

自 5 月论文提交的消息被曝出后,这一研究一直被科学界关注与讨论。在最近的公开信中,已经有来自哈佛大学、MIT、谷歌以及微软的学者和 AI 领域的专家在这封公开信上签字。他们呼吁出版公司 Springer 停止发表这篇论文:“我们是来自不同科技领域、学科和人文领域的研究者及从业人员,我们对于即将出版的论文深表关注。”

公开信的组织者之一 Audrey Beard 在一份邮件声明中表示:“根本无法开发出不存在种族偏见的犯罪预测系统,因为刑事司法数据本身就是存在种族偏见的。”

这已经不是 AI 研究者第一次提出这样令人质疑的研究了。

根据人的相貌来评估犯罪几率,这让人们想到了 2016 年 11 月上海交大提交到预印版论文平台 arXiv 上的论文《使用脸部图像自动推断罪犯》,研究者声称通过大量证件照片的训练,神经网络模型可以在识别罪犯时准确率达到 87%。在当年,该研究也曾引起学术界和舆论界的大量讨论。

6月24日,Nature 作出了澄清,哈里斯堡科技大学的文章不会被出版:

AI赋能的判定机制的倾向性_第1张图片

但还是有人继续质问:“为什么这样的文章会进入施普林格·自然的审核流程?”看来想要消除深度学习的偏见,避免其成为“作恶”的工具,我们还有很多事情要做。

公开信:

https://medium.com/@CoalitionForCriticalTechnology/abolish-the-techtoprisonpipeline-9b5b14366b16

参考内容:

https://www.biometricupdate.com/202005/biometric-software-that-allegedly-predicts-criminals-based-on-their-face-sparks-industry-controversy

 

这里面值得强调的一点,实际上,这个世界上,绝大多数评判标准,实际上同样都是基于数据的而这些基于数据评判人类的方法,目前来看都具有一定真阳性,但都无一很具有偏见。这是一定的,目前并没有任何一个评价体系,能够达到完全无偏评价。

高考从某种角度也是这样的方法,根据成绩这一单一数据筛选人群,有一定真阳性,但偏见(既假阴性假阳性)也同样很严重。

有些人可能成绩不好(假阴性),但是只是不适合应试教育罢了,有些人成绩很好(假阳性),但可能其他能力(包括品德)都很差。

那么,为什么呢,为什么AI病理诊断,AI自动化面试,并没有遭到如此的联名抵制,反而公众和科学家虽然一直带着审慎的眼神看待这些技术,但没有引起强烈的反对,甚至有很多人愿意去尝试呢?

这里面很重要的一点,那就是一个评价体系的倾向性:

倾向性对于这些评价标准非常重要,而什么是倾向性呢:

就像高考,是为社会筛选优秀的人,这就是好的倾向;

AI识别罪犯,是为社会,识别危险分子,这就是不好的倾向。

而像刚刚举的例子,AI面试,就跟高考一样,是好的倾向,为公司机构筛选适合自己的人。

另一方面,AI病理检测,跟前面几个例子,还不一样,它的倾向实际上比较复杂,但总体来说,AI病理检测,通常会更倾向于检测出疾病,这里就涉及到假阴性,假阳性的权衡,在这个系统里,假阴性是完全可以承担的。

总结的简单一些:

  1. 如果一个系统的假阴性的代价,不能承担,那么这个评价体系就毫无意义(例如AI检测罪犯,所以会有如此多的人站出来反对);

  2. 如果一个系统的假阳性无法承担,那我们可以使这个系统倾向假阴性(例如AI病理检测,我们通常会使系统更加倾向于检测出疾病,再由专家会诊);

  3. 经过第二条后的系统需要参见第一条。而如果一个系统的假阴性可以承担,那么这个系统,是有一定价值的;

你可能感兴趣的:(讨论,深度学习)