#今日论文推荐# 单考虑分布偏移远不够,真实数据很复杂,「外部有效性」不可或缺

#今日论文推荐# 单考虑分布偏移远不够,真实数据很复杂,「外部有效性」不可或缺

数据分布偏移(data distribution shift)是可信人工智能系统热衷于考虑的一个话题,每年关于它的相关研究数不胜数。然而,仅关注分布偏移就足够了吗?
近期,纽约大学AI Now研究所的技术研究员Deborah Raji在UC伯克利助理教授Benjamin Recht的个人博客argmin上发表了对这一话题的看法。
她对于学界过度关注分布偏移感到担忧,认为更应该考虑统计上一个相关概念,即外部有效性(external vadality)。

数据偏移一直在可信人工智能上的一项“杀手锏”。例如,由美国史诗系统公司研发、被密歇根大学医院广泛应用的败血症识别模型在2020年4月由于频繁出现虚假报警,而被紧急叫停。据分析,这是因为新冠大流行导致的人口地理学特征发生了变化才使得模型出现偏差。
这是数据分布偏移的一个例子:当测试集的数据与训练集的数据分布发生变化时候,模型无法有效迁移到新的应用场景下导致出错。
这和不断变化的本质相关:真实世界的数据往往是动态的、变化的、不确定的,例如软件部署变化,人口迁移,行为变化,语言演变等,如果模型不将这些予以考虑,就会出现系统性偏差。

论文题目:External Validation Of A Widely Implemented Proprietary Sepsis Prediction Model In Hospitalized Patients
详细解读:https://www.aminer.cn/research_report/628c49227cb68b460fc03aca?download=falsehttps://www.aminer.cn/research_report/628c49227cb68b460fc03aca?download=false
AMiner链接:https://www.aminer.cn/?f=cs

你可能感兴趣的:(深度学习,transformer,深度学习,计算机视觉)