AI 时代的隐私保护:企业收集用户数据,只靠“匿名”是不够的

当苹果在 WWDC 2016 的主题演讲中,讲到“差分隐私 (Differential Privacy)”这个密码学专有名词的时候,只有少数人意识到,苹果又走在了时代前列。

大部分中外观察者都认为,苹果为人工智能时代所做的努力不够,它依然是一家以硬件设备为核心的公司,对于为更大规模的用户提供服务不感兴趣(例如 iMessage等软件均没有 Android 版),所以等人工智能技术得以真正崭露头角的时候,很可能难以追赶 Google、Facebook、亚马逊和微软。

这或许是对的。但苹果在解决人工智能时代的隐私保护难题上,又似乎比其他科技巨头,走得更远。

人工智能依赖于机器学习(深度学习)算法,而机器学习又需要大规模的训练数据,所以向用户搜集数据比以往更加重要。

AI 时代的隐私保护:企业收集用户数据,只靠“匿名”是不够的_第1张图片

如今,当你向一家互联网公司询问,你们收集来的用户信息会不会侵犯用户隐私的时候,行业标准答案是:

1、收集用户信息是必要的,这样有助于改善产品或服务。

2、我们是匿名收集用户信息的,并不保存任何用户的身份信息。

“匿名收集”这个答案,作为挡箭牌非常好用。外行都会被它唬住,以为匿名就意味着无法关联到具体的某个用户的信息。

但是对这个行业稍有了解的人,都应该清楚,匿名并不能完全保证用户的隐私安全。最经典的案例莫过于,Netflix 曾放出“经过匿名处理的”上亿条电影评分数据,“仅仅保留了每个用户对电影的评分和评分的时间戳”,希望通过竞赛的形式,找到更好的影片推荐算法。但是 2009年,德州大学的两位研究人员,通过这些匿名数据与公开的IMDB数据做对比,成功将匿名数据与具体的用户对应了起来。Netflix 不得不取消了,这项原计划每年举行的竞赛。

苹果想把(一定会收集用户信息的)科技公司在隐私保护方面的级别,提升到新的高度。而“差分隐私 (Differential Privacy)”,正是它找到的答案。这项密码学前沿技术的基本原理,就是向包含个体信息的大量数据集里注入噪音(或者说扰动),目标是保证每个个体信息都无法泄露,同时这个数据集的统计学信息依然可以被外界分析。

科学家们正在研究,究竟注入多少噪音,可以实现隐私保护和数据分析的最佳平衡。

不出意外的话,苹果将成为第一个真正大规模使用这项“差分隐私 (Differential Privacy)”算法的公司。但是也有学者表达了自己的担心,他们认为这项技术前景可期,但还没有成熟到大规模商用的时候。

AI 时代的隐私保护:企业收集用户数据,只靠“匿名”是不够的_第2张图片

也有人猜测,苹果应该与微软达成了某种私下协议,因为这项“差分隐私 (Differential Privacy)”算法的提出者,来自微软研究院。苹果在 WWDC 上引用了一名大学教授对苹果使用该算法的看法——“使用这项算法说明苹果很有远见,苹果在隐私保护方面领先其他科技公司”,而这名教授是《The Algorithmic Foundations of Differential Privacy》(差分隐私的算法基础)一书的两个作者之一,另一位就是微软的研究员。

一个可能的情况是,研究这项算法的大公司不止苹果一家,只不过它是最先表明积极态度的,至少在舆论方面占得先机。

总结一下。读完本文,你只需要知道“匿名收集信息”并不能回答互联网公司如何保护用户隐私的问题,就可以了。就像亚马逊CEO贝佐斯在 Re/code 大会上讲的那样,保护隐私是这个时代的难题。只不过,愿意给出新解法的公司,却少得可怜。


本文转自d1net(转载)

你可能感兴趣的:(人工智能,wwdc,密码学)