联邦学习-隐私保护数据科学解释 PRIVACY-PRESERVING DATA SCIENCE, EXPLAINED

我们今天要用数据科学解决的许多问题都需要访问敏感的个人信息-无论是我们的病史,财务记录还是个人习惯。每天,像您和我这样的人都会在我们的智能手机,电子设备或医疗设备上生成大量数据。但是由于隐私或专有方面的考虑,用于解决有意义的问题的数据可能会很有限且难以访问。

我们可以在不侵犯个人隐私的情况下进行数据科学吗?如果是这样,我们可以结合哪些技术使其成为可能?

传统上,训练模型将需要将此数据传输到中央服务器,但这引起了对数据隐私和安全性的众多担忧。数据泄漏和滥用造成的风险已导致世界各地立法制定数据保护法。为了在需要私有数据的领域中执行数据科学,同时遵守数据隐私法并最大程度地降低风险,机器学习研究人员已经利用了来自隐私和安全性研究的解决方案,从而开发了私有和安全数据科学领域。

私有安全机器学习(ML)在很大程度上受到密码学和隐私研究的启发。它由一系列技术组成,这些技术允许在直接访问数据的情况下对模型进行训练,并防止这些模型无意间存储有关数据的敏感信息。

尽管每种方法都有局限性和成本,但实际上使用多种技术来执行私有和安全的ML。在数据和模型所有者已经相互信任的情况下(例如,当公司内部的员工在公司内部数据上训练模型时),某些技术可能会负担过重,而对于需要保护数据和模型不受环境影响的上下文,其他技术则不够安全。恶意行为者的行为。只有将各种技术折衷方案清楚地传达给项目的数据持有者和关键利益相关者之后,才能确定针对特定项目的适当技术组合。

在本博客系列中,我们将解释隐私保护数据科学中的常见主题。在此介绍性页面中,我们将每个主题简化为一个句子并进行快速概述,在后续帖子中,您将进一步了解每种技术的详细信息和代码演示。

我们希望这些文章可以为您提供有用的资源,以帮助您找出组织中用例的最佳技术。


隐私技术:一句话摘要

 

联邦学习

简而言之:联合学习意味着对存储在世界各地不同设备或服务器上的数据进行机器学习模型训练,而无需集中收集数据样本。

无需将数据移至模型,而是将全局模型的副本发送到数据所在的位置。本地数据样本保留在其源设备(例如智能手机或医院服务器)上。将模型发送到设备并在本地数据上进行训练,然后将更新后的新改进模型及其更新发送回主服务器,以与主模型聚合。

从数据尚未从设备移出的意义上讲,这可以保护隐私。但是,仍然存在一个局限性:有时可以从权重更新或模型改进中推断出本地数据的内容。尽管个别客户无法重建样本,但“诚实但好奇”的服务器可以。为了防止从数据推断个人特征的可能性,可以采用其他技术,例如差分隐私或加密计算。

有关更多信息和代码示例,请参阅什么是联邦学习?

差分隐私

简而言之:有时,AI模型可以记住其训练过的数据的详细信息,以后可以“泄漏”这些详细信息。差分隐私是一个框架(使用数学方法),用于测量此泄漏并减少泄漏的可能性。

通常,深层神经网络过于参数化,这意味着它们可以编码的信息多于预测任务所需的信息。结果是一个机器学习模型,可以无意间记住单个样本。例如,可以探测旨在发出预测性文本(例如,智能手机上看到的下一句话建议)的语言模型,以发布有关用于训练的各个样本的信息(“我的社会保险号是……”)。

差分隐私是衡量此泄漏的数学框架。差分性隐私描述了对数据所有者的以下承诺:“无论是否有其他研究,数据集或信息来源,通过将您的数据用于任何研究或分析,您都不会受到不利影响或其他影响”。

该定义的一个关键方面是,无论攻击者可以使用什么其他研究,数据集或信息源,都必须保证隐私-众所周知,可以将两个或多个“匿名”数据集结合起来,以成功推断和取消匿名高度私人信息。这就是所谓的“链接”攻击,并且由于今天的攻击者非常容易获得大量数据,因此构成了严重的风险(例如:臭名昭著的Netflix奖金攻击,健康记录被重新识别)。但是,差分隐私比简单的数据集匿名化更强大,因为差分化量化了可能发生这种匿名化的风险,从而使数据所有者能够将风险降至最低。

差分隐私的工作原理是注入受控数量的统计噪声,以掩盖数据集中个人的数据贡献。执行此操作时要确保模型仍能洞悉总体人口,从而提供足够准确的预测以有用。该领域的研究允许根据隐私“预算”的概念来计算和评估隐私丢失的程度,最终,使用差分隐私是在隐私保护和模型实用程序之间进行谨慎的权衡。

同态加密

简而言之:同态加密使您无法读取数据,但仍可以对其进行数学运算。

与传统的加密方法相反,同态加密(HE)允许对加密的数据执行有意义的计算。使用同态加密时,数据可由其所有者加密,然后发送给模型所有者以运行计算。例如,它将训练有素的分类模型应用于加密的患者数据,并将加密的结果(例如疾病预测)发回给患者。值得注意的是,这里的模型权重不需要加密,因为计算是在模型所有者一方进行的。当前,对于使用同态加密可以执行的计算类型存在一些限制,并且计算性能与传统技术的差距仍然很大。

安全的多方计算

简而言之:安全的多方计算允许多方共同执行一些计算并接收结果输出,而无需暴露任何一方的敏感输入。

反过来,安全多方计算(SMPC)是一种方法,它允许独立的各方共同计算公共功能,同时保持输入和功能参数均为私有。它允许在不公开训练数据项或模型权重的情况下,对模型进行训练或将其应用于来自不同来源的数据。它依赖于构建具有一定价值的份额,将这些价值相加后可重构原始价值。SMPC在计算上不如HE密集,但需要双方之间进行大量通信,因此带宽可能成为瓶颈。

有关更多信息和代码演示,请参阅什么是安全的多方计算?

私有数据求交

简而言之:如果两方都想测试其数据集是否包含匹配值,但又不想彼此“展示”其数据,则可以使用私有集合交集来做到这一点。

专用集交叉点(PSI)是一种强大的加密技术,使两个都有一组数据点的一方可以比较这些数据集,而无需将其原始数据暴露给另一方(从而牺牲了其各自的数据隐私)。换句话说,PSI允许我们测试双方是否共享一个公共数据点(例如位置,ID等)-结果是仅包含双方共同的那些元素的第三数据集。

有关更多信息和代码演示,请参见什么是私有数据求交?

保护模型

注意: 虽然可以使用联合学习和差分隐私来保护数据所有者免受隐私损失,但它们不足以保护模型不被数据所有者盗用或滥用。例如,联合学习要求模型所有者将模型的副本发送给许多数据所有者,从而使模型面临因数据中毒而被IP盗窃或破坏的风险。通过允许模型在处于加密状态时进行训练,可以使用加密计算来解决此风险。加密计算中最著名的方法是同态加密,安全多方计算和功能加密。


深入

 

在本博客系列中,我们将展示联合学习如何为我们提供训练模型所需的数据,以及同态加密,加密深度学习,安全的多方计算和差分隐私如何保护客户的隐私。在这些链接中,您将找到用于构建现代隐私保护数据应用程序的每种技术的示例代码。

这些链接将包含大量代码片段,以帮助您开始使用案例,并链接到其他资源,以深入了解隐私保护ML的杂草。

  • 什么是联合学习?
  • 什么是私人集合路口?
  • 什么是安全多方计算?
  • 什么是差分隐私?
  • 什么是加密深度学习?
  • 什么是同态加密?

OpenMined要感谢安东尼奥Lopardo,艾玛Bluemke西奥Ryffel,纳瓦康,安德鲁·特拉斯克,乔纳森Lebensold,阿尤布贝奈萨和Madhura乔希Shaistha Fathima,娜TE梭伦,罗宾ROHM,萨布丽娜施泰纳特, 迈克尔Höh酒店 和Ben Szymkow 他们本系列 各个部分的贡献

本文翻译自OpenMined官方博客,链接地址:https://blog.openmined.org/private-machine-learning-explained/

  • 这篇文章的作者:
  •  

    艾玛·布鲁姆克

    医学影像学博士生。推特:@emmabluemke

  •  

    安东尼奥·洛帕多

    米兰理工大学计算机科学专业硕士。数据科学和自然语言处理从业者,OpenMined作家。

  •  

    安德鲁·特拉斯克

    OpenMined的创建者兼负责人-牛津大学博士研究生

  •  

    康娜华

    Python中的AI工程和软件开发。

你可能感兴趣的:(隐私计算,大数据)