实时数据中最大的挑战之一是数据之间的高维时间相关性。许多研究人员发现,差异隐私适合于保护实时健康数据中的隐私,并声称这些解决方案比现有的方法具有优势。这证明了差异隐私是一种富有成效的机制,并为保护实时健康数据的隐私提供了一种更实用的方法。据我们所知,目前还没有专门的调查、传统文献综述或系统文献综述(SLR)。这激发了我们在本文中的工作。
作者在不同的隐私下对可穿戴数据发布(连续生成数据)进行了分析。根据现有文献,提出了一个保护可穿戴生理数据隐私的整体观点。通过执行一个系统的映射,作者分析了技术、它们的用例、数据集、实验场景和现有解决方案的局限性。研究论文主要分为生理学、实时和其他三个主要部分。探索并分析了研究界如何解决这些问题,他们如何通过接近不同类型的技术做出贡献,他们考虑了什么实验程序,以及他们总结了哪些局限性。
1.差异隐私的必要数学概念及其基本机制。
2.讨论了可穿戴设备、它们产生的数据类型,以及可穿戴健康数据和传统健康数据之间的差异。
3.解释了系统的文献综述过程
4.分析。
5.简短的讨论。
6.总结了未来的方向。
差分隐私的原理其实就是概率的游戏,从表面上值发生了改变,看似不可靠可以否认,但是由于符合一定概率,又提供了证明。换个角度说可以是用户否认数据的能力,因为没有具体的证据证明这个行为是对的还是错的,因为这个随机性提供了保护。通过不清楚每个响应是否合法,甚至通过任意更改响应,这些算法可以确保无论向数据库发送了多少查询,都不能具体识别任何人。差分隐私是为了共享数据而实现的,而LDP则通过维护个人隐私来保护数据收集的过程.
可穿戴设备可以收集实时数据,如时空数据、轨迹数据、位置数据,但最重要的是生理数据。它们可以跟踪活动,并远程监测患者的病情。消费者级可穿戴追踪器可以跟踪健康状况,生物传感器可以收集生物数据。其他可穿戴设备的例子是智能鞋,包括智能鞋、袜子、鞋垫和手套[31],智能珠宝包括智能戒指、智能手镯甚至智能手环,智能眼镜、血糖监测设备、血压监测器、人体传感器和生物传感器。
可穿戴设备的数据交换架构由三个主要组件组成:1)可穿戴设备2、智能手机和3)服务器/云服务器。这款可穿戴设备使用连接上的传感器收集数据,并将数据传输到用户的智能手机。蓝牙用于在可穿戴设备和智能手机之间传输数据。这些传感器数据被连续实时传输到智能手机。智能手机上的用户应用程序使用户能够监控可穿戴设备收集到的数据。之后,存储在智能手机中的数据通过移动网络或WiFi传输到远程服务器/云服务器。这些服务器存储的数据将根据用户的偏好与医疗保健提供者、健康研究人员或直系亲属成员共享。
基于dp的动态噪声阈值:一种基于dp的身体传感器网络大数据的新方案
采用哈尔小波技术的DP(拉普拉斯噪声):针对误差较小的bsn中敏感大数据的差异私有方案。【直方图转二叉树,树状结构提供远程查询减小误差】
桶状算法和拉普拉斯分布:一种发布健康数据的有效的差异私有机制
【通过对扰动数据精度的总体提高】
选择性高斯机制与DP:一种基于dp的大数据BAN方案,更可靠
【只有当DP不能产生令人满意的保护时,才将高斯噪声应用于重要特征。】
采用自适应采样、滤波和预算分配技术的拉普拉斯噪声:数据集隐私,从连续w天收集数据的地方
【扰动方法、自适应采样、滤波和预算分配技术。他们的方法允许发布具有w天差异隐私的实时健康数据,其中收集任何连续w天的健康数据。】
几何分布:一种更多样化和更安全的机制,可以抵抗微分攻击,并支持加性和非加性聚合
【它同时支持多功能加性(平均、方差)和非加性聚合(最小/最大、中位数、百分位和直方图)。据称,所提出的机制对云服务器更多样化和安全,可以抵御差异攻击。】
K-means聚类和基于拉普拉斯噪声的DP:提出了一种基于高效的IoMT最大化框架的隐私保护聚类方案
【通过优化隐私预算,引入了一种隐私保护聚类方案,提高了精度。为了实现这一点,他们对DP使用了K-means聚类和拉普拉斯噪声。】
拉普拉斯分布:该方法能够保护由智能手表产生的个人敏感数据的隐私
【有效地计算人口数据,同时通过使用手表保持隐私】
通过利用LDP进行拉普拉斯分销:所开发的方法可以从DP下的智能手表上收集敏感的健康生命日志
LDP与拉普拉斯噪音:已开发的技术能够通过维护LDP,从智能手表上收集健康数据
采用分层方法提出的拉普拉斯噪声:提出了在DP条件下提出的多功能健康数据聚合方案
LDP与拉普拉斯:所提出的机制可以利用LDP以固定间隔收集个人时间健康数据
【以固定的间隔收集个人时间健康数据。】
基于微聚合算法的拉普拉斯噪声:提出了一种基于聚合算法的可穿戴设备隐私保护模型
【识别并解决了V-MDAV算法的问题,然后提出了一种基于聚合算法WSV-MDAV用于使用DP的可穿戴设备】
指数机制:为VR设计的界面,以防止用户重新识别和保护性别信息使用DP
【作者设计了一个虚拟现实(VR)界面,可以防止用户重新识别,并通过使用DP保护性别信息。他们的实验有效地降低了开销,从而产生了低成本的解决方案,保护用户隐私的效用。】
修改后的拉普拉斯机制:一种基于雾计算的具有个性化DP方案的安全智能家居模型
【利用DP探索了个性化保护场景下的碰撞攻击。在他们提出的模型中,在马尔可夫过程下产生噪声,并使用改进的拉普拉斯分布实现隐私保护。他们的实验成功地提高了隐私能力,同时最大限度地减少了总体隐私预算,消除了背景知识攻击。】
数据驱动技术和数据混淆的拉普拉斯噪声:通过满足DP的敏感数据的按需混淆
【可以通过满足差异隐私来混淆任何敏感数据的需求。这项工作具有实际意义,通过最小限度地降低侵犯隐私的风险,提高了性能。】
拉普拉斯分布:在不同的隐私下定义了一个新的行为隐私指标
傅里叶扰动算法:一种基于块的考虑不同因素的眼动特征隐私保护方法
【通过考虑降低查询灵敏度、复杂性和时间相关性的因素,提出了一种基于块的眼动特征隐私保护方法。他们的基于变换编码的解决方案比现有的各种低复杂度方法更适合适应性。这两篇论文都与眼动数据有关。】
傅里叶摄动算法(FPA)和分布式拉普拉斯摄动算法(DLPA):结合FPA和DLPA,实现了前者的精度效益和后者的可伸缩性
【作者提出了一种名为粘贴的实时健康数据的方案,其中同时使用了傅里叶扰动算法和拉普拉斯分布。通过干扰查询答案的离散傅里叶变换(DFT),所提出的FPA算法可以在时间序列数据上回答多个查询,并在存在时间相关性的情况下确保DP。另一方面,所提出的DLPA(分布式拉普拉斯扰动算法)可以用于以分布式方式添加噪声,这在没有可信第三方的情况下是一个有用的特性。通过结合FPA和DLPA,粘贴获得了前者的精度好处和后者的可伸缩性】
具有拉普拉斯分布的对称几何分布(SGD):结合差异隐私和密码学来计算加密数据上的一个时间间隔的近似聚合统计数据
【作者提出了一种结合差异隐私和密码学的解决方案,使用户能够将加密数据流上传到聚合器(可以不可信),聚合器可以通过所提出的算法计算一个时间间隔的近似聚合统计数据。结合这些方法帮助他们实现了强大的隐私保障】
拉普拉斯噪声(使用带方差的高斯白度误差):利用卡尔曼滤波器提高了数据精度,利用自适应采样实现了隐私成本最小化
【该方法通过提高数据精度(使用卡尔曼滤波器[69])和最小化总体隐私成本(具有PID控制的自适应采样算法),能够在差分隐私条件下释放时间序列数据。】
带有滤波和自适应采样的拉普拉斯噪声:基于滤波和自适应采样的差分私有实时聚合统计数据
【同样,Fan等人。[62]提出了一个基于滤波和自适应采样的满足差异隐私来发布实时聚合统计量的框架。他们的自适应方法提高了实用性,即使在较小的隐私成本下也显示了良好的性能。】
带有采样的拉普拉斯噪声和动态隐私预算分配:提出了两种新的机制和几种优化
【在[63]中,作者考虑了使用拉普拉斯噪声的滑动窗口方法,以及复杂的采样和动态隐私预算分配方法。这将提高在实时数据发布方面的可伸缩性。他们还提出了三种基准测试方法,分别为FASTw、统一方法和样例。该解决方案是基于基于卡尔曼滤波器的差异隐私,以促进流媒体数据共享】
拉普拉斯无香味卡尔曼滤波器的拉普拉斯噪音:基于卡尔曼滤波器的DP用于非线性系统,实现差异私有流数据共享
拉普拉斯机制:在特定级别内自动转换现有的差异私有流数据的系统
【为了克服实时数据中的时间相关性问题,Yang等人。[59]设计了一个系统,可以自动将现有的差异私有流数据转换为一个有边界的时间隐私泄漏(TPL)。按需敏感的数据混淆也用于实时流数据。】
拉普拉斯噪声具有自适应采样、预算分配、动态分组和滤波:监控具有隐私保证的无限流的在线聚合
【此外,[60]的作者提出了一个名为RescueDP的框架,它可以保证隐私地监控无限流的在线聚合。使用自适应和动态的方法,RescueDP优于现有的方法,并在适当的隐私保证下保持效用。】
采用GGA算法和雷伯勒散度(KL):该方法可以发布基于Kullback-Leibler(KL)散度的差异私有动态数据的直方图
【最后,由Gao等人提出的算法。[61]可以发布基于Kullback-Leibler(KL)散度[70]的差异私有动态数据的直方图。使用这种方法已经提高了整体精度和效用。】
局部差异隐私(LDP):利用LDP实现智能设备数据的有效解决方案
【[64]的作者提出了一个实用、准确和高效的系统,可以收集和检查LDP下智能设备用户的数据。】
使用拉普拉斯噪声的机器学习(在训练集中添加的噪声):在雾计算架构中基于ML的差异私有聚合方法,以减少通信开销和释放云负担
【在[65]中,作者考虑了雾架构而不是云架构,他们提出的多功能聚合方法减少了通信开销,并释放了云负担。考虑到数据重建攻击,】
拉普拉斯分布和正弦多缩词:实用程序最大化与可调的隐私设置,用于计算聚合在私人传感器数据
【Thomas等人。[66]提出选择适当的隐私设置来计算私有传感器数据上的聚合函数。它还可以帮助为不同级别的隐私最大化效用。这使得该方法安全可靠。】
通过利用拉普拉斯分布而产生的动态噪声:一种输入扰动算法,通过对数据重建攻击和可预测的效用提供强大的弹性来保护DP
【Luo等人。[67]提出了一种输入摄动算法Salus。该轻量级算法在保持数据重构隐私的同时,对数据重建攻击提供了很强的弹性。后来,Salus在P3框架中被扩展,以支持隐私保护的移动众测服务(MCS)应用程序[65]。】
至于其他类别,具有估计误差的通信开销已被报道为主要的缺点[64]。在[66]中,与拉普拉斯机制相比,由于使用了局部和全局错误,因此被强调。由于在[67]中使用Salus而产生了系统和计算开销。此外,还存在计算开销和数据重构错误。保持平衡的噪声和灵敏度也是保护隐私的一个障碍,因为大型训练集包含太多的噪声,从而导致所提出的模型[65]的效用损失。
目前研究的限制大致分为四个方面:误差,开销,隐私预算的值和算法。
误差又可以分为相对误差,重建误差,扰动误差,绝对误差,较大的组导致的误差,估计误差,数据重建增加的误差。
开销分为通信开销,计算开销和系统开销。
隐私预算的合理性。
算法的复杂性,无法检测到缓和数据以及可伸缩性。
为ε选择合适的价值:差异隐私的主要问题之一是为用ε表示的隐私预算选择合适的价值。ε的价值决定了隐私的严格性和强度。然而,ε的价值较小,就会提供更强的隐私,因为数据会失去其效用,反之亦然。因此,对于任何基于dp的技术来说,找到ε的最佳值都是一个很大的挑战。在寻找最优值方面所做的工作非常有限。
数据的相关性:真实世界的数据集通常包含数据之间的强相关性,这可能会导致个人信息的披露。例如,这样数据之间的相关性可以使对手能够找到关于不同个体的敏感信息。对手可以将混淆的数据与现有的相关性结合起来,并获得关于个人的敏感信息。研究人员提出了基于模型的方法[88]、[89]和基于转换的方法[90]、[57]来解决数据相关性问题。然而,这些方法并没有被证明是一个最优的解决方案,甚至有时会在很大程度上扭曲数据,[91]。因此,克服数据相关性的障碍是差异隐私面临的一大挑战。
敏感性:差异隐私的主要目的是保持数据集中任何个体的存在或缺失之间的不可区分性。敏感度是两个相邻数据集(一行中不同的数据集)之间的最大差异。添加噪声以覆盖差异,并为两个数据库保持相同的标识。为了提高灵敏度,需要增加更多的噪声。然而,大值的噪声会扭曲数据,这可能导致不必要的效用损失。这些在隐私和效用之间的权衡需要保持。一些技术正在使用多样性敏感性来克服这个问题,[92]。然而,选择一个最佳的灵敏度值,同时保持隐私和效用来保持权衡仍然是一个挑战。
基本机制的脆弱性:当研究人员试图实现它们时,差异隐私的基本机制面临着各种挑战。在[93]中,作者已经证明了拉普拉斯噪声很容易受到跟踪器的攻击。查询几次后,结果(添加具有真实值的拉普拉斯噪声后)没有隐私或没有实用程序。此外,[67]还表明拉普拉斯机制容易受到数据重建的攻击。
差异隐私仍然面临着许多问题,如微调ε、其隐私预算,以在隐私和可用性之间取得平衡,以及其他问题,如提及性和时间相关性也需要解决。存在数据重构误差[57,67]、扰动误差[57]、绝对误差[61]和相对误差[42,56,62]等开放性的研究问题。重要的是要找到能够显著最小化错误率的解决方案,从而提高数据利用率。此外,我们还观察到,在实时健康数据发布方面进行的工作数量有限。最后,隐私机制需要更适合适应,用户可以根据自己的需要调整他们的隐私。
针对实时数据的自适应隐私预算:选择适当的ε值是保护个人隐私的一项关键任务。与静态数据不同,我们没有实时流数据的先验值。因此,自适应地(而不是静态地)分配预算可能是在隐私和效用之间保持平衡的一种好方法。凯拉里斯等人的[63]回复搜索工作确立了自适应预算分配相对于静态预算分配的优越性。
将区块链与差异隐私整合:在过去的几年中,区块链已经成为一项关键技术,以分布式和分散的方式在无信任各方之间建立信任。它有潜力改变我们共享信息[94]的方式,并保证安全和不可变的数据存储。随着与比特币概念的关联,区块链已经在多个领域被广泛采用,包括医疗保健、金融、物流、物联网[95-98],甚至可穿戴设备和智能医疗保健[99]。然而,隐私是区块链的一个大问题,特别是对公共区块链。一些研究人员已经利用差异隐私来克服区块链系统[100]中的隐私问题。此外,区块链还通过提供分布式透明系统来建立隐私预算的信任。来自[101,102]的作者提出了一种基于区块链的方法来跟踪和节省差异隐私成本。
大数据和人工智能(AI)中的差异隐私:在当今世界,大数据和人工智能已经成为主要的驱动力之一。近年来,大数据和人工智能(AI)得到了广泛的关注,成为了有价值的资源。大数据是指产生来自各种来源的大量数据,包括传感器、可穿戴设备、物联网设备、社交媒体平台等。由于其规模,隐私和安全是一个主要问题。研究人员正在不同领域(如运输、健康)[103]的大数据发布中使用差异隐私。来自[104]的作者已经表明,整合差异隐私已经解决了大数据发布的许多隐私问题。