姚萌萌

论文翻译-Signal Processing and Machine Learning with Differential Privacy

IEEE2013-使用差分隐私的信号处理和机器学习

论文下载地址：http://cseweb.ucsd.edu/~kamalika/pubs/survey.pdf
相关会议视频：https://youtu.be/qH-jUfzoeXA

私人公司、政府单位、医院等机构在日常中积累了大量的数字化的关于顾客、消费者、病人的个人信息。这些信息大部分是私人的或者敏感的，未来的一种关键技术挑战就是如何设计一个系统或者处理技术，能够在保证数据和个人信息的隐私和安全的前提下，从这些大规模数据中提取信息。为了公共健康之类的目的，个体常常自愿去分享数据，但是他们希望他们的身份或者他们参与了的这一事实不会被泄漏。最近几年，出现了很多解决这些挑战的隐私模型和隐私保护的数据分析算法。在这篇文章中，我们将介绍差分隐私机器学习和信号处理中的相关进展。

引言

        目前有很多隐私保护的定义和模型，最近Fung等人[1]的研究比较了几种不同的方法。这些模型大部分被证明对合成攻击无效，合成攻击就是攻击者通过观察算法的输出，利用先前的知识来确认个人信息[2]。比如攻击者可以利用像投票调查这样的可用的公共记录[3]。定义隐私不是简单的事情，隐私、机密、安全这些在不同的场景有不同的含义。越来越明显的是，个人的身份和他们的数据之间并没有真正的分离——与个人相关的数据模式本身就是唯一可识别的。
        差分隐私[4]是一种基于密码的隐私定义，过去几年在机器学习和数据挖掘领域活着了显著的关注。对于差分隐私而言有一些不同的定义[5]-[7]，但对于本次研究而言，差异隐私通过一个参数 $\epsilon$ 来衡量隐私风险，这个参数限制了(私有)算法在两个数据集中输出结果的对数似然比，而这两个数据库仅仅有一条个人数据是不同的。当 $\epsilon$ 比较小的时候，无论一个个体数据是否在数据集中，攻击者对于算法的输出的观察结果都是类似的。这里还有其他的差分隐私文献的研究；特别的，Dwork和Smith[8]的研究包含了大量前期的理论工作。差分隐私的隐私保证本质上是统计性质的，和密码学[9]或信息论[10]的隐私保证不同。
        官方统计数据中存在的问题，如发布“过滤的”数据，推动了差分隐私的初步工作。另一种不同的方法是交互查询模型：用户向数据库管理员提出查询，然后管理员提供近似答案。近似值是为了保护个人数据的隐私。通过这两种不同的设置，各个文献扩展到更复杂的数据处理算法，比如实时信号处理[11]-[13]，分类[14]-[16]，降维[17]-[18]，和拍卖设计[19]。
        在这些应用中，关键的挑战是估计隐私限制在算法的效果或者表现上的影响。隐私和实用是对立的；一个完全的隐私算法不会发布任何东西。虽然如此，如果可用的数据集包含许多个人信息，那么在隐私保证 $\epsilon$ 、实用性和数据点数量（样本量） $n$ 之间有一个平衡。总的来说，这个平衡依赖于数据集的性质，比如它的维度、值域或者稀疏度。在不同的应用领域，如何测量实用性的方法是不同的。比如对于统计学估计，我们也许使用均方差错误（MSE）来测量估计的质量，而对于分类而言，我们也许测量期望损失。通过对各定的数据集计算可以达到的隐私和准确率等级，能够提供一种在相同任务上比较不同差分隐私算法的方法。
        虽然差分隐私的理论正在经历显著的发展，这里有大量的遗留工作，去把框架扩展到实际应用中。实际上，很多理论都是针对离散数据发展起来的，而连续型数据产生了很多挑战，从差分隐私算法的实现[20]到理论基础[21]。在本教程中，我们将集中注意力在差分隐私在连续型数据上操作的统计学方法和算法。我们将介绍统计估计量、分类程序、降维技术和信号处理技术。
        连续型数据的差分隐私理论不同于离散型数据。例如，在离散数据上学习分类器是很容易的。如果可能的分类器或假设的数量是有限的，或者数据是离散的，那么当数据点n随假设集或数据域的大小呈对数增长时，就有可能学习到最好的分类器[22][23]：对于在 $0,1]^{d}$ 范围内的数据，样本量 $n$ 一定和维度 $d$ 线性相关。另一方面，当数据允许是连续型，并且类别允许是无限的，无分布统计学习是不可能的[24]：我们既不知道数据分布的先验知识， $n$ 也依赖于数据分布。因此在样本需求上没有形式化的上界。这甚至适用于简单的类,如学习阈值和线性分类器：在缺乏隐私约束的条件下,我们可以选择一个n,这样我们对于任何的数据分布都可以学习真正的假说，但为了学习具有差分隐私的真正的假说，必须选择n作为数据的分布函数。
        信号处理的技术有可能很好的扩展连续型数据的差分隐私算法。我们集中注意力在连续型数据意味着我们将不讨论在离散型差分隐私上的许多调查主题。特别的，我们将不讨论某些方面的进展，比如说为差分隐私设计的软件系统[25]-[27]、计算直方图和列联表的算法[28][29]，或者是大量隐私保护的数据的发布工作（这些能在最近的工作中找到[18][30]）。

从敏感数据中学习

在数据集 $D=(x_{1},x_{2}...,x_{n})$ 中有 $n$ 条记录，其中 $x_{i}$ 是 $R^{d}$ 中的向量，对应于一条数据。 $d$ 维向量对应于不同的特征。我们假设这些特征的值域被正则化为 $||x||\leq 1$ ，其中 $||\cdot||$ 是欧几里德范式。尽管在这次研究中我们集中注意力在连续型数据上，目前存在大量的关于离散型数据的差分隐私文献。

一个例子

假设每个记录 $x (i)$ 代表来自d个不同传感器的数字读数，这些传感器监控与患者健康相关的不同数量(温度、心率)。为了简单起见，我们假设每个测量数据都被正则化为 $x_{i}\in [0,1]^{d}$ 。给定这些传感器在n个患者者上的测量数据，我们能够询问许多统计学和信号处理问题。给定特征的总体平均读数是多少？这些特征之间是如何两两相关的？我们能够从其他特征预测除其中一个特征吗？数据点是否（近似）位于 $维子空间中？我们将在满足一个可量化的隐私概念条件下回答这些问题。$

定义隐私

差分隐私旨在为敏感数据的计算过程提供保障，它具有许多特性，使得成为一种有吸引力的隐私量化方法。隐私通过确保使用下面的承诺进行随机化来保证的：如果在数据库中任何记录的参与（对应于一个个体）不会显著修改输出的可能性，我们认为这个算法是差分隐私的。这个定义有许多特点：它可以抵抗其他隐私模型容易受到的攻击[2]，它限制了每个人的隐私风险，并且随着个人数据在多个计算中被使用，它可以优雅地降级。

定义 1

        一个算法 $A_{priv}(\cdot)$ 在集合 $T$ 中提供 $\epsilon$ -差分隐私，需要对于所有的可测量的 $S\sqsubseteq T$ 和所有的差一个简单记录的数据集 $D$ 和 $D^{'}$ 都满足：

它提供 $(\epsilon,\delta)$ -差分隐私需要对所有的 $S\sqsubseteq T$ 和所有的相差一个记录的数据集 $D$ 和 $D^{'}$ 都满足：

        这里我们假设在数据集 $D$ 中的每个条目都对应一个个体。隐私参数是 $\epsilon$ 和 $\delta$ ，较小的参数可以保证隐私[4][21]。第二个隐私保证是很弱的[31]，当 $\delta=0$ 是就是第一个。差分隐私的变体，比如 $(1,\epsilon,\delta)$ -不可区分性[7]和 $\delta$ -可能性隐私[32]，在文献中也被考虑过；为了我们的目的，我们集中注意力在最受欢迎的变体上。
        差分隐私算法有两个重要的特征。首先，如果 $v$ 是一个 $\epsilon$ -差分隐私算法 $A_{priv}$ 的输出，那么对于输出的任意函数 $g (v)$ 而言都保证是 $\epsilon$ -差分隐私。那是因为输出的后续处理不改变隐私保证，同时后续处理也不使用原始数据。第二个关键特征是数据上的多次计算如何影响隐私保证。如果我们在 $\epsilon_{1}$ 和 $\epsilon_{2}$ 的隐私保证下在数据集上运行算法 $A_{priv}^{(1)}$ 和算法 $A_{priv}^{(2)}$ ，那么 $A_{priv}^{(1)},A_{priv}^{(2)})$ 就能保证最大隐私风险为 $\epsilon_{1}+\epsilon_{2}$ 的差分隐私。如果我们允许 $(\epsilon,\delta)$ -差分隐私的话，也许能获得更好的保证[33]。

差分隐私的一般方法

对于一个给定的算法或者函数 $A_{nonpriv}$ ，有许多通用的方法来生成满足其中一个隐私定义的近似算法 $A_{priv}$ 。这些方法展示在FIG1 中。这些方法以不同的方式引入了隐私保护的随机性，但大多涉及在原算法 $A_{nonpriv}$ 的某些步骤中加入噪声。我们描述了以下四种获取差分隐私的关键方法。

输入扰动

假如我们想要提供我们的身体传感器数据给第三方。最容易保证差分隐私的方式是把噪音添加到数据本身上。如果 $x$ 是真实的d维向量，一个差分隐私版本的x是：

其中Z是一个随机的d维向量，服从：

通过对集合 $D$ 中的每个向量 $x_{i}$ 添加添加噪音，我们能够保证生成的数据集 $\widehat{D}={\widehat{x_{1}}},...,\widehat{x_{n}}$ 是和 $d$ 近似 $\epsilon$ 差分隐私。在标量环境下这对应于添加 $L a p l a c e$ 分布的噪音。这不是唯一的保证差分隐私的分布，特别的，对于输出上的给定实用程序，在提供差分隐私的同时最大化实用程序的噪声分布可能具有不同的形状。

输出扰动

假设现在我们希望计算人群中每个传感读数的平均值。在这种情况下，我们想要的算法 $A_{nonpriv}$ 简单的计算一个数据的函数 $f D)$ ，我们能够通过像 $f (D)$ 上添加噪音来获得差分隐私。我们需要添加的噪音量依赖于函数 $f$ 对于输入变化的敏感度。全局敏感度是仅仅一个记录不同的所有数据集 $D$ 和 $D^{'}$ 之间最大的差异：

其中 $||\cdot||$ 是欧几里德范式。我们能够计算一个 $f$ 的差分隐私近似：

其中 $Z$ 是d维向量，服从分布：

例如，为了计算平均向量 $f(D)=(1/2)\sum_{i=1}^{n}x_{i}$ ，敏感度 $S (f) = 2 / n$ 。这是（全局）敏感度方法[4]，并且有许多变体来处理其他的更宽松的敏感度概念。例如，平滑敏感方法[34]在给定的数据集 $D$ 上，通过添加噪音获得一个只有在最坏情况下有较大 $S (f)$ 的函数 $f$ ，让它作为敏感度的平滑版本函数。

指数机制

假如我们想要使用活动中的k次心率读数来发表一个活动后病人的心率预测。给定一个早已开源的线性预测 ${P_{k}}$ ，我们将以差分隐私的方式选择其中的一个。我们可以通过预测的均方误差 $M (P)$ 来测量k阶线性预测器 $P_{k}$ 的质量。使用这些数据，我们可以获得最大化 $M(P_{k}^{*})$ 的 $k^{*}$ 。在这一背景下，对最优化的k添加噪音也许没有意义，但是指数机制[35]给出一种拥有更高实用性的选择输出便宜的方法。定义 $q(D,k)=-M(P_{k}^{*})$ 来测量k阶预测的实用性，定义敏感度为：

这是对任意输出k和数据集D来最大化质量的变化。指数机制选择一个k的随机值，服从：

这种方法，来源于McSherry和Talwar[35]，是一种通用方法，没有限制从离散型数据中选择；无论何时对于算法 $A_{nonpriv}$ 存在本质表现 $q(D,\cdot)$ ，这个方法都能使用。在许多情况下，从 （9） 中的分布获得样本是容易的，但是对于一些 $q(D,\cdot)$ 我们不知道如何在多项式时间内从对应的分布中获得样本。

目标扰动

假设在我们的例子中，我们正在监测的一些病人有心脏病。我们想要使用同样的监测数据把未来的患者针对心脏病分类为高风险和低风险。Chaudhuri等人[14]提出一种方法，通过向最优化的目标函数添加扰动来获得差分隐私近似。也就是说，给定一个算法 $A_{nonpriv}$ ，它通过一个(强)凸函数 $J (g, D)$ 的极小化来计算输出 $f$ ，我们可以通过在极小化之前加入噪声来得到一个差分隐私算法 $A_{nonpriv}$ ：

其中Z的分布和先前的 （4） 中具有同样的形状，但是指数中的系数必须被选择作为优最化的敏感度的函数[14]。
如果我们对输入、输出、目标扰动使用高斯噪音，我们能够获得保证 $(\epsilon,\delta)$ 差分隐私的算法–高斯噪音的参数将依赖于 $\epsilon,\delta$ 和特定的目标函数 $A_{nonpriv}$ 。总的来说，敏感度参数依赖于我们想要近似的，不是在给定的真实数据集 $D$ 上的 $A_{nonpriv}$ 。采样-聚合框架[34]试图通过近似实际数据子集上的函数值来缓解这种情况；这可能会为许多数据集带来更少的噪声。最近的研究主要集中在如何利用数据的性质（比如非相干性[36][37]）来扩展算法，获得更少的噪音和更好的效果。这些方法中值得注意的是提出-测试-发布框架[38]，它在数据上使用差分隐私进行测试来检查一个属性是否成立，然后利用这个属性来选择算法。

统计学上的差分隐私

在敏感数据分析中最基本的任务之一就是基本描述性统计的计算，比如均值、方差和其他数据分布的参数。在我们的患者监听样例中，我们希望知道患者的安静心率或者心率如何和活动等级相关。发布确切的值并不会维持差分隐私。例如，仅仅有一条记录不同的数据集 $D$ 和 $D^{'}$ 有不同的均值，因此当 $S$ 包含 $A_{priv}(D)$ 而不包含 $A_{priv}(D^{'})$ 的时候等式 （1） 不成立。为了阻止这种隐私侵犯，我们能够通过差分隐私计算这些统计数据。我们常常能够使用像FIG1 中的标准方法来保证差分隐私。对于处于有限域区域的数据，许多标准的统计数据可以很容易的在差分隐私和高准确率的条件下计算。当每个个体数据是标量 $x_{i}\in[0,1]$ 并且这个区间提前知道了，许多统计估计可以做到隐私和一致[39]。从差分隐私的第一个工作开始，估计函数就被提出了，比如均值[4]、中值[34]、协方差矩阵[40][41]和包含密度估计[42]的大量非参数问题[21]。

实例 1：样本均值

假设我们想要计算患者人群中的平均心率。对于边界数据，[4]中的全局敏感方法给我们提供了一种简单的对样本均值的差分隐私近似。如果 $x_{1},...,x_{n})$ 是输入数据集，那么估计函数就是：

其中 $\epsilon$ 是隐私参数， $Z$ 是服从单位方差 $L a p l a c e$ 分布的随机噪音。如果 $n$ 和 $\epsilon$ 很大，这为样本均值提供了一个相当精确的附加近似值。FIG2a 展示了数据集大小 $n=1000,\epsilon=0.1$ 时这个过程的输出结果的直方图。同样的技术可以用来对方差和高阶矩也就是对所有的线性统计函数进行差分隐私近似。

实例 2：样本中值

假设我们要计算心率的中值。虽然如此，全局敏感度并没有应用到样本中值，因为样本中值的全局敏感度很好：在具有m个0和m+1个1的数据集中，交换一个单一元素会使得中值由1变为0.这里我们使用指数机制来计算从有限域提取的样本中值的差分隐私近似。对于任意 $y\in[0,1]$ ，定义 $F_{n}(y)$ 作为输入数据 $x_{1},...,x_{n})$ 的经验累积分布。也就是说 $F_{n}(y)$ 是对满足 $x_{i}\leq y$ 的 $x_{i}$ 的分数。通过选择质量函数 $q(D,y)=|(1/2)-F_{n}(y)|$ ，我们有 $S (q) = 1 / n$ 。这个质量函数在真实中值上最大化，根据指数机理得出的样本方差随n的增加而减小。根据**(9)** 中的分布进行抽样估计可以保证 $\epsilon$ -差分隐私。FIG2b 展示了对于样本大小 $n=1000,\epsilon=0.1$ 时这个过程的输出的分布。Nissim等人[34]提出了一种计算样本中值的差分隐私近似值的不同算法，该算法添加了与平滑灵敏度成比例的噪声。

与鲁棒统计学的联系

        个体统计估计量的成功引出了这样一个问题，是否我们能够找到一个这样的性质，能够使得统计估计量在差分隐私下很容易估计。事实证明关键性质是鲁棒性。鲁棒统计是研究污染和数据变化对估计函数性能影响的统计学的一个分支。鲁棒的估计函数对数据中的改变不敏感。例如，对于从无限域中得到的数据，样本均值不是鲁棒的，因为一个简单的异常值能够扰动均值。另一方面，中位数对于中位数处的密度为正的分布是鲁棒的。这里有几种鲁棒性的度量方法和在鲁棒统计估计量上的扩展文献[43]。
        Dwork和Lei[38]证明了鲁棒统计学和差分隐私之间的联系，介绍了对几种鲁棒统计估计量的差分隐私估计，包括尾均值、四分位差和回归。这个联系被Chaudhuri和Hsu[44]具现化，他们介绍了过失误差敏感度（GES），这是一种鲁棒性测量方法，规定了在分布 $F$ 上对任意估计函数 $T$ 的差分隐私近似的有限样本收敛速率。
        给定估计函数 $T$ 和分布 $F$ ， $T$ 在 $F$ 处沿 $x$ 方向在 $\rho$ 规模的影响函数定义为：

其中 $\delta_{x}$ 是x处的质点。影响函数可以直观地认为是 $T$ 在 $F$ 点沿 $x$ 点质点在 $\rho$ 步长处的方向导数。 $T$ 在 $F$ 处以 $\rho$ 规模的GES定义为 $GRS_{\rho}(T,F)=sup_{x}|IF_{\rho}(T,F,x)|$ ；因此GES是最大方向导数的绝对值。Chaudhuri和Hsu[44]证明了两个结论。首先，他们给定一个插件估计量 $T(F_{n})$ 的差分隐私近似，其中 $T$ 是有限值域-由于隐私增加的额外错误率 $O(GES_{\rho}(T,F)/\epsilon n)$ 。第二，他们证明对于 $F$ 或者 $F$ 周围小范围的 $F^{'}$ ， $T (F)$ 的差分隐私近似的收敛率。在两种情况下，规模参数 $\rho$ 是 $O(1/\epsilon n)$ 的。这些结论证明，GES描述了一个估计值是如何服从于差分隐私近似值的。
        Lei[45]通过量化数据和在扰动直方图上建立估计函数，提供了M-估计函数的差分隐私近似，这是一种鲁棒的估计函数。假设在我们的实例中，所有的特征被正则化到[0,1]，这样所有的数据都是 $0,1]^{d}$ 。该算法选择一个参数 $h_{n}$ ，将空间划分为边长为 $h_{n}$ 的立方体，通过计算每个立方体上的点的分数计算出数据密度的估计值，然后包 $L a p l a c e$ 噪音添加到这些计数上来保证差分隐私。使用这个密度估计来计算M-估计函数保证了差分隐私。Lei证明了选择合适的 $h_{n}$ ，当n趋近于 $\infty$ 的时候估计函数的错误逼近0.

具有隐私的信号处理和机器学习

在机器学习和信号处理方面的隐私保护算法有越来越多的研究内容。例如，这里有隐私保护分类[14][15][46][47]，回归[16][45]，主成分分析（PCA）[17,37,40,48]，促进[33]和在线学习[49]。Duchi等人[50]提出了一个不同的框架，通过一个噪音（隐私保护）梯度下降过程来分析统计风险最小化。在差分隐私的学习方面有许多理论；在这一部分，我们主要介绍差分隐私机器学习方面的最近应用和实际挑战。

分类和回归

在我们的实例中，假设我们想要学习一种把病人分类为心脏病高风险和低风险的规则。分类是一个简单的和基础的机器学习任务，对于离散数据，研究者提出了计算差分隐私决策树[51-53]的算法。对于连续数据，最通用的分类方法是经验风险最小化（ERM）。例如，对于逻辑回归，一个正规化ERM程序需要标签数据 ${(x_{i},y_{i}):i=1,2,...,n}$ ，其中特征 $x_{i}\in R^{d}$ ，标签 $y_{i}\in{-1,+1}$ ，找到新的数据点能够通过 $sgn(f^{T}x)$ 获得标签的向量 $f$ 。这可以通过下面的最小化解决：

其中 $g||^{2}$ 防止过拟合的正规化， $\Lambda$ 是一个平衡参数。这里有几种差分隐私分类的方法。输出扰动计算 (11) 中的ERM解法并添加噪声。目标扰动[14]解决一个修改的版本：

其中噪音Z保证差分隐私。为了测量分类的效用，我们计算了差分隐私分类器的期望损失。目标扰动在损失上的理论保证是低于添加噪音到 （11） 中的 $f$ 的输出扰动的。目标扰动有一个接近于 （11） 中非隐私分分类器 $f$ 的经验表现。接下来的工作扩展了分类器[46]函数的类别，初始的经验证明是可以的[54,55]。其他的方法是基于扰动目标函数，Zhang等人[16]提出了工作机制。他们错误的声明，Chaudhuri等人[14]解决了逻辑回归的非标准形式；虽然如此，他们基于向 （11） 中的泰勒级近似添加噪音的方法能够实现比输出扰动更低的错误率。总的来说 （11） 中最优化的差分隐私近似保证了确切最小化的差分隐私。在隐私保证上的数字化方法的近似计算的影响是一个开放性的问题。

降维

        机器学习和信号处理系统的另一个基本构件是降维。数据也许已很高的维度显示，但是本质现象可能是低维度。最简单的例子是当多有的数据都位于或接近原始空间的低维子空间。在这种环境下，数据的协方差矩阵的奇异值分解（SVD）计算了这个低维子空间-也被称为PCA算法。给定n个向量集合 $D={x_{1},...,x_{n}}，x_{i}\in R^{d}$ ，其中x对应于个体的隐私数据，定义矩阵 $X=[x_{1},...,x_{n}]^{T}$ ，每一行是数据向量 ${x_{i}}$ ；定义 $A=(1/n)X^{T}X$ 作为数据的第二个 $d x d$ 动量矩阵。SVD给出 $A=V^{T}\Lambda V$ ，其中 $\Lambda$ 是一个 $d x d$ 的对角线元素为 $\lambda_{1}(A)\geq ...\geq \lambda_{d}(A)\geq 0$ 的对角线矩阵，其中 $V$ 是正交的。A的top-k子空间是V的前k行，定义为 $V_{k}(A)$ 。
        这里有几种提出的方法在保护差分隐私的时候近似top-k的PCA子空间。次线性查询（SULQ）方法[40]向矩阵A添加噪音，之后计算噪音矩阵的SVD。Chaudhuri等人[17]提出使用指数机制来取样一个k维子空间来近似top-k的PCA子空间。这对应于从宾汉分布分布中取样，有密度：

其中 $U$ 是一个 $k x d$ 的行正交的矩阵。这个密度在 $U=V_{k}(A)$ 有最大密度，从接近于真实子空间[17,48]的随机子空间取样。
        一个最主要的问题是从宾汉分布中取样。因为差分隐私是一种输出分布的性质，隐私保证取决于从分布中精确采样。Kapralov和Talwar[48]提出了一个根据 （13） 的k=1时的复杂的取样过程，但是在数据维度上运行时间被抑制了。Chaudhuri等人提出使用容易实现的吉布斯采样法[56]；不幸的是，没有严格的采样收敛时间的分析。提出一个从分布中实用并且精确的采样方法是一个开放性问题。

时间序列和滤波

这篇文章的一个目的是鼓舞工程师想出差分隐私的点子并且把它应用到信号处理问题中。最近有一些工作将信号处理和信息论中的问题与差分隐私问题联系起来。Rastogi和Nath[57]提出了一种处理在数据集上查询的方法，在数据集中每个个体数据都是想体重那样的时间序列数据。他们的方法在傅里叶域实现了查询序列的差分隐私扰动，并且使用同态加密来确保分布式噪声添加。Fan和Xiong[13]通过学习一个线性预测和使用卡尔曼滤波，想要找到如何发布一个单一时间序列的差分隐私版本。为了控制隐私损失，他们自适应的选择是否发布差分隐私预测的输出或者向真实样本添加 $L a p l a c e$ 噪音。这种方法在很多情况下都优于离散傅里叶变换方法[57]。
Le Ny和Pappas[11,12]最近研究信号处理框架的差分隐私。他们研究了在聚集信号和使用卡尔曼滤波估计的情况下输入和输出扰动之间的差异，并且证明了在一些环境下在输入上的噪音添加比滤波效果更好。这与许多机器学习的实例形成了对比，在这些例子中，在输入端添加噪音可能会引起学习上的太多干扰。

实际问题与限制

        在差分隐私算法方面的文献快速增长，但是仍然留有许多开放问题。尽管许多理论结果表明，估计统计和学习，同时保持差分隐私是可能的[22,39]，一些结论依赖于技术假设，比如离散数据，有限假设集合或者有限值域，这些不总是在左右环境下成立。理解连续数据的基本限制可能有助于理解在差分隐私条件下哪些信号处理任务是可能的。
        一个更加直接的问题是如何选择 $\epsilon \delta$ 。很明显更小的参数能保证更好的隐私[4]，同时尽管在选择 $\epsilon$ 时有一些试探法，理解工作者的隐私风险是一个挑战。因为一个简单的数据集也许在多个计算中被使用，隐私的合成规则意味着我们需要对所有计算选择一个总体 $\epsilon$ ，对每个计算选择一个预算隐私。在如何为 $(\epsilon,\delta)$ -差分隐私选择 $\delta$ 上没有共识：实验常常使用小的固定的 $\delta$ ，但是Ganta等人[2]建议比 $1/n^{2}$ 小的多的 $\delta$ 是更合适的。
        对于一个给定的隐私等级 $\epsilon$ ，我们需要更大的样本量 $n$ 来实现相同等级的实用性或者近似错误。对于更小的样本量，差分隐私的随机化有时会被抑制[29]。在这种情况下不可能提供一种有效的差分隐私。在一些应用中，比如说医学数据挖掘，数据量n是固定的，问题是找到最小的 $\epsilon$ ，使效用的牺牲是可接受的。
        隐私定义依赖于一个理想的计算模型。最近的研究表明[20]，从隐私方面看，浮点数据运算的标准实现是有问题的。因为每个计算都需要差分隐私，更复杂的系统比如PINQ[25]，AIRAVAT[26]和GUPT[27]只能在较大的 $\epsilon$ 的情况下工作。即使如此，这些系统的实现仍然会产生隐私风险，尤其是响应查询花费的时间会泄露信息[59]。

未来挑战

        差分隐私的观点早已经开始影响一些系统，但是仍然有许多理论和实践挑战。一些信号处理的核心主题正在探索，在信号处理领域的大量专门知识能够帮助刺激新的隐私保护数据处理算法和系统的发展。差分隐私方面的文献迅速增长，并且我们能够涉及新的主题。我们希望有兴趣的读者能够通过不同的隐私视角来调查研究广泛的主题。
        从信号处理视角，这里有几个在未来研究中应该探索的方向。首先，在许多信号处理应用中，信号获取是设计的一部分；一个待解决的问题是，如何在测量信号的时候将隐私考虑在内。例如，如果一个信号将在之后被使用在差分隐私系统中，我们应该如何让表示这个信号？我们能否设计一个本身就能保证隐私的信号获取方式？
        第二，与个体相联系的信号也许比我们在研究中考虑的d维信号复杂得多。尽管在一维时间序列下许多工作都可以完成，仍然有许多有趣的未解决的问题，比如预报预测法、转移性和其他的核心信号处理任务。图像处理是其他的重要主题，但是目前在现存的隐私文献中获得很少的注意。图像是较高维的信号，许多差分隐私的机器学习方法的数据需求和难以满足数据维度的要求。虽然如此，图像也是一种结构化的信号，这种结构很肯呢个能够用来发展具有更好理论保证和实际效果的算法。
        网络信息系统是其他的出现的差分隐私应用。大规模数据挖掘通常涉及希望合作但又不希望泄露数据的部分。尽管目前有许多密码学方法解决这个问题，差分隐私分布式算法仍然处于幼年期[60,61]。社会网络和其他的分布式收集和测量系统也提供大量的隐私保护算法的应用。
        在这篇文章中，我们仅仅能够对差分隐私的许多文献进行介绍。连续型数据的差分隐私算法和信号处理最为相关。隐私对时间序列和实时处理的影响不同于离线算法，如参数估计。通过对特定领域和信号假设的应用，我们相信对许多信号处理应用实现有意义的隐私-效用平衡曲线是可能的。虽然如此，在信号处理系统上探索差分隐私的可能性和相关创意还需要很多工作；我们希望本文将有助于激发这项工作。

知识

作者的工作是被National Institutes of Health under award U54-HL108460 支持的。

作者

Anand D. Sarwate ([email protected]) is a research assistant professor at the Toyota Technological Institute at Chicago. He received B.S. degrees in electrical engineering and mathematicsfrom the Massachusetts Institute of Technology in 2002 and a Ph.D. degree in electrical engineering from the University of California at Berkeley in 2008. His research is on distributed signal processing, optimization, machine learning, information theory, and statistics.
Kamalika Chaudhuri ([email protected]) is an assistant professor in the Department of Computer Science and Engineering, University of California, San Diego. She received a bachelor of technology degree in computer science and engineering from the Indian Institute of Technology, Kanpur, in 2002, and a Ph.D. degree in computer science from the University of California at Berkeley in 2007. Her research focuses on the design and analysis of machine-learning algorithms and their applications. In particular, she is interested in privacy-preserving machine learning, where the goal is to develop machine-learning methods for sensitive data while still preserving the privacy of the individuals in the data set.

参考文献

[1] B. C. M. Fung, K. Wang, R. Chen, and P. S. Yu. (2010, June). Privacy-preserving data publishing: A survey of recent developments. ACM Comput. Surv. [Online]. 42(4), pp. 14:1–14:53. Available: http://dx.doi.org/10.1145/1749603.1749605
[2] S. R. Ganta, S. P. Kasiviswanathan, and A. Smith. Composition attacks and auxiliary information in data privacy. presented at the 14th ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD ’08) [Online]. Available: http://dx.doi.org/10.1145/1401890.1401926
[3] L. Sweeney. (2002, Oct.). k-Anonymity: A model for protecting privacy. Int. J. Uncertain. Fuzz. Knowl.-Based Syst. [Online]. 10(5), pp. 557–570. Available: http://dx.doi.org/10.1142/S0218488502001648
[4] C. Dwork, F. McSherry, K. Nissim, and A. Smith. (2006, Mar. 4–7). Theory of Cryptography (Lecture Notes in Computer Science Series, vol. 3876) [Online]. Available: http://dx.doi.org/10.1007/11681878_14
[5] V. Rastogi, M. Hay, G. Miklau, and D. Suciu. Relationship privacy: Output perturbation for queries with joins. presented at 28th ACM SIGMOD-SIGACTSIGART Symp. Principles Database Systems (PODS ’09) [Online]. Available: http://dx.doi.org/10.1145/1559795.1559812
[6] D. Kifer and A. Machanavajjhala. No free lunch in data privacy. presented at 2011 ACM SIGMOD Int. Conf. Management Data [Online]. Available: http://dx.doi.org/10.1145/1989323.1989345
[7] K. Chaudhuri and N. Mishra. (2006, Aug.). Advances in Cryptology—CRYPTO 2006 (Lecture Notes in Computer Science Series, vol. 4117) [Online]. Available: http://dx.doi.org/10.1007/11818175_12
[8] C. Dwork and A. Smith. (2009). Differential privacy for statistics: What we know and what we want to learn. J. Privacy Confident. [Online]. 1(2), pp. 135–154 [Online]. Available: http://repository.cmu.edu/jpc/vol1/iss2/2
[9] J. Vaidya, C. W. Clifton, and Y. M. Zhu. (2006). Privacy Preserving Data Mining (Advances in Information Security Series, vol. 19) [Online]. Available: http://dx.doi.org/10.1007/978-0-387-29489-6
[10] L. Sankar, S. R. Rajagopalan, and H. V. Poor. Utility-privacy tradeoff in databases: An information-theoretic approach. IEEE Trans. Inform. Forensics Sec. [Online]. to be published. Available: http://dx.doi.org/10.1109/TIFS.2013.2253320
[11] J. Le Ny and G. J. Pappas. (2012, Dec.). Differentially private filtering. presented at 51st Conf. Decision and Control (CDC) [Online]. Available: http://dx.doi.org/10.1109/CDC.2012.6426355
[12] J. Le Ny and G. J. Pappas. (2012, Oct.). Differentially private Kalman filtering. presented at 50th Annu. Allerton Conf. Communications, Control and Computing [Online]. Available: http://dx.doi.org/10.1109/Allerton.2012.6483414
[13] L. Fan and L. Xiong. Real-time aggregate monitoring with differential privacy. presented at 21st ACM Int. Conf. Information and Knowledge Management (CIKM ’12 [Online]. Available: http://dx.doi.org/10.1145/2396761.2398595
[14] K. Chaudhuri, C. Monteleoni, and A. D. Sarwate. (2011, Mar.). Differentially private empirical risk minimization. J. Mach. Learn. Res. [Online]. 12, pp. 1069–1109. Available: http://jmlr.csail.mit.edu/papers/v12/chaudhuri11a.html
[15] B. I. P. Rubinstein, P. L. Bartlett, L. Huang, and N. Taft. (2012). Learning in a large function space: Privacy-preserving mechanisms for SVM learning. J. Privacy Confident. [Online]. 4(1), pp. 65–100. Available: http://repository.cmu.edu/jpc/vol4/iss1/4/
[16] J. Zhang, Z. Zhang, X. Xiao, Y. Yang, and M. Winslett. (2012, Jul.). Functional mechanism: Regression analysis under differential privacy. in Proc. VLDB Endowment [Online]. 5(11), pp. 1364–1375. Available: http://vldb.org/pvldb/vol5/p1364_junzhang_vldb2012.pdf
[17] K. Chaudhuri, A. Sarwate, and K. Sinha, “Near-optimal algorithms for differentially-private principal components,”J. Mach. Learn. Res., to be published.
[18] M. Hardt, K. Ligett, and F. McSherry. (2012). Advances in Neural Information Processing Systems 25 [Online]. Available: http://books.nips.cc/papers/files/nips25/NIPS2012_1143.pdf
[19] A. Ghosh and A. Roth. Selling privacy at auction. presented at 12th ACM Conf. Electronic Commerce (EC ’11) [Online]. Available: http://dx.doi.org/10.1145/1993574.1993605
[20] I.Mironov. On significance of the least significant bits for differential privacy. presented at ACM Conf. Computer and Communications Security (CCS ’12)[Online]. Available: http://research.microsoft.com/apps/pubs/?id=173034
[21] L. Wasserman and S. Zhou. (2010). A statistical framework for differential privacy. J. Amer. Stat. Assoc. [Online]. 105(489), pp. 375–389. Available: http://dx.doi.org/10.1198/jasa.2009.tm08651
[22] S. A. Kasiviswanathan, H. K. Lee, K. Nissim, S. Raskhodnikova, and A. Smith. What can we learn privately? presented at IEEE 49th Annu. IEEE Symp. Foundations Computer Science (FOCS ’08) [Online]. Available: http://dx.doi.org/10.1109/FOCS.2008.27
[23] A.Blum, K.Ligett, and A.Roth. A learning theory approach to non-interactive database privacy. presented at 40th Annu. ACM Symp. Theory Computing (STOC ’08) [Online]. Available: http://dx.doi.org/10.1145/1374376.1374464
[24] K. Chaudhuri and D. Hsu. (2011, June). Proceedings of the 24th Annual Conference on Learning Theory (COLT ‘11) (JMLR Workshop and Conference Proceedings Series,vol. 19) [Online]. Available: http://www.jmlr.org/proceedings/papers/v19/chaudhuri11a/chaudhuri11a.pdf
[25] F. McSherry. (2010, Sept.). Privacy integrated queries: An extensible platform for privacy-preserving data analysis. Commun. ACM [Online]. 53(9), pp. 89–97. Available: http://dx.doi.org/10.1145/1810891.1810916
[26] I. Roy, S. T. V. Setty, A. Kilzer, V. Shmatikov, and E. Witchel, “Airavat: Security and privacy for mapreduce,” in Proc. 7th USENIX Conf. Networked Systems Design and Implementation (NSDI ’10), Berkeley, CA.
[27] P. Mohan, A. Thakurta, E. Shi, D. Song, and D. Culler, “GUPT: Privacy preserving data analysis made easy,” in Proc. 2012 ACM SIGMOD Int. Conf. Management Data, pp. 349–360.
[28] B. Barak, K. Chaudhuri, C. Dwork, S. Kale, F. McSherry, and K. Talwar. Privacy, accuracy, and consistency too: A holistic solution to contingency table release. presented at 26th ACM SIGMOD-SIGACT-SIGART Symp. Principles Database Systems (PODS ’07) [Online]. Available: http://dx.doi.org/10.1145/1265530.1265569
[29] X. Yang, S. E. Fienberg, and A. Rinaldo. (2012). Differential privacy for protecting multi-dimensional contingency table data: Extensions and applications. J. Privacy Confident. [Online]. 4(1), pp. 101–125. Available: http://repository.cmu.edu/jpc/vol4/iss1/5/
[30] B. Ding, M. Winslett, J. Han, and Z. Li. Differentially private data cubes: Optimizing noise sources and consistency. presented at 2011 ACM SIGMOD Int. Conf. Management Data [Online]. Available: http://dx.doi.org/10.1145/1989323.1989347
[31] C. Dwork, K. Kenthapadi, F. McSherry, I. Mironov, and M. Naor. Advances in Cryptology—EUROCRYPT 2006 (Lecture Notes in Computer Science Series, vol. 4004) [Online]. Available: http://dx.doi.org/10.1007/11761679_29
[32] A. Machanavajjhala, D. Kifer, J. M. Abowd, J. Gehrke, and L. Vilhuber. (2008, June). Privacy: Theory meets practice on the map. presented at IEEE 24th Int. Conf. Data Engineering (ICDE) [Online]. Available: http://dx.doi.org/10.1109/ICDE.2008.4497436
[33] C. Dwork, G. Rothblum, and S. Vadhan. (2010, Oct.). Boosting and differential privacy. presented at 51st Annu. IEEE Symp. Foundations Computer Science (FOCS’10) [Online]. Available: http://dx.doi.org/10.1109/FOCS.2010.12
[34] K. Nissim, S. Raskhodnikova, and A. Smith. Smooth sensitivity and sampling in private data analysis. presented at 39th Annu. ACM Symp. Theory Computing (STOC ’07) [Online]. Available: http://dx.doi.org/10.1145/1250790.1250803
[35] F. McSherry and K. Talwar. Mechanism design via differential privacy. presented at 48th Annu. IEEE Symp. Foundations Computer Science (FOCS ’07)[Online]. Available: http://dx.doi.org/10.1109/FOCS.2007.41
[36] M. Hardt and A. Roth. Beating randomized response on incoherent matrices. presented at 44th Annu. ACM Symp. Theory Computing (STOC ’12)[Online]. Available: http://dx.doi.org/10.1145/2213977.2214088
[37] M. Hardt and A. Roth, “Beyond worst-case analysis in private singular vector computation,” in Proc. 45th Annu. ACM Symp. Theory Computing (STOC ’13), June 2013, New York.
[38] C. Dwork and J. Lei. Differential privacy and robust statistics. presented at 41st Ann. ACM Symp. Theory Computing (STOC ’09) [Online]. Available: http://dx.doi.org/10.1145/1536414.1536466
[39] A. Smith. Privacy-preserving statistical estimation with optimal convergence rates. presented at 43rd Annu. ACM Symp. Theory Computing (STOC ’11)[Online]. Available: http://dx.doi.org/10.1145/1993636.1993743
[40] A. Blum, C. Dwork, F. McSherry, and K. Nissim. Practical privacy: The
SuLQ framework. presented at 24th ACM SIGMOD-SIGACT-SIGART Symp.
Principles Database Systems (PODS ’05) [Online]. Available: http://dx.doi.
org/10.1145/1065167.1065184
[41] J. Blocki, A. Blum, A. Datta, and O. Sheffet. (2012, Oct.). The Johnson Lindenstrauss Transform itself preserves differential privacy. presented at IEEE 53rd Annu. Symp. Foundations Computer Science (FOCS) [Online]. Available: http://dx.doi.org/10.1109/FOCS.2012.67
[42] R. Hall, A. Rinaldo, and L. Wasserman. (2013). Differential privacy for functions and functional data. J. Mach. Learn. Res. [Online]. 14, pp. 703–727. Available: http://jmlr.csail.mit.edu/papers/v14/hall13a.html
[43] P. J. Huber. (1996). Robust Statistical Procedures (2nd ed.) (CBMS-NSF Regional Conference Series in Applied Mathematics) [Online]. Available: http://dx.doi.org/10.1137/1.9781611970036
[44] K. Chaudhuri and D. Hsu. Convergence rates for differentially private statistical estimation. presented at 29th Int. Conf. Mach. Learn. (ICML-12)[Online]. Available: http://icml.cc/2012/papers/663.pdf
[45] J. Lei, “Differentially private M-estimators. (2011). Advances in Neural Information Processing Systems 24 [Online]. Available: http://books.nips.cc/papers/files/nips24/NIPS2011_0256.pdf
[46] D. Kifer, A. Smith, and A. Thakurta. (2012, June). Proceedings of the 25th Annual Conference on Learning Theory (COLT ’12) (JMLR Workshop and Conference Proceedings Series, vol. 23) [Online]. Available: http://jmlr.csail.mit.edu/proceedings/papers/v23/kifer12/kifer12.pdf
[47] G. Cormode. Personal privacy vs population privacy: Learning to attack anonymization. presented at 17th ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD ’11) [Online]. Available: http://dx.doi.org/10.1145/2020408.2020598
[48] M. Kapralov and K. Talwar, “On differentially private low rank approximation,” in Proc. 24th Annu. ACM–SIAM Symp. Discrete Algorithms (SODA ‘13), New Orleans, LA, pp. 1395–1414.
[49] P. Jain, P. Kothari, and A. Thakurta. (2012, June). Proceedings of the 25th Annual Conference on Learning Theory (COLT ’12) (JMLR Workshop and Conference Proceedings Series, vol. 23) [Online]. Available: http://www.jmlr.org/proceedings/papers/v23/jain12/jain12.pdf
[50] J. Duchi, M. Jordan, and M. Wainwright. (2012). Advances in Neural Information Processing Systems 25 [Online]. Available: http://books.nips.cc/papers/files/nips25/NIPS2012_0682.pdf
[51] A. Friedman and A. Schuster. Data mining with differential privacy. presented at 16th ACM SIGKDD Int. Conf. Knowledge Discovery Data Mining (KDD ’10) [Online]. Available: http://dx.doi.org/10.1145/1835804.1835868
[52] N. Mohammed, R. Chen, B. C. M. Fung, and P. S. Yu. Differentially private data release for data mining. presented at 17th ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD ’11) [Online]. Available: http://dx.doi.org/10.1145/2020408.2020487
[53] G. Jagannathan, K. Pillaipakkamnatt, and R. N. Wright, “A practical differentially private random decision tree classifier,” Trans. Data Privacy, vol. 5, no. 1, pp. 273–295, 2012.
[54] O. Williams and F. McSherry. (2010). Advances in Neural Information Processing Systems 23 [Online]. Available: http://books.nips.cc/papers/files/nips23/NIPS2010_1276.pdf
[55] M. A. Pathak and B. Raj. (2012, July–Aug.). Large margin Gaussian mixture models with differential privacy. IEEE Trans. Dependable Secure Comput. [Online]. 9(4), pp. 463–469. Available: http://dx.doi.org/10.1109/TDSC.2012.27
[56] P. D. Hoff, “Simulation of the matrix Bingham–von Mises–Fisher distribution, with applications to multivariate and relational data,” J. Comput. Graph. Statist., vol. 18, no. 2, pp. 438–456, 2009.
[57] V. Rastogi and S. Nath. Differentially private aggregation of distributed time-series with transformation and encryption. presented at 2010 ACM SIGMOD Int. Conf. Management Data [Online]. Available: http://dx.doi.org/10.1145/1807167.1807247
[58] A. Beimel, S. P. Kasiviswanathan, and K. Nissim. (2010, Feb. 9–11). Theory of Cryptography (Lecture Notes in Computer Science Series, vol. 5978) [Online]. Available: http://dx.doi.org/10.1007/978-3-642-11799-2_26
[59] A. Haeberlen, B. C. Pierce, and A. Narayan, “Differential privacy under fire,”in Proc. 20th USENIX Conf. Security, Berkeley, CA, 2011.
[60] D. Proserpio, S. Goldberg, and F. McSherry. A workflow for differentially private graph synthesis. presented at 2012 ACM Workshop Online Social Networks (WOSN ’12) [Online]. Available: http://dx.doi.org/10.1145/2342549.2342553
[61] F. McSherry and R. Mahajan. Differentially-private network trace analysis. presented at ACM SIGCOMM 2010 Conf. [Online]. Available: http://dx.doi.org/10.1145/1851182.1851199

你可能感兴趣的:(论文翻译)

DeepSeek R1 AI 论文翻译后端java
摘要原文地址：DeepSeekR1AI论文翻译我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。通过RL，DeepSeek-R1-Zero自然而然地展现了许多强大且引人注目的推理行为。然而，它也遇到了一些挑战
DeepSeek R1 AI 论文翻译老马啸西风 java
摘要原文地址：DeepSeekR1AI论文翻译我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。通过RL，DeepSeek-R1-Zero自然而然地展现了许多强大且引人注目的推理行为。然而，它也遇到了一些挑战
DeepSeek R1 AI 论文翻译后端java
摘要原文地址：DeepSeekR1AI论文翻译我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。通过RL，DeepSeek-R1-Zero自然而然地展现了许多强大且引人注目的推理行为。然而，它也遇到了一些挑战
【论文翻译】DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence 行动π技术博客代码大模型 deepseek
本翻译来自大模型翻译，如有不对的地方，敬请谅解引言开源社区通过开发诸如StarCoder（Li等人，2023b；Lozhkov等人，2024）、CodeLlama（Roziere等人，2023）、DeepSeek-Coder（Guo等人，2024）和Codestral（MistralAI，2024）等开源代码模型，在推进代码智能方面取得了显著进展。这些模型的性能已稳步接近闭源同类产品，为代码智能的
论文翻译：ChatGPT for good? On opportunities and challenges of large language models for education Author CSPhD-winston-杨帆智慧教育论文翻译 chatgpt 语言模型人工智能
高引用论文：ChatGPTforgood?OnopportunitiesandchallengesoflargelanguagemodelsforeducationAuthorlinksopenoverlaypanelhttps://www.sciencedirect.com/science/article/pii/S1041608023000195ChatGPTforgood？大型语言模型在教育
【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model 机器白学论文翻译 ocr 论文阅读论文翻译
论文原文链接：https://arxiv.org/abs/2409.01704特别声明，本文不做任何商业用途，仅作为个人学习相关论文的翻译记录。本文对原文内容直译，一切以论文原文内容为准，对原文作者表示最大的敬意。如有任何侵权请联系我下架相关文章。目录通用OCR理论：通过统一的端到端模型迈向OCR-2.00摘要1引言2相关工作2.1传统OCR2.2基于LVLM的OCR3通用OCR理论3.1框架3.
论文翻译：A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly CSPhD-winston-杨帆论文翻译 LLMs-鲁棒性语言模型人工智能自然语言处理
Asurveyonlargelanguagemodel(LLM)securityandprivacy:TheGood,TheBad,andTheUglyhttps://www.sciencedirect.com/science/article/pii/S266729522400014X文章目录关于大型语言模型（LLM）安全性和隐私的调查：好的、坏的和丑陋的摘要1.引言2.背景2.1大型语言模型（L
论文翻译：arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models CSPhD-winston-杨帆论文翻译 LLMs-安全 prompt 语言模型人工智能
IgnorePreviousPrompt:AttackTechniquesForLanguageModelshttps://arxiv.org/pdf/2211.09527忽略之前的提示：针对语言模型的攻击技术文章目录忽略之前的提示：针对语言模型的攻击技术摘要1引言摘要基于Transformer的大型语言模型（LLMs）为大规模面向客户的应用程序中的自然语言任务提供了强大的基础。然而，探索恶意用户
论文翻译：arxiv-2024 Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large CSPhD-winston-杨帆 LLMs-数据污染论文翻译语言模型人工智能深度学习
DataContaminationQuiz:ATooltoDetectandEstimateContaminationinLargeLanguageModelshttps://arxiv.org/abs/2311.06233数据污染测验：一种检测和估计大型语言模型中污染的工具文章目录数据污染测验：一种检测和估计大型语言模型中污染的工具摘要1引言摘要我们提出了数据污染测验（DataContamina
实验DAY5：借假修真放逐997
a.昨日完成情况不佳，起床是9.30，除了报名（一口气报了五门..祝我好运），论文翻译和教育都没有完成；b.明日计划：9点前起床；明天优先复盘教育，以及准备cpa的考试资料；论文、和cpa留到周末做吧c.今天读到一篇讲美团公司战略的文章，对于整体战略搭建的方法论、具体业务的促成、以及更偏意识上层的“借假修真”思想的解读非常佩服，摘录核心如下：美团的增长引擎：1.严明的纪律性：放弃不符合业务逻辑的利
开源Bluespec bsc编译器和可重用示例设计达坦科技DatenLord 硬件加速 fpga fpga开发硬件工程开源
这篇介绍Bluespec以及设计示例的文章，是在2021年ICCAD（InternationalConferenceOnComputer-AidedDesign）发布的论文。达坦科技的open-rdma项目和推广的MIT体系结构学习社区都用到Bluespec，因此将此论文翻译成中文，以便大家了解2020年Bluespec开源后相关的开源项目。摘要：bsc编译器是一个商业可用的编译器，在过去的二十年
论文翻译 - BITE: Textual Backdoor Attacks with Iterative Trigger Injection anniewwy LLM Backdoor Attack
论文链接：https://arxiv.org/pdf/2205.12700.pdf项目代码：https://github.com/INK-USC/BITEBITE:TextualBackdoorAttackswithIterativeTriggerInjectionAbstract1Introduction2ThreatModel3Methodology3.1BiasMeasurementonLa
我做这件事，唯一的目的就是让你开心沉吟大叔
一个男人心里满满的爱意：我做这件事，唯一的目的就是让你高兴，而不是赢得你的好感、证明我的能力、让你对我感恩戴德。所以，我不想让你知道我的付出，不想让你对我怀有歉意和内疚，更不想因此获得什么回报。我只是心甘情愿地想为你做点什么，因为我爱你。这才是真爱吧。以前有个读者，说她男朋友特别小气，还不诚实。请她吃顿饭要念叨很久，给她买礼物，花一百要说成三百，帮她做论文翻译，明明一小时就搞定了，非要说是熬了个通
剖析以太坊上的庞氏骗局：识别、分析和影响卷神
区块链安全防护论文翻译：Bartoletti,Massimo,etal."DissectingPonzischemesonEthereum:identification,analysis,andimpact."FutureGenerationComputerSystems102(2020):259-277.摘要：庞氏骗局是一种以高额利润为诱饵的金融欺诈。实际上，只有新用户加入了庞氏骗局，用户才能得
《 HFContractFuzzer: Fuzzing Hyperledger Fabric Smart Contractsfor Vulnerability Detection》论文翻译 WXF_Security 智能合约安全研究 fabric golang
《HFContractFuzzer:FuzzingHyperledgerFabricSmartContractsforVulnerabilityDetection》（EASE2021）摘要区块链技术以其特有的去中心化、不可变性等优点，近年来被广泛应用于各个领域。运行在区块链上的智能合约在去中心化应用场景中也扮演着越来越重要的角色。因此，自动检测智能合约中的安全漏洞成为区块链技术应用中亟待解决的问题
Data Augmentation and Deep Learning Methods in SoundClassification: A Systematic Review ggqyh 深度学习人工智能
文章为翻译，仅供学习参考论文原地址：DataAugmentationandDeepLearningMethodsinSoundClassification:ASystematicReview作者：OlusolaO.Abayomi-Alli,RobertasDamaševiˇcius,AtikaQazi,MariamAdedoyin-OloweandSanjayMisra4论文翻译地址：https:
因果学习及反因果学习（论文翻译）三分钟湿度
OnCausalandAnti-causalLearning本博文对论文OnCausalandAnti-causalLearning的摘要和模型部分做了翻译和小修改，本论文主要描述因果学习中常见的几类基于函数估计的模型，同时说明了因果与相关性、因果学习与机器学习之间的关系，论文重点在讨论和比较不同模型，内容较为笼统，不做深入探讨，但对不同模型之间的本质关系的讨论值得一看。论文地址：https://
Convolutional Neural Networks for No-Reference Image Quality Assessment 论文翻译亚里论文阅读 NR-IQA 使用卷积网络进行图像质量评价
ConvolutionalNeuralNetworksforNo-ReferenceImageQualityAssessment论文翻译TranslationAbstract1Introduction2RelatedWork3CNNforNR-IQA3.1NetworkArchitecture3.2LocalNormalization3.3Pooling3.4ReLUNonlinearity3.5
有道论文翻译接口，python版和lua版 monsterskiller 手机编程脚本编程 python
论文翻译接口python版importrequestsimporthashlibfromurllib.parseimportquotedefget_md5(s,is_hex=True):md5=hashlib.md5()md5.update(s.encode())ifis_hex:returnmd5.hexdigest()returnmd5.digest()deftranslate(source_
医学论文翻译有哪些要求，应该如何翻译呢？英信翻译公司其他
近年来，随着国内医学水平的不断提高，医学论文翻译的需求也呈现出快速增长的趋势。在国外期刊上发表论文，往往需要将整篇论文翻译成英文。那么，医学论文翻译有哪些要求，应该如何翻译呢？专家指出，医学论文翻译最基本的要求就是准确性，要求翻译者能够准确地将原文的含义传达给读者，不出现歧义或者误解的情况。这要求翻译者具备深厚的医学专业知识和语言能力，能够理解原文的含义，并将其准确地表达出来。除了准确性之外，医学
GPT原始论文：Improving Language Understanding by Generative Pre-Training论文翻译 iKang_dlut gpt 人工智能深度学习
1摘要自然语理解包括文本蕴含、问题回答、语义相似性评估和文档分类等一系列多样化的任务。尽管大量未标注的文本语料库很丰富，但用于学习这些特定任务的标注数据却很稀缺，这使得基于区分性训练的模型难以充分发挥作用。我们展示了通过在多样化的未标注文本语料库上对语言模型进行生成式预训练，随后对每个特定任务进行区分性微调，可以实现这些任务的大幅度改进。与以往的方法不同，我们在微调过程中使用了任务感知的输入转换，
【论文翻译】Generation of Non-Deterministic Synthetic Face Datasets Guided by Identity Priors（21.12）联系丝信计算机视觉
文章目录读后感Abstract1Introduction1.1Ourcontributions2RelatedWorks2.1SyntheticImageGeneration2.2MatedSampleGeneration2.3LimitationsinState-of-the-art3PCA-FR-GuidedSampling4SyntheticMatedFace(SymFace)Dataset
ORB-SLAM2代码学习1 rgdb_tum.cc Dziwu SLAM 学习计算机视觉人工智能
论文翻译参考1参考2rgdb_tum.cc的框架代码大致思路LoadImages()加载图像——判断rgb图是否存在——判断rgb图与depth图数量是否对应相同。ORB_SLAM2::SystemSLAM()初始化，创建SLAM系统，并初始化各个线程。遍历每一对RGB图和depth图【读取RGB图和depth图，读取时间戳（vTimestamps存储了时间戳，实际上就是存储了数据文件的每一幅图像
GFS--Google File System论文翻译和理解不争_900c
一、系统设计目标高可用的大文件分布式文件系统。二、关键点Architecture-架构：有哪些Server，每个Server的功能。Master存储的MetaData的结构。client写数据流程。client读数据流程。启动时Master和ChunkServer的交互。ChunkServer发生故障时，Master和ChunkServer的交互。三、核心设计概述2.Master中存储的MetaD
翻译 5765f3fa240e
对于论文翻译，大家要极其重视阅读平行文本和查资料的重要性。我平时经常做论文翻译和润色，每一次都是如履薄冰。需要阅读核心参考文献，查资料消除术语，彻底领会论文背后的逻辑。这些都解决了，才轮到运用语言基本功。假如大家接论文翻译，请认真对待查资料和阅读平行文本这两件事，如果做不到，暂时不要接论文翻译。
BERT论文翻译 TheHonestBob NLP 自然语言处理
一、写在前面在Transformer和BERT大行其道的时代，搞懂这两种基础模型结构很有必要，在网上没有搜索到满意的论文翻译结果，最近刚好有时间，把BERT的论文在个人英语水平基础上最大程度的保留原作者的本意翻译一遍，如有翻译不到位的地方请各位指出，觉得不错的点个赞鼓励一下，Tansformer的论文我之前已经翻译了，可以查看我的这篇博客attentionisallyouneed论文翻译。查看be
ImageNet Classification with Deep Convolutional Neural Networks论文翻译——中英文对照 SnailTyan 深度学习 Deep Learnig
文章作者：Tyan博客：noahsnail.com|CSDN|简书翻译论文汇总：https://github.com/SnailTyan/deep-learning-papers-translationImageNetClassificationwithDeepConvolutionalNeuralNetworksAbstractWetrainedalarge,deepconvolutionaln
2021-02-05 碰撞检测GJK算法详解（初学者慎入） MathPhilosophy
碰撞检测有2个经典算法，一个是分离轴算法SAT,还有一个就是本文要介绍的GJK，GJK是三个人的名字首写大字母；这个算法的数学推导有点复杂，目前网上只有这篇https://blog.csdn.net/u010016421/article/details/104788769/相对比较详细的介绍了算法，其主要也是参考原始论文翻译的；考虑到原始论文比较难读，博主特地专门写一篇文章介绍，博主的这篇文章会必
YoloV8改进策略：BackBone改进|DCNv4最新实践|高效涨点|多种改进教程|完整论文翻译静静AI学堂 YOLO
摘要涨点效果：在我自己的数据集上，mAP50由0.986涨到了0.993，mAP50-95由0.737涨到0.77，涨点明显！DCNv4是可变形卷积的第四版，速度和v3相比有了大幅度的提升，但是环境搭建有一定的难度，对新手不太友好。如果在使用过程遇到编译的问题，请严格按照我写的环境配置。论文：《DCNv4：对视觉应用的动态和稀疏算子的重新思考》https://arxiv.org/pdf/2401.
论文翻译 SVSGAN: Singing Voice Separation Via Generative Adversarial Network 夏HL
文章主要是将混合音频的声谱作为输入，人声,bgm的声谱作为标签，通过GAN来完成近似过程，生成器最后一层用的output_voice=[z_voice/(z_voice+z_bgm)]*x,output_bgm=[z_bgm/(z_voice+z_bgm)]*x而且文章中的生成器是经过预先训练后的。我在MKR-100上用SVSGAN时难以训练(以后换成wgan)。0.摘要从混合音频中分离出两种来源
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本