唐名威

虚拟专题：联邦学习 | 面向隐私保护的非聚合式数据共享综述

来源：通信学报

面向隐私保护的非聚合式数据共享综述

李尤慧子¹, 殷昱煜¹, 高洪皓^2,3, 金一⁴, 王新珩⁵

1 杭州电子科技大学计算机学院，浙江杭州 310018

2 上海大学计算机工程与科学学院，上海 200444

3 韩国嘉泉大学计算机工程系，城南市 461701

4 北京交通大学计算机与信息技术学院，北京 100044

5 西交利物浦大学电气与电子工程系，江苏苏州 215123

摘要：海量数据价值虽高但与用户隐私关联也十分密切，以高效安全地共享多方数据且避免隐私泄露为目标，介绍了非聚合式数据共享领域的研究发展。首先，简述安全多方计算及其相关技术，包括同态加密、不经意传输、秘密共享等；其次，分析联邦学习架构，从源数据节点和通信传输优化方面探讨现有研究；最后，整理对比面向隐私保护的非聚合式数据共享框架，为后续研究方案构建和运行提供支撑。此外，总结提出非聚合式数据共享领域的挑战和潜在的研究方向，如复杂多参与方场景、优化开销平衡、相关安全隐患等。

关键词：隐私保护 ; 数据共享 ; 联邦学习 ; 安全多方计算

论文引用格式：

李尤慧子, 殷昱煜, 高洪皓, 等. 面向隐私保护的非聚合式数据共享综述[J]. 通信学报, 2021, 42(6): 195-212.

LI Y H Z, YIN Y Y, GAO H H, et al. Survey on privacy protection in non-aggregated data sharing[J]. Journal on Communications, 2021, 42(6): 195-212.

1 引言

当今世界处在信息时代，并正快速进入全面的数字世界。随着5G的广泛应用，物联网爆发出了蓬勃的生命力，移动与物联网终端发展情况如图1所示。海量数据隐藏着重要的价值，这也是近年来人工智能、深度学习等领域飞速发展的主要因素之一，然而，数据一旦非法泄露，会造成巨大的损失。2020年中国网络安全报告显示，病毒样本总量为1.48亿个，较2019年同期上涨43.71%；超两亿条用户信息被出售，造成数千万经济损失。国外数据隐私问题也十分严峻，2019年英国航空公司因违反用户隐私条例被信息监管局罚款近2 亿英镑（约合15.8 亿元人民币）。各国为了推动数据隐私保护，颁布了一系列法律条文，如欧盟的 GDPR（General Data Protection Regulation）、美国的 CCPA（California Consumer Privacy Act）以及我国的《中华人民共和国网络安全法》。由此可见，数据隐私保护十分重要。

图1 移动与物联网终端发展情况

加密是保护数据隐私的主要手段。在聚合式数据共享方法中，各数据生产者使用加密算法编码源数据，然后传输至数据处理中心；数据处理中心通过解密算法获取数据信息，聚合所有源数据进行数据挖掘等复杂的操作。加密保证了数据传输时的隐私安全，但无法确保数据处理中心的安全，如果数据处理中心被攻破，则会造成全部数据的泄露。相对地，非聚合式数据共享方法旨在不汇集所有源数据的情况下，同样达到数据共享要完成的最终目标。非聚合式数据共享主要包含两层意思：首先，数据不汇聚，避免了单点故障（中心点被攻破）造成的潜在隐私泄露危险；其次，数据共享不是指狭义的源数据分享，而是从广义角度来看，期望达到数据共享的最终目标，例如数据处理和数据挖掘。最优场景是在不分享源数据的情况下完成处理和挖掘操作，进一步避免数据隐私泄露的可能。

从非聚合式架构来看，1982年提出的安全多方计算（SMC, secure multi-party computation）是早期主要的非聚合式数据共享方法。安全多方计算继承了分布式的特点，计算参与方地位平等且互不信任，无中心节点。利用加密算法，如同态加密等，数据接收方只能处理加密后的数据，无法获知源数据信息。处理后的数据再传送回数据发送方，发送方经过解密后获得计算结果。安全多方计算利用密码学和底层数据交互协议，保证计算参与方在不获取源数据的情况下，完成数据处理操作，增强了数据的隐私性。早期，由于安全多方计算复杂度高，通常采用哈希映射等方法进行传输，但其安全性不足。其他参与方可以通过枚举操作来确定对方数据集中存在的元素，从而获取对方的隐私信息。随着边缘计算等新型计算架构的发展以及设备计算能力的增强，安全多方计算的实际需求和部署能力也相应提升，相关技术（如不经意传输拓展协议、秘密分享、隐私求交等）为数据隐私保护提供了可靠的指导方案和技术基础。

近年来，云计算、物联网和机器学习高速发展，广泛应用于智慧城市、智慧安防等领域。海量异构数据聚合在云平台上，通过各类机器学习和深度学习算法对数据进行分析，挖掘数据隐藏的知识信息。然而，随着数据和用户隐私的关联度越发密切，把全部源数据聚合到中心节点再进行模型训练的方法隐私泄露风险就越大。因此，谷歌于 2017 年提出联邦学习，旨在不需要通过中心化的数据训练就能获得机器学习模型。各数据提供方在本地进行数据训练，把参数等隐私无关信息发给参数服务器进行全局调优，再把优化后的模型应用到本地，以实现在不提供原始数据的情况下，获取全局的数据“知识”。联邦学习是典型的非聚合式数据共享方法，源数据不出本地，降低了隐私泄露的风险，同时完成了数据共享的目标，即获得优化训练模型。

数据的重要性日益增加，为了更好地保护数据隐私安全，本文针对非聚合式数据共享方法进行介绍和分析，主要综述了安全多方计算和联邦学习的相关研究。安全多方计算侧重于数据传输和计算外包，本文从原理、算法复杂度、适用场景等情况比较分析各类交互协议，增强数据交互的安全性。联邦学习侧重于数据挖掘，旨在从多个数据孤岛上全局分析数据潜在价值，其框架主要包括本地数据训练、参数信息传输交互、参数服务器全局调优。本文从与数据隐私关联性较强的数据源（本地数据）和通信传输两方面讨论对比现有的联邦学习优化方法。此外，本文总结整理了现有面向隐私保护的非聚合式数据共享框架，同时从复杂多参与方场景、优化开销平衡等方面提出了非聚合式数据共享隐私保护潜在的4个研究方向及建议。

2 安全多方计算

安全多方计算是密码学领域用于多个数据方在无可信第三方的情况下，安全且保护隐私地协同计算某个或某些约定函数的方法。SMC由Yao于1982 年提出，用来解决著名的百万富翁问题，即2个百万富翁比较谁更加富有，而不能泄露具体的财富值。

安全多方计算广泛应用于敏感数据协同计算的场景。例如，根据个人的信用记录、购买记录、社交喜好等协同挖掘个性化推荐服务；广告转化率收益计算，即利用属于第三方平台的广告点击数据和商品平台的购买数据分析观看特定广告的用户中有多大比例购买了该商品等。

安全多方计算利用数据交互协议，保证计算参与方在不知道源数据的情况下，完成数据处理操作，增强了数据的隐私性。不同的数据交互协议特点各异，适用场景也不同，主要的MPC数据交互协议如下。

2.1 同态加密

在基于加密的数据交互协议中，最常用的是同态加密技术，由Rivest、Adleman和Dertouzos提出。该技术不仅支持加密数据传统的传输、存储操作，还支持用户直接对加密数据进行计算，其结果等价于原始数据计算后再加密。

同态性质是针对加密函数来说的，一般分为加（减）法同态、乘（除）法同态（也称单同态）和全同态。其简单定义如下。设存在映射g:G₁→G₂，则有

加法同态：g(x+y)=g(x)+g(y), x ,y∈G₁

乘法同态：g(x+y)=g(x)× g(y),x,y∈G₁

全同态：同时满足上述2个性质

若一个加密函数满足加法或乘法同态，则其支持在加密数据上做加法或乘法计算而不损害数据，若同时满足加法、乘法同态，即全同态，则几乎可以支持任何计算操作。广泛使用的RSA算法满足乘法同态，Paillier算法满足加法同态。

同态加密常常应用在云计算环境中，保证数据传输过程和云中心节点计算时的数据隐私安全。例如，在云外包的场景中，Abadi等实现了2个协议，通过加法同态加密等操作实现安全对抗半诚实对手，其中EO-PSI（efficient outsourced private set intersection）具有较好的大数据集拓展性。而文献采用加法同态加密技术实现隐私集合交集（PSI, private set intersection）协议和PSI-CA（private set intersection cardinality）协议。

针对两方数据集大小差异大的情况，Resende等使用同态加密和布谷鸟过滤器优化中提出的协议，在半诚实对手模型中实现了单向隐私求交协议；文献则利用全同态加密解决数据集差异大的问题。

同态加密的优点是可以在不泄露源数据的情况下，得到同样加密的计算结果，但是，合适的加密函数定义难，而且其最大的局限性在于复杂度过高，普遍应用还需要进一步的研究和发展。

2.2 逻辑电路和不经意传输

安全多方计算主要包括计算和数据传输2个方面。基于逻辑电路方案被认为是通用的计算设计方法，因为任何函数都可以转化成对应的逻辑电路，借助对电路真值表的替换、加密和打乱，形成Garbled Table。参与方间的数据传输可以通过不经意传输技术交换必要的消息，最后某一方计算出最终的结果。图2展示了以两方为例的情景。首先，由 Alice 根据需求构造电路，确定真值表内容。为门中的每条线秘密地生成2个密钥，分别对应输入 0、1，替换该门对应真值表中的值。用前两项加密第三项，然后随机打乱得到 Garbled Table。Bob通过不经意传输从Alice那里获得其输入对应的密钥、Garble Table和自己输入对应的密钥等必要信息，最后计算该门对应的输出C。在这一过程中，Bob不用泄露自己的输入，也不知道Alice的任何信息。

图2 混淆电路示意

基于逻辑电路的计算方法有一定可行性，文献在智能手机上成功配置了基于电路的协议，并使用了Wi-Fi通信。但该方法需要的逻辑门较多，实现复杂度较高。例如，计算编辑距离需要30 000个门电路。为了降低复杂度，Pinkas 等于 2019 年提出了具有线性渐进通信复杂度的基于电路的协议，在集合大小为220时，该协议的通信复杂度不到文献协议的十一分之一，但后者可以拓展到多方环境。

不经意传输技术保证接收者只能从发送者的多个数据中获取自己想要的数据，而发送者却不知道这个具体的数据。不经意传输的构造方法有许多，如基于RSA（Rivest, Shamir, Adleman）构造、基于椭圆曲线等。近年来，高效的 SMC 数据交互协议大部分是基于不经意传输拓展的，其性能较好，能够仅通过少数公钥操作和位操作完成大量的数据传输。例如，文献实现了在普通带宽环境中（30～100Mbit/s）最快的 SMC 协议，在半诚实对手环境和恶意对手环境中都能保证一定的安全性。它的底层协议是基于不经意拓展的轻量级多点不经意伪随机函数。由于在某些环境下，协议计算的结果可能只是一个中间结果，因此，Ciampi等基于不经意传输拓展实现能够输出“加密”的协议，类似的工作还有文献等。此外，文献利用差分隐私技术，选择性地泄露部分不重要的信息，相比于文献提出的对抗恶意对手的协议，性能提升近63%。

2.3 秘密共享

秘密共享（secret-sharing）也是SMC领域经常使用的技术，由Shamir提出。秘密共享的关键是保证数据共享过程使用的信道是安全的。传统方法采用的是加密技术，然而，密钥的分享也面临同样的问题，即如何保证密钥分享信道安全。非对称加密技术的发展在很大程度上解决了该问题，但它的安全性也依赖于信道的诚实性，存在被中间人攻击的可能。为了解决这一问题，秘密共享技术将秘密分成多份，由不同的信道传输，就算有恶意信道存在，也不能轻易还原完整的秘密。其形式化定义为

其中，s表示需要分享的秘密，t表示需要还原秘密的阈值，n 表示将秘密拆分的数目。在一组参与者中，秘密由大家共同保管，只有当超过阈值的参与者相互合作时才能恢复完整的秘密数据。

秘密共享技术在安全多方计算场景中应用广泛，数据方将数据和模型用秘密共享的方法加密拆分，发送至各参与方。在解决分布式集群一致性问题的拜占庭协议中，也采用秘密共享协议将秘密分成多份传送给各个假设的将军，并在需要的时候恢复秘密。

2.4 隐私集合交集协议

隐私集合交集协议是 MPC 领域使用较为广泛的应用层协议，旨在多个数据方间计算数据交集。其具体定义如下。

发送方S和接收方R分别持有一个私有数据集X 和 Y，协议的目标是计算它们各自隐私集合的交集，即以X和Y为输入，计算 f(X,Y)=X∩Y，而不能泄露除交集之外的数据信息。

PSI 作为具体的应用层协议，它底层的数据传输和计算功能可以由同态加密、不经意传输、秘密分享等技术实现。此外，PSI 还可以根据具体的应用要求拓展出各种各样的变体，例如，文献受可交换加密技术启发，采用布隆过滤器优化，接收者可以更轻松地计算输出，确保只有一方得知交集内容；只公布交集大小的应用场景，其中文献借助不经意评估方法实现恶意环境安全，结果表明其在云环境时的开销比半诚实协议高 25 倍，而且允许动态调节通信和计算之间的开销比；隐藏一方输入大小的应用场景，文献提出了一种适用于云计算环境的新的集合表示方法，基于加法同态公钥密码（PKC，private key cryptography）实现了2个实用的协议，即PSI和PSI-CA。

主要的SMC数据交互协议比较如表1所示。

3 联邦学习

随着云计算、人工智能、大数据等技术的发展，智能手机、可穿戴设备等产生了超大规模的数据，深度学习也随着数据量的增长而得到更好的发展。由于设备的计算能力不断增强，端设备数据与用户隐私关联度较高，非聚合式数据共享方法更受青睐，训练数据保留在本地的联邦学习算法得到广泛研究。

联邦学习是一种关注隐私保护的机器学习技术，源数据不离开本地设备，在多参与方或多计算节点之间开展高效的机器学习。联邦学习是一个统称，各数据提供方构成联邦，共同训练模型，其可使用的机器学习算法不局限于神经网络，还包括随机森林等。其框架主要由3个部分构成：提供数据的多个本地节点、负责参数调优的中心参数服务器、参数传输链路（传输本地数据训练后的模型参数至服务器，传输全局调优后的参数至各本地节点）。根据具体实现的深度学习模型和算法的不同，联邦学习框架可以适用于各类数据分散的学习场景中。

本文侧重于从源数据节点和通信传输2个方面分析联邦学习的优化方法及其相关的数据隐私保护技术。

3.1 源数据节点

联邦学习中各源数据节点在本地进行训练，仅上传参数信息，避免数据隐私信息泄露。针对源数据节点的工作主要可以分为数据获取和非平衡数据优化2个方面。

3.1.1 数据获取

联邦学习拥有一定规模的本地数据节点提供源数据，但本地节点的管理较为松散，是自主构建联邦模式，可以任意加入和离开。此外，本地节点的状态是不可控的，如在线情况、诚实度、参与度、贡献程度等。如何选择适合的本地数据节点、如何激励优质的节点参与并提供高质量的数据都是数据获取阶段需要考虑的问题。

1) 参加者选择

本地数据节点的质量会影响总体的训练过程，联邦学习可通过选择部分高质量参与者，提升算法效率。例如，FedAvg从符合要求的本地节点（如在线且空闲的设备）中选取一定量的客户端进行聚合；Goetz 等提出主动联合学习框架 AFL（active federated learning），每个通信回合不是随机均匀地选择客户，而是以模型和客户数据为条件进行概率选择；FedCS根据资源的状况主动管理本地节点，使其产生更多的聚合更新。

2) 激励机制

通常的研究工作都假设设备无条件贡献资源，但实际上设备是自私的，很难组建联邦。因此，部分学者研究如何使本地数据节点积极参与到联邦系统中，并制定高效的激励机制。首先，参与的节点之间可能会存在敌对竞争关系，双方正面积极参与并均获利十分关键。其次，参与者的贡献程度不同，产生的效益也不一致，如何合理公平地分配收益也是值得研究的问题。此外，部分工作将激励机制与防御恶意参与者结合，例如，Fmore是移动边缘场景的激励机制框架，实验证明提出的激励机制能提高学习算法的性能。

3.1.2 非独立同分布及不平衡数据的优化

数据分布及其质量对模型训练有重要影响，尤其是在非聚合数据共享方法中。2017 年谷歌在FedSGD 算法的基础上提出了 FedAvg 算法，该算法对非独立和不平衡数据都具有稳健性，为后续联邦学习优化奠定了基础。

1) 数据及模型架构优化

首先，从数据入手，部分解决方案利用共享数据子集方法，在保护用户隐私的前提下，提高模型准确率。其次，从模型本身架构入手，使之更加适应联邦学习，例如，基于随机梯度下降（SGD, stochastic gradient descent）的优化算法。从本地数据节点角度考虑，优化方法包括：对数据节点的要素进行插值更新、对节点的目标函数添加一个近端项（proximal term）、局部梯度添加可控的噪声干扰并控制变量、矫正本地数据的用户漂移等。

2) 模型个性化

模型个性化的联邦学习也解决了数据非独立同分布影响模型精度的问题。传统联邦学习下，中心参数服务器提供统一的本地模型，但在某些联合学习场景下，参与方希望训练的模型对自身利益最大化，而不是为了达成全局模型的共识而进行妥协。此外，多方数据的非独立同分布特性可能会降低全局模型的精度，导致用户参与联邦学习所得的模型精度不理想。模型个性化指参与方可自定义所训练的本地联邦学习模型，在利用本地数据集训练本地私有模型的基础上，参与全局公共模型的训练，优化私有模型。

现有的模型个性化算法大多基于知识蒸馏实现，以完成不同模型间交换知识达成共识。表2展示了支持模型个性化的联邦学习框架对比分析，梳理了框架的异同点。

Liu等提出了一种允许客户独立定制模型和设计训练的联邦学习框架——联邦相互学习（FML, federated meta learning），其实现方式如图3所示。首先，训练3 个本地模型（私有模型和中间模型）；其次，通过深度相互学习与中间模型交换知识（不同于师生模型，模型间不存在强弱关系，交换的方向也是双向的）；随后，通过合并中间模型获取全局模型；最后，借助中间模型向私有模型传达联邦学习的知识。该方法可以让本地数据节点完全独立的设计不同于全局模型的私有模型，但同时会导致全局模型不再能开箱即用。

图3 FML实现方式

Ramanan 等使用迁移学习和知识蒸馏开发一个通用的支持本地节点自主设计模型的联邦学习框架。其假定参与方拥有较少的标准数据以及足量的公共数据集，借此联合学习一个分类任务，并提出 FedMD 算法：每个模型首先在公共数据方面进行充分的训练；然后，借助迁移学习，对自己少量的私有数据进行训练；随后，借助知识蒸馏将私有模型的知识转化为一个统一形式；最后，中央参数服务器收集这些转化后的知识，计算出共识。相比于传统联邦学习，不存在所谓的全局模型，只存在一个知识蒸馏结果的共识，也不支持新的参与方，因为新的参与方可能会破坏现有的模型。

Roy等论证了FedAvg也是一种元学习，并提出一种平均后悔上限分析框架，使联邦学习与元学习构建联系，让模型个性化成为可能。

表3对现有的联邦学习数据源优化策略进行了对比总结。

3.2 通信传输优化

联邦学习中有2个必要的通信传输过程：数据节点传输本地数据训练后的模型参数至服务器，中心参数服务器传输全局调优后的参数/模型至各本地节点。在双向通信过程中，本地数据节点潜在的不可控网络状态（网络时延、通信费用等）容易导致通信成为联邦学习的瓶颈。

3.2.1 模型压缩与降低通信频次

针对通信这一任务本身，可以从降低通信频次和通信量方面进行优化。例如，AdaComm 自适应通信策略从低通信频率求平均值开始，以节省通信时延并提高收敛速度；增加通信频率以实现较低的错误率，实验证明其总体花费时间可减少到1/4。

从降低通信量考虑，可以进行通信数据压缩，包括上行压缩和下行压缩。因为上行的速率总是低于下行的速率，所以更多的研究关注上行压缩，部分研究同时压缩上行和下行。压缩可分为有损压缩和无损压缩，相较于无损压缩，有损压缩能大大提升压缩率，达到很好的压缩效果，但是有一定损耗。在保证收敛率和准确率的前提下，更多的研究偏向于有损压缩。在表4中，本文对各个压缩算法是否为有损压缩、是否有下行压缩、对非独立同分布（Non-IID, non independent and identically distributed）数据是否有稳健性以及压缩倍率等进行了分析和比较。

3.2.2 改变分布式体系结构

改变分布式体系结构也是优化计算节点间通信的有效方式之一。分布式体系结构包括对等、循环、服务器-客户端等。单中央服务器-多客户端的结构存在单点故障、主干网络开销过大等问题，可以利用对等架构解决。例如，对等网络结构下的联邦学习，其计算节点在有限通信的条件下，可以通过与相邻节点联合学习的方式解决通信瓶颈问题。相关研究主要集中在达成共识、协调构造全局模型、无中心模型聚合等方面。本节将去中心化的联邦学习框架根据其训练网络的结构划分为网型拓扑、树型拓扑、抽象总线拓扑，并总结讨论其模型聚合的方式及特点。

Savazzi 等为降低主干网络和中央服务器的通信开销，避免边缘设备长距离通信而导致训练时延，提出基于云边协同的联邦学习框架，其网络拓扑结构由传统的星形拓扑结构转化为树形结构，子树节点的层层聚合减少了主干网络的数据传输量。边缘云辅助的联邦学习架构如图4所示。边缘云聚合边缘网络下的本地节点的模型权重，中央云聚合边缘云的权重，其聚合函数是专门设置的HierFAVG函数。此方案仍存在中央服务器，所有边缘云聚合后才能进行云聚合，无法异步更新，降低了每轮聚合收敛的速度。

图4 边缘云辅助的联邦学习架构

Sattler等提出与区块链结合的去中心化联邦学习框架。利用抽象总线拓扑结构，各参与方构建一个区块链，基于区块链存取全局模型。区块链智能合约帮助训练网络的计算节点达成共识不借助中央服务器就完成全局模型聚合，具体包括：将全局模型权重向量划分为数个块数据，基于智能合约达成全局模型副本的共识，每个参与者投标训练区块上的块。该框架还有一个显著优势，就是借助区块链的记账特性，在区块链上推动计算，用户可以独立评估自己的成本效益比，并决定他们希望更新的块数，量化多方参与计算的绩效。但是，区块链块的数据大小限制会影响全局模型的划分，从而影响该方案性能。

Yoshida等提出了对等网络的去中心化联邦学习框架，解决参与方分担中央服务器聚合模型工作的问题。首先，随机选择一个节点开始广播，获取其他节点的权重、样本数和版本号，仅记录版本号大于自己的权重；其次，对权重进行加权平均，更新权重并增加版本号。此方案利用参与方充当某一轮的中央服务器角色，适合相互信任但又无法找出共识可靠第三方的场景。但是，该方案对节点的可靠性要求高，因为节点不仅承担一个轮次的权重更新工作，还会广播获取其他节点的样本数量和权重值，若存在恶意参与方，或者没有可靠的安全协议支撑，就会造成数据不可用甚至出现模型安全问题。

Kang 等提出了基于支持设备到设备（D2D，device-to-device）通信的 5G 网络进行去中心化联邦学习的框架及去中心化的模型聚合算法CFA-GE（consensus based federated averaging with gradients exchange）。利用5G网络环境，该方法更适合大规模密集和完全分散的网络，与以Mcmanhan等所提方法为代表的集中式深度学习方法形成鲜明对比。

表5从算法的特点、隐私保护情况、适用场景等方面对部分联邦学习优化算法进行了对比分析。

4 面向隐私保护的非聚合式数据共享框架

本节主要介绍支持隐私保护的非聚合式数据共享框架，包括安全多方计算平台 JUGO 及编译器Tasty、百度共享数据框架PaddleFL、微众银行FATE （federated AI technology enabler）、谷歌的 TFF （TensorFlow federated）以及英伟达Clara。表6对这些框架进行了总结对比，分析了其各自特性及适用的场景。

4.1 安全多方计算平台

2018 年计算架构服务提供商矩阵元发布了通用的安全多方计算平台JUGO，帮助用户快速开发通用半诚实的两方安全计算算法。JUGO架构如图5所示，算法模块主要集成了混淆电路、同态加密等底层协议，供MPC-SDK模块调用。当参与方间协同商定计算逻辑后，借助矩阵元开发的Frutta高级编程语言在MPC-IDE集成开发环境上编写实现，为上层的应用提供安全多方计算服务。最后，电路编译器把电路逻辑编译成电路文件。这些操作都可在 GPU、FPGA 等硬件加速下实现，使协同计算过程更快地完成。

图5 矩阵元JUGO架构

此外，编译器 Tasty能自动生成高效的基于同态加密和混淆电路技术的组合协议，用户可以使用高级语言方便快速地描述该协议。Tasty 用于许多隐私保护协议，如PSI相关应用、人脸识别等。图6展示了其主要工作流程，包括：1) 分析阶段，运行时环境首先检查协议描述是否存在语法错误，协议两方是否在执行同一个协议，通过分析该协议自动确定哪方可以进行预计算；2) 设置阶段，可预计算的参与方提前计算协议中独立于它们输入的部分，如混淆电路的生成和发送等；3) 在线/执行阶段，各参与方提供自己的输入，协议的在线部分（加密、解密、电路评估等）开始执行，直到计算出各参与方相应的输出为止。

图6 Tasty工作流程

4.2 百度数据共享框架

PaddleFL是百度于2019年开源的联邦学习框架，主要提供2种联邦学习解决方案：Data Parallel和PFM（parallel federated learning with MPC）。

4.2.1 数据并行化

各数据方通过Data Parallel可以基于经典的横向联邦学习算法 FedAvg、DPSGD等完成模型训练。其服务架构如图7所示，分为编译阶段和运行阶段。

图7 数据并行化下的横向联邦学习服务架构

编译阶段包含以下4个主要部分。1) FL-Strategy。用户可以使用 FL-Strategy 定义联邦学习策略，如Fed-Avg。2) UDP（user-defined-program），为PaddleFL 程序，定义机器学习模型结构和训练策略，如多任务学习。3) Distributed-Config。联邦学习系统会部署在分布式环境中，需要对分布式训练进行配置并定义分布式节点信息。4) FL-Job-Generator。给定 FL-Strategy、UDP 和Distributed Training Config，生成联邦参数的服务器端和客户端的FL-Job。

运行阶段包含以下3个组件。1) FL-Server，在云或第三方集群中运行的联邦参数服务器。2) FL-Trainer，参与联邦学习的每个组织都将有一个或多个与参数服务器通信的客户端。3) FL-Scheduler，训练过程中调度客户端，在每个更新周期前，决定哪些客户端可以参与训练。

4.2.2 基于安全多方计算的联邦学习

作为PaddleFL的一个重要组成部分，PFM是基于多方安全计算实现的联邦学习方案。PFM可以很好地支持横向、纵向及联邦迁移学习等多个场景，既可提供可靠的安全性，也具有可观的性能。

PFM 中的安全训练和推理任务是基于高效的多方计算协议，如三方安全计算协议 ABY3 （three-party arithmetic-binary-Yao）。在ABY3中，参与方可分为输入方、计算方和结果方。输入方为训练数据及模型的持有方，负责加密数据和模型，并将其发送到计算方。计算方为训练的执行方，基于特定的多方安全计算协议完成训练任务，只能得到加密后的数据及模型。计算结束后，结果方会拿到计算结果并恢复出明文数据。每个参与方可充当多个角色，如一个数据拥有方也可以作为计算方参与训练。PFM的整个训练及推理过程如图8所示。其主要由 3个阶段组成：数据准备、安全训练/推理、结果解析。数据准备阶段包括私有数据对齐和数据加密及分发。首先，PFM通过PSI协议允许数据拥有方在不泄露自己数据的情况下，找出多方共有的样本集合。此功能主要支持纵向联邦学习，因为其要求多个数据方在训练前进行数据对齐，同时保护用户的数据隐私。其次，数据方将数据和模型用秘密共享的方法加密，然后用直接传输或者数据库存储的方式传到计算方。每个计算方只会拿到数据的一部分，因此计算方无法还原真实数据。

图8 PFM训练及推理过程（IP_i、CP_i以及RP_i分别表示数据或模型的拥有方、计算方以及结果获取方）

安全训练/推理阶段。PFM拥有与PaddleFL相同的运行模式。在训练前，用户需要定义 SMC 协议、训练模型以及训练策略。PaddleFL的多方安全计算模块提供了可以操作加密数据的算子，在运行时算子的实例会被创建并被执行器依次运行。

结果解析阶段。安全训练和推理工作完成后，模型（或预测结果）将由计算方以加密形式输出。结果方可以收集加密的结果，使用 PFM 中的工具对其进行解密，并将明文结果传递给用户。

4.3 微众银行数据共享框架

4.3.1 概述

FATE 是由微众银行开源的一款工业级的联邦学习框架，为用户提供保护隐私的分布式机器学习服务。FATE 涵盖联邦特征工程、联邦机器学习模型训练（FATE FederatedML）、联邦模型评估、联邦在线推理等。其中，FATE FederatedML是联邦学习算法功能组件，提供许多常见机器学习算法联邦化实现。其主要功能如图9所示，具体如下：联邦样本对齐，包括纵向样本 ID 对齐、基于 RSA+哈希等对齐方式；联邦特征工程，包括联邦采样、联邦特征分箱、联邦特征选择、联邦相关性、联邦统计等；联邦机器学习，包括联邦逻辑回归、线性回归、泊松回归、联邦 SecureBost、联邦 DN、联邦迁移学习等；多方安全计算协议，包括同态加密、秘密分享、RSA、Diffie-Hellman交换算法等。

图9 FATE FederatedML主要功能

4.3.2 无损隐私保护系统

FATE 在实现纵向联邦学习时，为联邦学习环境下的模型训练提供一种称为 SecureBoost 的无损隐私保护 tree-boosting 系统。如图10 所示， SecureBoost在隐私约束下对数据进行对齐，协同学习共享gradient-tree boosting模型，同时对多个私有方的所有训练数据保密。FATE 利用基于隐私保护的样本 ID 匹配进行数据对齐。当数据垂直划分在多个参与方上时，不同的参与方持有不同但部分重叠的用户，这些用户可以通过其唯一的用户 ID来识别。为了在没有仲裁的情况下兼顾隐私并找到各方的共享用户或数据样本用户集的非共享部分， FATE 使用文献所提的隐私保护协议，在加密方案下寻找数据样本的用户交集。

图10 SecureBoost框架

图11 描述了在纵向联邦学习时，隐私保护约束下的数据对齐流程，具体如下。

图11 FATE纵向联邦学习的数据对齐实现流程

1) B将公钥（n, encry）加密后传给A，建立加密通道。其中，n是公有密钥，encry是加密算法。

2) A通过哈希函数H逐个映射u_i，并乘以加密后的随机噪声，然后将结果Y_A回传给B。

3) B解密后得到Z_A，计算Z_B，并将Z_A和Z_B回传给A。

4) A消除Z_A中的随机噪声，然后进行一次哈希运算生成D_A，再求Z_A与D_A的交集，最后A回传交集结果给B。

在多方安全训练阶段，FATE利用SecureBoost的模型，实质上是将梯度提升树学习算法XGBoost进行转换，使其适应联邦学习环境。分裂节点的选择和叶的最优权重计算仅取决于叶的g和h。其中， g和h分别是XGBoost损失函数的一阶导数和二阶导数。而 g、h 与分类标签存在关联，攻击方在一定条件下可以通过g和h恢复分类标签。由XGBoost特点可知，每个被动方（无标签数据的参与方）一旦获得g和h，仅用其本地数据就能够独立地确定局部最优分裂。因此，非联邦学习下活动方将g和h发送到每个被动方是可行的。但由于g和h可以用来获取分类标签信息，为了确保安全，联邦学习要求各被动方无法直接访问g和h，主动方（有标签数据的参与方）在将g和h发送给被动方之前要进行加密。随后，每个被动方使用加密的g和h确定局部最优分裂。被动方A使用由主动方B加密的g和h进行计算。其中，g和h在主动方B侧本地计算，B侧没有泄露样本分类标签；被动方A本地计算经加法同态加密后的梯度直方图，B解密梯度直方图，但是不知道具体对应的ID集合，保护了A侧ID集合隐私信息。

4.4 谷歌数据共享框架

4.4.1 概述

TFE是由谷歌开源的联邦学习框架，可用于对分散式数据进行机器学习和计算[91]。开发者可基于其模型和数据来模拟联邦学习算法并实验新算法。TFF提供的构建块也可用于实现非学习计算，例如对分散式数据进行聚合分析。TFF的接口可以分成两层：1) FL API，提供了一组高阶接口，开发者能够利用其联合训练和评估实现TensorFlow模型。2) FC（federated core）API，可以通过在强类型函数式编程环境中结合使用 TensorFlow 与分布式通信运算符，简洁地表达新的联合算法。这一层也是构建联合学习的基础。

TFF可用于模拟对联合学习系统的目标攻击和基于隐私的差异防御，使用潜在的恶意客户端构建一个迭代进程。同时，TFF还支持自定义的攻击方式，通过编写一个客户端更新函数来实现新的攻击算法。此外，新的防御方案可以通过定制状态聚合函数及聚合客户端输出以获得自定义安全全局更新策略。

4.4.2 隐私保护库

谷歌开源的TensorFlow Privacy是将差分隐私技术集成到诸如随机梯度下降的迭代训练过程中，提供了隐私保护Python库，以训练具有差异隐私的机器学习模型。引入模块化方法最大限度地减少对训练算法的更改，为隐私机制提供各种配置策略；隔离和简化关键逻辑解决了在隐私敏感数据集上训练机器学习模型的实际挑战。而TFF与TensorFlow Privacy隐私库是互操作的，可以支撑联邦训练算法的不同隐私模型，例如，支持基础的DP-FedAvg算法进行差分隐私训练。此外，TFF 还提供可扩展的隐私保护接口，可以实现自定义差分隐私算法并将其应用于联邦平均的参数更新。

TFF实现本地数据隐私保护的另一个重要方式是与生成式对抗网络（GAN, generative adversarial network）结合，如DP-FedAvg-GAN算法。Rangan等展示了DP-FedAvg-GAN算法下联邦学习、生成模型和差分隐私相结合的有效性。

4.5 英伟达医疗数据共享框架

NVIDIA Clara是一个医疗保健应用框架，用于人工智能成像、基因组学以及智能传感器的开发和部署。以服务器-客户端结构的联邦学习为特色，各数据持有方和中央服务器通过边缘 AI 计算平台NVIDIA EGX构建训练网络，实现支持隐私保护的智能计算。NVIDIA Clara作为一个商业应用产品，需基于英伟达的GPU硬件来获取服务。

联邦学习的中央服务器虽然通过适当地聚合客户端本地模型更新可以获得一个高精度的全局模型，但是共享的模型可能间接地泄露本地的训练示例。NVIDIA Clara云边协同的架构，可以通过控制站点的全局模型只共享部分模型权重，从而保护隐私，并且数据较少暴露在模型反转中。Paillier 等探讨了在联邦学习系统中应用差分隐私技术来保护病人资料的可行性。其实验结果表明，模型性能与隐私保护代价之间存在折中关系。

此外，为确保在客户机-服务器通信时数据和模型的安全性，Clara使用联合学习令牌来建立客户端和服务器之间的信任。联邦学习令牌会在整个联邦训练会话生命周期中使用。客户端需要验证服务器标识，服务器也需要验证客户端。客户端-服务器数据交换基于HTTPS协议进行安全通信。

5 挑战与展望

随着海量异构数据的日益增长，数据隐私保护问题迫在眉睫。非聚合式数据共享方法在数据分享模式基础上增强了隐私保护，降低数据泄露的风险。通过总结分析安全多方计算、联邦学习及非聚合式数据共享框架的发展，本文进一步提出了非聚合式数据共享领域在未来更为复杂的信息世界中面临的挑战和机遇。

5.1 复杂的多参与方场景

随着物联网和边缘计算的发展，智能设备能力不断提升，数据往往分布在多个节点上。而且，节点动态性强，可以自由加入和离开，导致多参与方情况更加复杂和不稳定。

由于安全多方计算协议复杂度高，传统的方法侧重研究两方参与场景，无法很好地拓展到多方环境。不能简单地将两方协议执行多次来达到多方计算，因为在简单重复两方协议的过程中，参与方会得到一些中间结果，而它本身是不能获知这些中间结果的。虽然有部分研究者针对这一问题展开研究，但还未能完全解决。例如，Wang 等提出让某参与方充当领导者，组织协议在多方之间执行，但无法很好地应对领导者是恶意节点的情况，而且领导者的选择也影响协议效率；Kolesnikov等借助不经意可编程的伪随机函数（OPPRF, oblivious evaluation of a programmable pseudorandom func-tion）的特性来完成多方计算，5个各有220个元素的参与者执行协议仅需72 s，但其实验选取的是较小数字或较短字符串等简单元素，不能很好地应对复杂场景。云计算给多参与方场景的安全计算带来了机遇，其强大的计算和存储能力可以用于支撑复杂的协议，但也存在一定挑战。首先，传统方法是针对数据存储在本地、计算执行在本地的特点而设计的，不能照搬到云环境中。其次，云中心节点一般被认为是半诚实的，需要对传输数据进行加密，而这个操作会导致数据拥有方难以在协议执行过程中对外包的数据集进行访问控制。因此，需要研究适应动态多参与方的安全计算协议，可以利用现有的一些高级密码学成果和边缘计算环境中的智能节点等，达到高效合理计算的目标。

参与方的增多也会影响联邦学习算法的准确性和性能。首先，管理和筛选合格的参与方需要额外的开销；其次，本地数据节点增多，其不同的数据分布会影响全局优化模型的效果。在最坏的情况下生成的联合模型并不比在单个节点上训练生成的模型好，在非独立同分布的数据情况下， FedAvg训练卷积神经网络的准确率会显著下降。改进的潜在方法包括增加并行性、增加本地节点的计算量、参与方聚类择优、模型自适应调整等。针对参与方的动态变化及应对短时间内参与方数量弹性增加/降低等情况，如何设计一个快速收敛且保证准确率的算法模型还需要进一步的研究。

5.2 性能优化与开销代价的平衡

为了增强数据隐私保护，需要复杂的协议和算法保证最低程度的数据泄露，但在实现过程中，则会造成系统开销增大。因此，如何平衡所需的优化性能和执行开销是十分重要的问题，关系到方案的实际应用拓展情况。

在安全多方计算领域，Pinkas等提出货币成本衡量标准，其表示PSI协议在云计算平台执行所带来的计算和通信开销，并根据该标准设计了2个半诚实对手安全协议，其中一个具有非常低的通信开销，另一个则在计算开销上表现出色，然而这 2种特性并未出现在同一个协议上。如何权衡计算和通信开销，在满足应用场景和用户隐私需求的情况下达到平衡，能否借助货币成本标准设计出更加折中的方案等，都是亟待解决的问题。

在联邦学习领域，其分布式架构存在多节点的数据交换过程，需要较好的通信带宽，多节点训练的拓展性也与其正相关。然而，在大型异构环境分布式训练中，本地数据节点常常会受到可用通信带宽和资源的限制。梯度压缩是解决这类问题的一种潜在的有效方法，但大多压缩算法采用近似编码表示内容，存在一定的信息损失，无法被广泛采用。其次，运行速度会受到影响，而且可能造成优化后的所有梯度聚集或无法达到相同的测试性能。因此，如何在保证算法准确度的前提下减少通信成本仍然需要进一步研究。

5.3 潜在安全问题

非聚合式数据共享虽然能保证源数据不在单点聚合，但仍面临一些潜在的安全问题。

虚假数据。攻击者可以冒充虚假参与方，提交模拟的数据，造成数据中毒的情况。在安全多方计算场景中，此方案可以用来攻击外包计算节点，消耗其资源，使真正参与方得不到公平的资源使用机会。在联邦学习场景中，虚假数据会严重影响全局优化模型的准确性，造成严重后果。针对这一问题，可以尝试从参与方认证、可靠性激励等方面提出解决方案。

架构安全性。安全多方计算中，由于加密后的数据需要传输交互，若一个参与方被攻破，则信息可能被泄露。如果攻击者获悉加密方法及部分真实数据信息，就能在一定程度上破解密文。安全多方计算的数据安全性取决于使用的加密方法和数据传输通道的安全性。联邦学习中参数服务器对本地数据及其训练过程是不可见的，攻击者可利用缺乏透明性对系统进行攻击。通过有目的或无目的的模型攻击，使训练过程中数据样本偏差不可察觉，影响全局模型的性能或操控模型偏向。如何确保本地数据节点提供诚实可信的训练，保证整个联邦学习流程的安全性仍然是一个难点。

5.4 隐私保护技术结合

随着学术界和工业界对数据隐私保护问题的重视，研究者致力于开发各种增强数据隐私保护的技术，如何结合现有的技术，针对不同的应用场景，提升整体系统的数据隐私保护能力，也是未来值得研究的方向。

生成对抗网络是一种深度神经网络结构，由Goodfellow等在2014年提出，它可以学习数据集分布，生成与数据集相似的逼真数据。利用GAN可以把同等特征的模拟数据发送给对方，而不泄露真实数据内容，保护源数据隐私。非聚合式数据共享方法主要强调数据共享的作用及其目标，若数据特征保留，则同样可以训练准确的模型。但现有的GAN相关研究缺乏对GAN模型的性能、可用性、生成样本的质量等方面的客观评价，导致模型的判定受一定主观因素的影响。其次，仍然存在训练过程不稳定、训练结果难以收敛、模式崩溃等问题， PPGAN、DPGAN虽在一定程度上有所改善，但仍有很大的优化空间。

本地差分隐私（LDP, local differential privacy）技术让数据所有者在发布数据之前对数据进行扰动，避免需要信任的第三方进行数据收集和处理，保护源数据隐私。该技术能够消除所增加的正、负噪声，并且基于预定义的查询来设计扰动机制，对指定的查询能得到准确的估计。但目前的查询类型比较单一，包括离散型数据的计数查询和连续型数据的均值查询，不支持其他类型的查询，如范围查询、最值查询等。其次，本地差分隐私对复杂数据类型研究的工作还不足，目前仅有文献等对图等复杂数据进行了研究，不能很好地处理具有边权或边属性的图，以及特定图的挖掘任务研究，如三角形计数和频繁的子图结构挖掘等。

联邦学习框架需要上传本地训练模型的参数至中央参数服务器，中央服务器结合全局信息进行调优操作后，再把优化后的参数信息返回给各本地节点。参数数据传输链路及中央参数调优计算可结合安全多方计算技术，保证参数信息交互过程中的隐私安全性。具体的技术选型、计算操作实现还需要结合联邦学习实际应用场景进行进一步的分析和优化。

6 结束语

随着数据量的迅速增多以及用户隐私保护需求的提高，传统的集中式获取全部数据的方式已不能很好地应对多方数据共享的场景，非聚合式数据共享有望成为主流。非聚合式数据共享在有效降低源数据隐私泄露风险的情况下，完成数据处理和挖掘的目标。本文简要介绍了主要的非聚合式数据共享方法的研究现状，首先，阐述早期非聚合式数据共享方法安全多方计算的相关技术，包括同态加密、不经意传输、秘密共享、隐私集合交集协议等。其次，从源数据节点和通信传输优化2个方面介绍近期的非聚合式数据共享研究热点联邦学习技术。此外，本文还对比分析了非聚合式数据共享框架，如百度PaddleFL、微众银行FATE、谷歌TFF等，给未来研究方案的实际构建和运行提供支撑。最后，本文提出了4个非聚合式数据共享领域面临的挑战和潜在研究方向。期望本文可以为研究人员快速全面地了解和掌握非聚合式数据共享领域的基本现状和研究发展提供参考和帮助。

作者简介

李尤慧子（1989−），女，河南新蔡人，博士，杭州电子科技大学副教授，主要研究方向为边缘计算、隐私安全、移动互联网计算、高能效系统。

殷昱煜（1980−），男，重庆人，博士，杭州电子科技大学教授，主要研究方向为边缘计算、服务计算、大数据分析、软件形式化方法等。

高洪皓（1985−），男，浙江临海人，博士，上海大学副教授、韩国嘉泉大学教授，主要研究方向为软件形式化验证、服务协同计算、无线网络和工业物联网、智能医学影像处理等。

金一（1982−），女，河北石家庄人，博士，北京交通大学教授、博士生导师，主要研究方向为机器学习与认知计算、人工智能及应用、图像感知与识别。

王新珩（1968−），男，山东平度人，博士，西交利物浦智能工程学院教授、博士生导师，主要研究方向为物联网、室内定位、智能化服务和智慧城市。

联系我们:

Tel:010-81055448

010-81055490

010-81055534

E-mail:[email protected]

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

转载、合作：010-81055307

大数据期刊

《大数据（Big Data Research，BDR）》双月刊是由中华人民共和国工业和信息化部主管，人民邮电出版社主办，中国计算机学会大数据专家委员会学术指导，北京信通传媒有限责任公司出版的期刊，已成功入选中文科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊，以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录，并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

关注《大数据》期刊微信公众号，获取更多内容

你可能感兴趣的:(算法,大数据,编程语言,机器学习,人工智能)

【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
C++17 并行算法：std::execution::par
在多核处理器普及的今天，如何高效利用硬件资源成为提升软件性能的关键。C++17引入的并行算法库（ParallelAlgorithms）为开发者提供了一套标准化的并行编程接口，通过简单的策略切换即可将顺序算法转换为并行执行。本文将深入探讨C++17并行算法中最核心的执行策略std::execution::par，从基础概念到高级应用，全面解析其原理、用法及最佳实践。一、C++17并行算法概述1.1并
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
管理大数据存储的十大技巧 weixin_34238633 大数据数据库运维
在1990年，每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储，这有助于Hadoop管理数据本地化，但也放弃了共享存储的规模和效率。如果你拥有多个实例或Hadoop发行版，那么你就将得到多个横向扩展的存储集群。而我们所遇到的最大挑
求平方根：牛顿迭代法 mjfztms leetcode 算法
应用牛顿迭代法求解方程近似解，收敛速度很快牛顿迭代法求解平方根给你一个非负整数x，计算并返回x的算术平方根n，结果只保留整数部分。算法流程图由题意得，n2=xn^2=xn2=x，即为对f(n)=n2−xf(n)=n^2-xf(n)=n2−x求解。第一步：易得：x2−x1=0−f(x1)f′(x1)x_2-x_1=\frac{0-f(x_1)}{f'(x_1)}x2−x1=f′(x1)0−f(x1)
【秋招算法】2025 届搜广推方向求职历程（SSP、头部计划）秋冬无暖阳° 搜广推等—算法面经面试职场和发展算法
【秋招算法】2025届搜广推方向求职历程（SSP、头部计划）文章目录【秋招算法】2025届搜广推方向求职历程（SSP、头部计划）1.背景2.日常实习3.暑期实习3.1暑期BG3.2暑期记录4.秋招4.1秋招BG4.2转正4.3头部4.4提前批4.5正式批5.面试记录5.1Coding5.2其他高频编程题5.3常见八股、面经6.关于搜广推1.背景关于日常实习、暑期实习、提前批，秋招、春招、补招何为大
推荐算法（推广搜）——广告和推荐有什么不同？
导语近几年新兴起一个行业：推广搜。即推荐、广告、搜索算法的简称。各大厂都隐隐将其作为公司核心技术来发展。此文将带领大家探秘广告和推荐有什么区别以及其相似处。再此强调一下，广告算法里面的推荐广告和自然推荐结果里的推荐系统进行对比，但因为广告算法里面还有“搜索广告”，搜索广告和推荐系统差异性就太大了，这里不做讨论。一、不同点1.1本质不同推荐广告和自然推荐本质中要处理的群体和衡量的利益完全不一样。（图
算法分析与设计实验2：实现克鲁斯卡尔算法和prim算法表白墙上别挂我算法笔记经验分享
实验原理（一）克鲁斯卡尔算法：一种用于求解最小生成树问题的贪心算法，该算法的基本思想是按照边的权重从小到大排序，然后依次选择边，并加入生成树中，同时确保不会形成环路，直到生成树包含图中所有的顶点为止。具体步骤：边的排序：将所有边按照权重从小到大排序。初始化：创建一个空的生成树（可以是一个空的图结构），以及一个用于记录每个顶点所属集合（或称为连通分量）的数据结构（例如并查集）。边的选择：依次选择排序
（面经总结）一篇文章带你整理面试过程中常考的九大排序算法南淮北安冲刺大厂之面经总结面经排序算法二分插入冒泡快速
文章目录一、二分插入排序1.原理2.代码二、冒泡排序1.原理2.代码三、插入排序算法1.原理2.代码四、快速排序算法1.原理2.代码五、希尔排序1.原理2.代码六、归并排序1.原理2.代码七、桶排序八、基数排序九、堆排序1.原理2.代码十、总结1.算法分类2.性能分析一、二分插入排序首先必须是排好序的数组，然后通过二分查找，找到合适的位置，插入1.原理二分查找算法又叫作折半查找，要求待查找的序列有
Python常考面试题汇总（附答案） TT图图面试职场和发展
写在前面本文面向中高级Python开发，太基本的题目不收录。本文只涉及Python相关的面试题，关于网络、MySQL、算法等其他面试必考题会另外开专题整理。不是单纯的提供答案，抵制八股文！！更希望通过代码演示，原理探究等来深入讲解某一知识点，做到融会贯通。部分演示代码也放在了我的github的该目录下。语言基础篇Python的基本数据类型Python3中有六个标准的数据类型：Number（数字）(
Rust 注释 froginwe11 开发语言
Rust注释引言Rust编程语言以其内存安全、并发支持和高性能等特点在软件开发领域获得了广泛的关注。在Rust编程中，注释是一种非常重要的元素，它不仅可以帮助程序员理解代码，还可以提高代码的可维护性和可读性。本文将详细介绍Rust中的注释类型、语法及其应用场景。一、Rust注释类型Rust中的注释主要分为两种类型：单行注释和多行注释。1.单行注释单行注释用于对代码的某一小部分进行简要说明。其语法格
Scala 简介 froginwe11 开发语言
Scala简介引言Scala是一种多范式编程语言，它结合了面向对象和函数式编程的特性。自从2003年由MartinOdersky教授在EPFL开发以来，Scala已经成为了在Java虚拟机（JVM）上运行的高效编程语言。本文将为您详细介绍Scala的起源、特点、应用场景以及学习资源。Scala的起源与发展起源Scala的灵感来源于多种编程语言，包括Java、C++、Self、Haskell和ML。
Swift 下标脚本 froginwe11 开发语言
Swift下标脚本引言Swift是一种强大的编程语言，广泛应用于iOS、macOS、watchOS和tvOS等平台。在Swift中，下标脚本（Subscript）是一种非常实用的特性，它允许你为结构体（Struct）和类（Class）提供类似数组或字典的下标访问方式。本文将深入探讨Swift下标脚本的使用方法、优势以及注意事项。下标脚本的基本概念在Swift中，下标脚本是一种简化访问集合中元素的方
C# 上位机开发指南：高效学习建议 IT趣编程学习
C#作为一种编程语言，以其强大的功能、易学易用等特点，在工业自动化领域得到了广泛应用。特别是在上位机软件开发中，C#语言在.NET框架的强大生态系统，能够快速构建出高效、稳定的工业控制系统。本文将介绍C#在上位机开发中的应用并提供一些学习建议，希望通过本指南，能够帮助大家更好的学习上位机开发。前言上位机概念基础知识1、C#语言基础2、.NET框架3、桌面应用开发4、设备通信5、数据操作6、多线程和
opencv-python与opencv-contrib-python的区别联系剑心缘零碎小知识 python opencv
opencv-python包含基本的opencvopencv-contrib-python是高配版，带一些收费或者专利的算法，还有一些比较新的算法的高级版本,这些算法稳定之后会加入上面那个。官网对contrib模块的简介（点击链接跳转）参考链接
通信算法之278：数据链/自组网通信设备--MIMO(2T2R)-OFDM系统系列--实际工程应用算法代码--1.系统指标需求及帧结构设计秋风战士无线通信基带处理算法 MATLAB仿真软件无线电算法无人机经验分享
MIMO(2T2R)-OFDM系统系列–实际工程应用算法代码第一章：系统指标需求拆解分析第二章：通信系统帧结构设计和OFDM参数设计第三章：通信业务速率设计及理论解调门限第四章：同步序列设计及同步性能仿真验证第五章：数据业务设计及性能仿真验证第六章：信道模型设计第七章：接收关键算法设计及仿真验证第八章：其它待补充本文目录MIMO(2T2R)-OFDM系统系列--实际工程应用算法代码一、实际项目：系
通信算法之287：通信技术点咨询秋风战士 MATLAB仿真软件无线电无线通信基带处理算法网络算法无人机经验分享
专业技术咨询方向第一：SFBC编码与解码原理推导第二：SFBC系统中信道均衡推导第三：云哨物理层协议-速率匹配-解调门限-5dB第四：两天线SCFDE系统（SFBC码）帧结构设计第五：两天线OFDM系统（SFBC码）帧结构设计第一：SFBC编码与解码原理推导第二：SFBC系统中信道均衡推导第三：云哨物理层协议-速率匹配-解调门限-5dB第四：两天线SCFDE系统（SFBC码）帧结构设计第五：两天线
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
反向传播神经网络极简入门自信哥
单个神经元神经网络是多个“神经元”（感知机）的带权级联，神经网络算法可以提供非线性的复杂模型，它有两个参数：权值矩阵{Wl}和偏置向量{bl}，不同于感知机的单一向量形式，{Wl}是复数个矩阵，{bl}是复数个向量，其中的元素分别属于单个层，而每个层的组成单元，就是神经元。神经元神经网络是由多个“神经元”（感知机）组成的，每个神经元图示如下：这其实就是一个单层感知机，其输入是由和+1组成的向量，其
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【限时干货】Calibre智能分类，轻松突破内网限制畅享电子书库比头发还脆弱服务器 tcp/ip linux
文章目录前言1.网络书库软件下载安装2.网络书库服务器设置3.内网穿透工具设置4.公网使用kindle访问内网私人书库前言本研究旨在构建一套运行于微软操作系统环境下的独立电子图书管理体系，核心目标是建立可远程操作的资源访问机制。该架构采用高可用性设计，在第三方阅读平台服务中断时仍能保障数字内容传输的稳定性。系统创新性地融合了两大核心技术组件：通过Calibre开源软件实现文献分类算法与格式转换功能
Python-selenium爬取藏在歌词里 python selenium 开发语言
selenium前言使用python的requests模块还是存在很大的局限性，例如：只发一次请求；针对ajax动态加载的网页则无法获取数据等等问题。特此，本章节将通过selenium模拟浏览器来完成更高级的爬虫抓取任务。什么是seleniumSelenium是一个用于自动化Web应用程序测试的开源工具集。它提供了一组API和工具，可以与多种编程语言一起使用，如Java、Python、C#等，用于
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
说话人识别python_基于各种分类算法的说话人识别（年龄段识别） weixin_39673184 说话人识别python
基于各种分类算法的语音分类(年龄段识别)概述实习期间作为帮手打杂进行了一段时间的语音识别研究，内容是基于各种分类算法的语音的年龄段识别，总结一下大致框架，基本思想是：获取语料库TIMIT提取数据特征，进行处理MFCC/i-vectorLDA/PLDA/PCA语料提取，基于分类算法进行分类SVM/SVR/GMM/GBDT...用到的工具有HTK(C,shell)/Kaldi(C++,shell)/L
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end