JulieLynn_

2021-09-16

《Federated Learning Challenges, methods, and future directions》翻译

教育学习涉及在远程设备或孤立的数据中心(如移动电话或医院)上培训统计模型，同时保持数据本地化。在异构和潜在的大规模网络中的训练带来了新的挑战，需要从根本上背离大规模机器学习、分布式优化和保护隐私的数据分析的标准方法。在这篇文章中，我们讨论了联合学习的独特特征和挑战，提供了当前方法的广泛概述，并概述了与广泛的研究社区相关的未来工作的几个方向

INTRODUCTION介绍
手机、可穿戴设备和自动驾驶汽车只是每天产生大量数据的现代分布式网络中的一小部分。由于这些设备的计算能力不断增强，再加上对传输私人信息的担忧，将数据存储在本地并将网络计算推到边缘变得越来越有吸引力。边缘计算并不是一个新概念。事实上，跨分布式、低功率设备计算简单查询是一个长达数十年的研究领域，在传感器网络的查询处理、边缘计算和雾计算[6]、[30]的范围内进行了探索。最近的工作也考虑集中训练机器学习模型，但在本地服务和存储它们;例如，这是移动用户建模和个性化[23]中的一种常见方法。然而，随着分布式网络中设备的存储和计算能力的增长，可以利用每个设备上增强的本地资源。此外，传输原始数据的隐私问题要求用户生成的数据保留在本地设备上。这使得人们对联邦学习[31]越来越感兴趣，[31]探索在远程设备上直接培训统计模型。在本文中，设备一词用于描述通信网络中的实体，如节点、客户端、传感器或组织。
正如我们在本文中讨论的，在这种环境下的学习与传统的分布式环境有很大的不同，这需要在隐私、大规模机器学习和分布式优化等领域取得根本性的进步，并在机器学习和系统等不同领域的交叉中提出新的问题。大型公司[5]、[41]已经在实践中部署了联邦学习方法，并在支持隐私敏感应用(训练数据分布在[8]、[19]边缘)方面发挥了关键作用。在下一节中，我们将讨论联合学习的几个典型应用。

【联合学习有可能在不降低用户体验或泄露私人信息的情况下，在智能手机上实现预测功能。】

手机
通过在大量手机中联合学习用户行为，统计模型可以为下一个单词预测[17]等应用程序提供支持。然而，用户可能不愿意分享他们的数据，以保护他们的个人隐私或节省有限的带宽/电池电量的手机。联合学习有可能在不降低用户体验或泄露私人信息的情况下，在智能手机上实现预测功能。图1描述了一个这样的应用程序，我们的目标是在一个大规模移动电话网络中学习基于用户历史文本数据[17]的下一个词预测器。
组织
在联合学习的背景下，组织或机构也可以被视为“设备”。例如，医院是包含大量用于预测医疗保健的患者数据的组织;然而，医院在严格的隐私保护措施下运营，可能会面临法律、行政或伦理方面的限制，要求数据保持本地。对于这些应用[19]来说，联合学习是一个很有前途的解决方案，因为它可以减少隐私泄露，并自然地消除这些限制，以实现不同设备/组织之间的私人学习。
物联网
现代物联网网络，如可穿戴设备、自动驾驶汽车或智能家居，可能包含许多传感器，允许它们实时收集、反应和适应传入的数据。例如，一组自动驾驶汽车可能需要最新的交通、建筑或行人行为模式才能安全运行;然而，由于数据的私密性和每个设备的有限连接性，在这些场景中构建聚合模型可能很困难。联合学习方法可以帮助训练模型，有效地适应这些系统的变化，同时保持用户的隐私。

PROBLEM FORMULATION问题公式化
标准的联邦学习问题涉及从存储在数千万到数百万远程设备上的数据中学习单个全局统计模型。我们的目标是在设备生成的数据在本地存储和处理的约束下学习这个模型，只有中间更新定期与中央服务器通信。目标通常是最小化以下目标函数：

其中m为设备总数， pk>=0且Σkpk=1， Fk为第k个设备的局部目标函数。局部目标函数通常定义为局部数据的经验风险，即
其中nk是局部可用的样本数。用户定义的术语pk指定每个设备的相对影响，两个自然设置为
其中
为样本总数。我们将在整篇文章中引用(1)，但是，正如在下一节中讨论的，我们注意到其他目标或建模方法可能是适当的，这取决于感兴趣的应用。

图1所示。联合学习在移动电话下一个词预测任务中的应用实例。为了保护文本数据的隐私并减少对网络的压力，我们寻求以分布式方式训练预测器，而不是将原始数据发送到中央服务器。在这种设置中，远程设备定期与中央服务器通信，以学习全局模型。在每一轮通信中，选定的手机子集对它们的非同分布用户数据进行本地培训，并将这些本地更新发送到服务器。在合并更新之后，服务器将新的全局模型发送回另一个设备子集。这种迭代训练过程在整个网络中持续进行，直到达到收敛或满足某种停止准则。

CORE CHALLENGE核心的挑战
接下来，我们将描述与解决(1)中提出的分布式优化问题相关的四个核心挑战。这些挑战使联邦设置有别于其他经典问题，如数据中心设置中的分布式学习或传统的私有数据分析。

【设备经常在网络上以高度非同质分布的方式生成和收集数据。】

挑战1:昂贵的沟通Expensive communication
在联邦网络[5]中，通信是一个关键的瓶颈，再加上发送原始数据的隐私问题，使得在每个设备上生成的数据必须保持在本地。事实上，联合网络可能包含大量设备，例如数百万部智能手机，而且由于带宽、能量和功率[46]等资源有限，网络中的通信可能比本地计算慢很多个数量级。为了使模型与联邦网络中的设备生成的数据相匹配，开发一种高效的通信方法是很重要的，这种方法在训练过程中迭代地发送小消息或模型更新，而不是通过网络发送整个数据集。为了进一步减少这种情况下的通信，需要考虑两个关键方面:1)减少通信轮的总数，2)减少每轮传输的信息的大小

挑战2:系统的异构性Systems heterogeneity
由于硬件(CPU和内存)、网络连通性(3G、4G、5G和Wi-Fi)和电源(电池水平)[46]的不同，联邦网络中每个设备的存储、计算和通信能力可能有所不同。此外，网络大小和对每个设备的系统相关限制通常导致一次只有一小部分设备处于活动状态，例如，在一个拥有数百万设备[5]的网络中，有数百个活动设备。由于连接或能量限制[5]，主动设备在给定迭代时退出也并不罕见。这些系统级特征极大地加剧了诸如延迟缓解和容错等挑战。因此，开发的联合学习方法必须1)预期低参与量，2)容忍异构硬件，3)足够健壮，能够在通信网络中丢弃设备。

挑战3:统计学异质性Statistical heterogeneity
设备经常在网络上以高度非同构分布的方式生成和收集数据，例如，在下一个词预测任务的语境中，手机用户使用不同的语言。此外，设备之间的数据点的数量可能有很大的差异，可能存在一个底层统计结构来捕获设备之间的关系及其相关分布[42]。这种数据生成范式违反了在分布式优化中经常使用的独立和同分布(i.i.d)假设，并可能在问题建模、理论分析和解决方案的经验评估方面增加复杂性。的确，虽然(1)的规范联合学习问题旨在学习单个全局模型，但也存在其他选择，如通过多任务学习框架同时学习不同的局部模型(cf.[42])。在这方面，领先的联合学习方法和金属学习[24]也有着密切的联系。多任务和元学习视角都支持个性化或特定于设备的建模，这通常是处理数据统计异质性以实现更好的个性化的更自然的方法。

挑战4:隐私问题Privacy concerns
最后，隐私通常是联合学习应用程序的主要问题。通过共享模型更新，例如梯度信息，而不是原始数据，联邦学习在保护每个设备上生成的数据方面迈出了一步。然而，在整个培训过程中通信模型更新仍然可以向第三方或中央服务器[32]透露敏感信息。尽管最近的一些方法旨在使用安全多方计算(SMC)或差分隐私等工具来增强联邦学习的隐私性，但这些方法往往以降低模型性能或系统效率为代价提供隐私性。理解和平衡这些权衡，无论是理论和经验，是一个相当大的挑战，以实现私人联合学习系统。

Survey of related and current work相关和当前工作的调查
乍一看，联邦学习面临的挑战类似于隐私、大规模机器学习和分布式优化等领域的经典问题。例如，在优化和信号处理社区[28]，[40]，[43]中，已经提出了许多方法来处理昂贵的通信。然而，这些方法通常无法完全处理联邦网络的规模，更不用说系统和统计异质性的挑战了(请参阅本节的讨论)。类似地，尽管隐私是一个重要的方面，设备经常在网络上以高度非同一性分布的方式生成和收集数据。对于许多应用程序,保护隐私的方法联合学习可能是一个挑战,严格维护的统计数据和变化可能更难以实施,由于系统限制每个设备和庞大的网络。在下一节中，我们将更详细地探讨“介绍”部分中提出的挑战，包括对经典成果的讨论，以及最近专门关注联合学习的工作。

【联邦学习中最常用的方法是联邦平均，这是一种基于平均局部随机梯度下降更新的原始问题的方法。】

Communication efficiency通信效率
在开发联合网络的方法时，通信是需要考虑的关键瓶颈。虽然这超出了本文的范围，提供一个自包含的交流高效学习方法的回顾，我们指出了几个大致的方向，我们将其分为1)局部更新方法，2)压缩方案，和3)分散训练。
本地更新Local updating
小批量优化方法，涉及扩展经典随机方法，以一次处理多个数据点，已成为数据中心环境中分布式机器学习的流行范例。然而，在实践中，它们在适应[53]的通信计算权衡方面表现出有限的灵活性，[53]将最大限度地利用分布式数据处理。作为回应，最近提出了几种方法来提高分布式设置中的通信效率，方法是允许在每轮通信时在每台机器上并行地应用一个变量(而不是仅仅在本地计算它们，然后集中应用它们)[44]。这使得计算量相对于通信量更加灵活。对于凸目标，分布式局部更新原元方法已经成为解决这类问题[43]的流行方法。这些方法利用二元结构有效地将全局目标分解为子问题，这些子问题可以在每一轮通信中并行解决。本文还提出了几种分布式局部更新原元方法，这些方法的优点是适用于非凸目标[53]。这些方法在实践中极大地提高了性能，并已被证明比传统的迷你批处理方法或分布式方法(如真实数据中心环境中乘数的交替方向方法)实现了数量级的加速。在图2中，我们直观地展示了局部更新方法。在联邦设置中，允许灵活的本地更新和低客户端参与的优化方法已经成为事实上的解决方案[31]。联邦学习中最常用的方法是联邦平均(FedAvg)[31]，这是一种基于平均局部随机梯度下降(SGD)更新的原始问题方法。FedAvg已经被证明在经验上工作得很好，特别是对于非凸问题，但它没有收敛保证，而且在实际情况下，当数据是异构[25]时，它可能会发散。我们在“非i.i.d的收敛保证”中更详细地讨论了处理这种统计异质性的方法。数据”部分。
压缩方案Compression schemes
虽然局部更新方法可以减少总通信轮数，但模型压缩方案，如稀疏化和量化，可以显著减少每轮通信的消息大小。在以前的数据中心环境中的分布式培训文献中，对这些方法进行了广泛的实证和理论研究。(读者可参考[47]获得更完整的评论。)在联合环境中，设备的低参与度、非同构分布的本地数据和本地更新方案对这些模型压缩方法提出了新的挑战。一些工作在联邦设置中提供了实用的策略，如强制更新模型是稀疏的和低秩的[22]，执行量化的结构化随机旋转[22]，使用有损压缩和dropout来减少服务器到设备的通信[9]。从理论角度来看，尽管之前的工作已经探索了在非同分布数据(如[45])存在时低精度训练的收敛保证，但所作的假设没有考虑联邦设置的共同特征，例如低设备参与或本地更新优化方法。
分散培训Decentralized training
在联合学习中，星型网络[其中一个中央服务器连接到一个设备网络，如图3(a)]是主要的通信拓扑;因此，在本文中，我们将重点关注明星网络的设置。我们简要地讨论分散拓扑[其中设备只与它们的邻居通信，例如，图3(b)]作为一种潜在的替代方案。在数据中心环境中，在低带宽或高延迟网络上操作时，分散式培训已被证明比集中式培训更快。一些研究提出了基于最后期限的方法，即所有工作人员在固定的全局周期内使用可变数量的样本计算局部梯度，这有助于减轻掉线者[16]，[39]的影响。(我们建议读者参阅[18]以获得更全面的评论。)同样，在联合学习中，去中心化算法理论上可以降低中央服务器上的高通信成本。最近的一些工作研究了使用本地更新方案[18]对异构数据进行分散培训。然而，它们要么局限于线性模型[18]，要么假设全设备参与。

【我们指出了几个大致的方向，并将其分为1)局部更新方法，2)压缩方案和3)分散训练。】

图2。(a)分布式(小批量)SGD。每个设备k在本地计算从小批数据点到近似()F wkd的梯度，并将聚合的小批更新应用到服务器上。(b)本地更新计划。每个设备在计算完本地更新后立即应用本地更新，例如梯度，服务器在(潜在的)可变数量的本地更新后执行全局聚合。局部更新方案可以通过在本地执行额外的工作来减少通信。

图3。集中式拓扑与分散式拓扑。在典型的联邦学习设置中，作为本文的重点，我们假设(a)一个星形网络，其中服务器连接到所有远程设备。(b)当与服务器的通信成为瓶颈时，分散式拓扑是一种潜在的选择。

Systems heterogeneity系统的异构性
在联邦设置中，由于设备在硬件、网络连通性和电池功率方面可能有所不同，因此跨网络的系统特性存在显著差异。如图4所示，与典型的数据中心环境相比，这些系统特征使得诸如掉队等问题更加普遍。我们粗略地将用于处理系统异构性的几个关键方向分为1)异步通信、2)主动设备采样和3)容错。正如在“分散训练”一节中提到的，在下一节中给出的讨论中，我们假设一个星型拓扑。

【异步方案是一种很有吸引力的方法，用于缓解异构环境中的掉线现象，特别是在共享内存系统中。】

图4。联合学习中的系统异质性。设备的网络连接方式、功率、硬件等各不相同。此外，在训练过程中，有些设备可能会随时掉下来。因此，联合训练方法必须容忍异构系统环境和设备的低参与度，也就是说，它们必须允许在每轮只有一小部分设备处于活动状态。

异步通信Asynchronous communication
在传统的数据中心设置中，同步(即工作人员等待彼此同步)和异步(即工作人员独立运行而不需要同步)方案都是并行化迭代优化算法的常用方案，每种方法都有优缺点[37]，[53]。同步方案很简单，保证了串行等效的计算模型，但是，在面对设备变异性[53]时，它们也更容易受到掉队的影响。异步方案是一种很有吸引力的方法，用于缓解异构环境中的掉线现象，特别是在共享内存系统[37]中。然而，它们通常依赖于有限延迟假设来控制过时程度[37]。对于设备k，陈旧程度取决于自设备k从中央服务器提取以来已经更新的其他设备的数量。尽管异步参数服务器在分布式数据中心[37]中已经取得了成功，但是经典的有界延迟假设在联邦设置中可能是不现实的，联邦设置中的延迟可能是数小时到数天的顺序，或者完全没有限制。

活跃抽样Active sampling
在联合网络中，通常只有一小部分设备参与每一轮训练;但是，绝大多数联邦方法，例如[5]、[25]和[31]中描述的方法，在某种意义上是被动的，它们的目的不是影响哪些设备参与。另一种方法是在每一轮中积极选择参与设备。例如，Nishio和Y onetani[36]基于系统资源探索新的设备采样策略，目的是让服务器在预定义的时间窗口内聚合尽可能多的设备更新。然而，这些方法假定网络的系统特性是一个静态模型;如何最好地扩展这些方法来处理实时的、设备特定的计算波动和通信延迟仍然是开放的。此外，尽管这些方法主要关注系统的可变性来执行主动采样，但我们注意到，也值得考虑基于底层统计结构对一组小但具有充分代表性的设备进行主动采样。

容错Fault sampling
在系统社区中得到了广泛的研究，它是经典分布式系统的基本考虑因素，包括形式主义，如拜占庭故障[50]。最近的工作还专门研究了数据中心环境中的机器学习工作负载的容错。然而，当通过远程设备进行学习时，容错就变得更加重要了，因为在给定的培训迭代[5]完成之前，一些参与设备通常会在某个点退出。一个实用的策略是简单地忽略此类器件故障，如FedAvg[5]，如果故障器件具有特定的数据特征，则可能会在器件采样方案中引入偏差。例如，来自偏远地区的设备可能会因为网络连接差而更容易掉落，因此经过训练的联邦模型会偏向网络条件较好的设备。
从理论上讲，尽管最近有几项研究对联邦学习方法[52]变体的收敛保证进行了研究，但很少有分析考虑低参与性[25]、[42]或直接研究掉设备[50]的影响。FedProx处理系统异构性的方法是，允许每个选定的设备执行符合底层系统约束的部分工作，并通过最近的术语安全地合并这些部分更新(见“非i.i.d的收敛保证”)。数据”一节以进行更详细的讨论)。编码计算是通过引入算法冗余来容忍设备故障的另一种选择。最近的工作探索了使用代码来加速分布式机器学习训练[11]。例如，在存在杂散点的情况下，梯度编码及其变体[11]在计算节点之间小心地复制数据块(以及这些数据块上的梯度计算)，以获得真实梯度的精确或不精确恢复。尽管对于联邦设置而言，这似乎是一种很有前途的方法，但这些方法在联邦网络中面临着基本的挑战，因为由于隐私限制和网络规模，跨设备共享数据/复制通常是不可行的。

Statistical heterogeneity统计学异质性
在对异构数据建模和分析相关培训过程的收敛行为方面，从跨设备高度非同一性分布的数据培训联合模型时，会遇到挑战。我们将在下一节中讨论相关工作。

建模异构数据Modeling heterogeneous data
在机器学习方面，有大量的文献通过元学习和多任务学习等方法建模统计异质性;这些想法最近被扩展到联邦设置[12]，[14]，[21]。例如，MOCHA[42]，一个为联邦设置设计的优化框架，可以通过为每个设备学习独立但相关的模型来实现个性化，同时通过多任务学习利用共享表示。该方法对所考虑的目标具有可证明的理论收敛性保证，但其可扩展到大规模网络的能力有限，且仅限于凸目标。另一种方法[12]将星型拓扑模型作为贝叶斯网络，并在学习过程中执行变分推理。虽然该方法可以处理非凸函数，但推广到大型联邦网络代价较大。Khodak等人的[21]可以证明利用多任务信息(其中每个任务对应一个设备)来学习任务内的学习率，并证明了比普通FedAvg更好的经验表现。Eichner等人的[14]研究了一种多元化的解决方案(在全局模型和设备特定模型之间进行自适应选择)，以解决联邦训练期间数据样本中的循环模式。尽管最近取得了这些进展，但在开发在联邦设置中健壮、可伸缩和自动化的异构建模方法方面仍然存在关键挑战。
在建模联邦数据时，考虑准确性以外的问题也很重要，比如公平性。特别是，单纯地解决一个总损失函数，如在(1)中，可能会隐含地对某些设备有利或不利，因为学习的模型可能会偏向具有更大数据量的设备，或(如果设备权重相等)，偏向通常发生的设备组。最近的研究提出了改进的建模方法，旨在减少模型性能在设备[19]，[26]，[33]之间的差异。一些启发式方法只是根据设备[19]的本地丢失执行不同数量的本地更新。其他更有原则的方法包括不可知论的联邦学习[33]，它通过极大极小优化方案优化由混合客户端分布形成的任何目标分布的集中模型。Li等人[26]采用了另一种更普遍的方法，该方法提出了一个称为q-FFL的目标，在该目标中，具有较高损耗的器件被赋予较高的相对权重，以减少最终精度分布中的方差。除了公平问题之外，我们注意到，联邦学习中的问责和可解释性等方面也值得探索，但由于网络的规模和异质性，可能具有挑战性。

收敛保证非IID数据Convergence guarantees for non-i.i.d. data
统计异质性在分析联邦环境下的收敛行为方面也提出了新的挑战——即使是在学习单一的全局模型时。事实上，当数据在网络中的设备上不是相同分布时，当选择的设备执行过多的本地更新[25]，[31]时，FedAvg等方法在实践中可能会出现分歧。平行的SGD和相关变异，可以进行类似FedAvg的局部更新，已经在i.i.d.设置[38]，[48]，[53]中进行了分析。然而，结果依赖于每个本地解算器是相同随机过程的副本的前提(由于i.i.d.假设)，这在典型的联邦设置中不是这样。为了了解FedAvg在异质环境下的性能，人们最近提出了feprox[25]。FedProx的核心思想是系统异质性和统计异质性之间存在相互作用。如前所述，由于系统约束而简单地丢弃网络中的掉队者可能会隐式地增加统计异质性。FedProx对FedAvg方法做了一个小小的修改，允许基于底层系统约束跨设备执行部分工作，并利用近端项安全地合并部分工作。它可以被看作是FedAvg的重新参数化，因为调整feprox的近端项与调整FedAvg的局域周期数E是等效的。但是，对受系统条件限制的设备设置E是不现实的。因此，最近的术语有两个好处:1)它通过限制本地更新更接近初始(全局)模型来鼓励更多行为良好的本地更新;2)它安全地合并来自选定设备的部分更新。理论上，FedProx使用不同度量来捕获网络中的统计异质性，并在有界器件不同假设下为凸函数和非凸函数提供收敛保证。收敛分析还包括每个设备在本地执行可变数量的工作的设置。其他一些著作[27]，[52]也推导出了不同假设下异构数据的收敛保证，如凸性[27]或一致有界梯度[52]。还有一些启发式方法旨在处理统计异质性，要么通过共享本地设备数据，要么通过共享一些服务器端代理数据[19]，[20]。然而，这些方法可能是不现实的:除了对网络带宽造成负担外，将本地数据发送到服务器违反了联邦学习的关键隐私假设，并且将全局共享代理数据发送到所有设备需要努力小心地生成或收集这些辅助数据。

【FedProx的核心思想是系统异质性和统计异质性之间存在相互作用。】

Privacy隐私
隐私问题常常促使人们在联邦设置中将原始数据保存在每个设备上;然而，共享其他信息(如作为培训过程一部分的模型更新)也会泄露敏感的用户信息。例如，Carlini等人的[10]证明，人们可以从对用户语言数据进行训练的循环神经网络中提取敏感的文本模式，例如特定的信用卡号码。鉴于人们对隐私保护学习方法越来越感兴趣，在“机器学习中的隐私”一节中，我们首先简要回顾一下在一般(分布式)机器学习环境中增强隐私的工作。然后，我们将在“联邦学习中的隐私”一节中回顾最近专门为联邦设置设计的隐私保护方法。
机器学习中的隐私学习Privacy in machine learning
本文简要回顾了机器学习中保护隐私的三种主要策略，分别是用于通信噪声数据草图的差分隐私策略、用于对加密数据进行操作的同态加密策略以及安全函数评估(SFE)或多方计算策略。在这些不同的隐私方法中，由于其强大的信息理论保障、算法简单和相对较小的系统开销，差异隐私[13]得到了最广泛的应用。简单地说，如果一个输入元素的改变不会导致输出分布有太大的差异，那么随机化机制就是差别私有的;这意味着我们无法得出任何关于在学习过程中是否使用了特定样本的结论。这种样本级隐私可以在许多学习任务中实现。对于基于梯度的学习方法，一种流行的方法是通过在每次迭代时随机扰动中间输出来应用差分隐私。在应用扰动(例如通过二项式噪声[1])之前，通常会裁剪梯度，以绑定每个示例对整体更新的影响。在不同的隐私和模型精度之间存在内在的权衡，因为添加更多的噪声会导致更大的隐私，但可能会显著降低准确性。尽管差异隐私是机器学习中隐私的事实上度量标准，但还有许多其他隐私定义，如k-匿名[15]和d-存在[34]，它们可能适用于不同的学习问题。
除了差分隐私之外，同态加密还可以通过对加密数据进行计算来确保学习过程的安全，尽管它目前已被应用于有限的设置，例如训练线性模型[35]。当用户生成的数据分布到不同的数据所有者时，另一个自然的选择是通过SFE或SMC执行隐私保护学习。生成的协议可以使多方协作地计算一个商定的函数，而不泄露任何一方的输入信息(除了可以从输出推断出来的信息)。因此，SMC虽然不能保证信息的泄露，但可以与差分隐私相结合，实现更强的隐私保障。然而，这些方法可能不适用于大规模机器学习场景，因为它们需要大量额外的通信和计算成本。我们建议有兴趣的读者参阅[7]，以便对基于同态加密和SMC的方法进行更全面的回顾。

【目前旨在提高联邦学习的隐私性的工作，通常建立在以往的经典加密协议如SMC和差分隐私的基础上】

联邦学习中的隐私问题Privacy in federated learning
联邦设置对现有的隐私保护算法提出了新的挑战。除了提供严格的隐私保障外，还必须开发出计算成本低、通信效率高、能容忍丢弃设备的方法——所有这些都不会过度牺牲准确性。尽管在联合学习中存在各种各样的隐私定义，但通常可以将其分为两类:全局隐私和局部隐私。如图5所示，全局隐私要求每一轮生成的模型更新对除中央服务器外的所有不受信任的第三方都是私有的，而本地隐私进一步要求更新对服务器也是私有的。
目前的工作旨在提高联邦学习的隐私性，通常建立在以前的经典加密协议，如SMC[4]和差异隐私[2]，[32]。Bonawitz等人的[4]引入了一个安全的聚合协议来保护个体模型更新。中央服务器不能看到任何本地更新，但仍然可以观察每一轮的精确汇总结果。安全聚合是一种无损的方法，可以保持原有的准确性，并具有很高的隐私保证;然而，由此产生的方法会产生显著的额外通信成本。其他作品将差异隐私应用于联合学习，提供全球差异隐私(如[32]);这些方法有许多超参数，影响通信和准确性，必须谨慎选择。在需要更强的隐私保障的情况下，Bhowmick等人通过限制潜在对手的力量，引入了一个宽松的本地隐私版本。它比全局隐私提供了更强的隐私保障，比严格的局部隐私具有更好的模型性能。Li等人[24]提出了元学习背景下的局部差分私有算法，该算法可以应用于具有个性化的联合学习，同时也提供了凸设置下可证明的学习保证。此外，可以将差分隐私与模型压缩技术相结合，以减少通信，同时获得隐私利益。

【分布式优化中最常被研究的两种通信方案是批量同步方法和异步方法。】

FUTRUE DIRECTION未来发展方向
联合学习是一个积极和持续的研究领域。尽管最近的工作已经开始解决“相关和当前工作调查”部分所讨论的挑战，但仍有一些关键的开放方向有待探索。在本节中，我们将围绕前面讨论的挑战(昂贵的通信、系统异构性、统计异构性和隐私问题)简要概述几个有前景的研究方向，并介绍与联邦设置中的生产和基准测试等问题相关的其他挑战。
极端的通信方案Extreme communication schemes
在联合学习中，有多少交流是必要的，这还有待观察。事实上，众所周知，用于机器学习的优化方法可以容忍精度的缺乏;事实上，这个错误可以帮助泛化[49]。尽管在传统的数据中心设置[29]中已经探索了一次性或分而治之的通信方案，但这些方法在大规模和统计异构网络中的行为尚未得到很好的理解。

沟通减少和帕累托前沿Communication reduction and the Pareto frontier
讨论了联合训练中减少通信的几种方法，如局部更新和模型压缩。理解这些技术是如何相互组合的，并系统地分析每种方法的准确性和沟通之间的权衡是很重要的。特别是，最有用的技术将在帕累托前沿证明改进，即在相同的通信预算下实现比任何其他方法更高的准确性，理想情况下，跨越广泛的通信/准确性分布。对于有效的神经网络推断[3]也进行了类似的综合分析，这对于以有意义的方式比较联合学习的通信减少技术是必要的。

新颖的异步模型Novel models of asynchrony
正如在“异步通信”一节中所讨论的，分布式优化中最常研究的两种通信方案是批量同步方法和异步方法(其中假定延迟是有界的)。这些方案在数据中心设置中更加现实，因为工作节点通常用于处理工作负载，也就是说，它们准备在“推送”上一个任务的结果之后立即从中心节点“拉出”下一个任务。相比之下，在联邦网络中，每个设备通常不是专用于手头的任务的，而且大多数设备在任何给定的迭代中都不是活动的。因此，有必要研究这种更现实的以设备为中心的通信方案的效果，在这种方案中，每个设备都可以决定何时“唤醒”，即从中心节点提取一个新任务并执行一些本地计算。

异构性诊断Heterogeneity diagnostics
最近的一些研究旨在通过指标量化统计异质性，如局部差异(在[25]的联邦学习背景中定义，并在[51]等著作中用于其他目的)。然而，在训练发生之前，这些度量指标在联合网络上很难计算。这些度量标准的重要性激发了以下开放性问题:1)是否存在简单的诊断方法来快速确定联邦网络的异质性水平?2)是否可以开发类似的诊断方法来量化系统相关异质性的数量?3)能否利用现有的或新的异构定义设计新的联合优化方法，提高收敛性，无论是经验上还是理论上?

细粒度的隐私约束Granular privacy constraints
“联邦学习中的隐私”一节中概述的隐私定义涵盖了本地或全球层面上关于网络中所有设备的隐私。然而，在实践中，可能有必要在更细粒度的层面上定义隐私，因为隐私约束可能在不同设备甚至单个设备上的数据点上有所不同。例如，Li等人[24]最近提出了特定于样本(而不是特定于用户)的隐私保证，从而提供了一种较弱形式的隐私，以换取更准确的模型。开发处理混合(特定于设备或特定于样本)隐私限制的方法是未来工作的一个有趣和正在进行的方向。

除了监督学习Beyond supervised learning
值得注意的是，到目前为止讨论的方法都是考虑到监督学习任务而开发的，也就是说，它们假定联邦网络中的所有数据都有标签。实际上，在现实的联邦网络中生成的许多数据可能是未标记或弱标记的。此外，当前的问题可能不是如(1)所述的将模型与数据相匹配，而是执行一些探索性的数据分析，确定总体统计数据，或执行更复杂的任务，如强化学习。要解决联邦网络中监督学习之外的问题，可能需要解决可伸缩性、异构性和隐私方面的类似挑战。

将联合学习投入生产Productionizing federated learning
除了本文讨论的主要挑战之外，在生产环境中运行联合学习还会出现许多实际问题。特别是，必须小心处理概念漂移(当底层数据生成模型随时间变化时)、日变化(当设备在一天或一周的不同时间表现出不同行为时)[14]和冷启动问题(当新设备进入网络时)。我们向读者推荐[5]，它讨论了生产联合学习系统中存在的一些与实际系统相关的问题。

基准Benchmarks
最后，由于联合学习是一个新兴领域，我们正处于塑造该领域发展的关键时刻，必须确保它们基于真实世界的设置、假设和数据集。对于更广泛的研究团体来说，进一步构建现有的基准测试工具和实现(如LEAF[54]和TensorFlow Federated[55])是至关重要的，以促进实证结果的再现和联邦学习新解决方案的传播。

CONCLUSIONS结论
在本文中，我们概述了联合学习，这是一种学习范式，在分布式网络的边缘训练统计模型。我们讨论了与传统的分布式数据中心计算和经典的隐私保护学习相比，联合学习的独特性质和相关挑战。我们提供了对经典结果的广泛调查，以及最近专门关注联邦设置的工作。最后，我们提出了一些有待进一步研究的问题。提供这些问题的解决方案需要广泛的研究团体的跨学科努力。

你可能感兴趣的:(机器学习)

LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
「日拱一码」020 机器学习——数据处理胖达不服输「日拱一码」机器学习人工智能数据处理 python
目录数据清洗缺失值处理删除缺失值：填充缺失值：重复值处理检测重复值处理重复值异常值处理Z-score方法IQR方法（四分位距）数据一致性检查数据转换规范化（归一化）Min-Max归一化MaxAbsScaler标准化离散化等宽离散化等频离散化数据清洗数据清洗是数据处理的第一步，目的是去除噪声数据、处理缺失值和异常值，使数据更加干净、可用缺失值处理删除缺失值：如果数据集中缺失值较少，可以直接删除包含缺
机器学习每周挑战——二手车车辆信息&交易售价数据梦想成为一名机器学习高手机器学习 python 人工智能
这是数据集的截图目录背景描述数据说明车型对照：燃料类型对照：老规矩，第一步先导入用到的库第二步，读入数据：第三步，数据预处理第四步：对数据的分析第五步：模型建立前的准备工作第六步：多元线性回归模型的建立第七步：随机森林模型的建立问题：背景描述本数据爬取自印度最大的二手车交易平台CARS24，包含8000+该平台上交易车辆的关键评估信息。CARS24成立于2015年，总部位于印度古尔冈，是一个在印度
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs