你的莽莽没我的好吃

【论文笔记】A Survey on Federated Learning: The Journey From Centralized to Distributed On-Site...（综述）

我的博客园：https://www.cnblogs.com/MaplesWCT/

A Survey on Federated Learning: The Journey From Centralized to Distributed On-Site Learning and Beyond

Authors	Sawsan AbdulRahman, Hanine Tout, Hakima Ould-Slimane, Azzam Mourad, Chamseddine Talhi, Mohsen Guizani
Keywords	AI; DL; distributed intelligence; FL applications; FL; ML; privacy; resource management; security;
Abstract	在隐私问题和深度学习愿景的驱动下，过去四年见证了机器学习适用机制的范式转变，一种称为联邦学习（FL）的新兴模式正在超越集中式系统和on-site分析。这是一种保护隐私的分散方法，它将原始数据保留在本机并训练本地模型，减轻了数据通信的负担，然后在中心服务器上执行学习和共享模型的联合，以在参与者之间聚合和共享构建的知识。本文首先检查和比较不同的基于ML的部署架构，然后对FL进行深入和广泛的调查。与该领域现有的评论相比，我们在全面分析主要技术挑战和当前相关工作的基础上，对FL课题和研究领域进行了新的分类。在此背景下，我们详细阐述了文献中各种具有挑战性的方面、贡献和趋势，包括核心系统模型和设计、应用领域、隐私和安全以及资源管理。此外，我们还讨论了一些重要的挑战和开放性的研究方向，以实现更强大的FL系统。
Publication	INTERNET OF THINGS JOURNAL 2021
DOI	10.1109/jiot.2020.3030072

1 INTRODUCTION

当今人们通过各种互联设备生产了海量的数据，有了这些数据，AI使我们的生活更高效。随着深度学习的迅速发展，现有的方法继续支持云中心架构，数据被集中储存和处理。除了不可接受的延迟和高代价，数据隐私和安全也是主要问题。

没有严格的隐私考虑，敏感数据很容易遭受泄露、攻击和网络风险。21世纪以来记录在案的最严重的违规行为中，各大公司数以亿计的用户受到影响。在这样的环境下，欧盟出台了GDPR法规（ General Data Protection Regulation），它通过设置规则、限制数据共享和储存来保护个人隐私。

为了按照上述规章制度进一步加强数据保护工作，on-site ML和FL已经发展起来代替集中式系统。

尽管on-site ML将原始数据保留在本地，云端下发ML任务给设备，但是每个设备建立自己的模型，不从其他设备的数据和经验中获益。

因此联邦学习（FL）被引入克服这些问题，同时仍然保护了隐私，还减轻了数据收集的负担。它是一种在训练数据和本地计算处理上分散式的方法。在FL中，原始数据被保留在设备本地，在中心服务器上，只有来自设备本地计算的更新和分析结果被接收，并聚合成一个加强的全局模型，新模型接着为各客户机所共享。

与当前工作相关的现有调查文章概览：

但是文献仍然缺乏对FL核心建模、应用、技术和部署方面的综合调查，于是本文根据不同的分类学提出一个新分类和领域内关键挑战，包括核心系统模型和设计、应用领域、隐私和安全、资源管理。本文主要贡献如下：

详细阐述了基于ML的分析的部署架构的演变，对FL范式在当前研究和行业趋势中的努力和贡献进行了分类，并对FL核心系统模型和设计的关键技术方面进行了深入回顾和透彻分析。我们进一步讨论了为下一代FL解决方案铺平道路的挑战和有趣的开放研究方向。研究方向根据FL领域和主题进行分类，即系统模型和设计、应用领域、隐私和安全以及资源管理。
建立了一个FL应用领域的分类体系，涵盖了迄今为止引入FL方法的所有领域。
确定并分析了FL范式中解决隐私和安全问题的关键贡献。确定并分析了FL范式中解决隐私和安全问题的关键贡献。
我们对为FL设置提出的资源管理机制进行了全面分析，并根据目标函数和考虑的参数对优化方法进行了分类。

2 机器学习架构演变

本部分阐述ML架构的演变，从集中式到分布式on-site到FL。

集中式ML：数据上传到云端，在云端训练模型，用户通过请求API的方式使用模型及服务。

分布式on-site学习：每个设备在本地用自己的数据训练自己的模型，在第一次云端下发初始模型给设备之后，设备不再需要与云通信。

联邦学习：每个设备在本地用自己的数据训练自己的模型，之后将模型参数发给中心服务器做聚合。数据保留在本地，知识通过聚合的模型共享给用户。

2.1 集中式学习

在传统方法下，设备产生的数据不断地上传到云端进行分析，在高性能服务器上能够提取更多的特征，模型能够得到更好的训练。Amazon Web Services、Google Cloud、Microsoft Azure都是可用的ML即服务的提供商，模型可以大规模部署和使用。

但是设备产生的数据可能是非常隐私且多样的，当这些数据云上共享的时候，用户隐私很可能为窃听攻击所妥协。这种云集中方式也产生了其他问题：

延迟。数据可能需要传输几千英里上云。
数据传输代价。将数据移入移出云都需要代价。

2.2 分布式on-site学习

on-site ML中，服务器下发预训练好的或是通用模型给设备，部署好模型后，每个设备在本地用自己的数据训练自己的模型，然后根据自己的模型做一些预测与推理。

这样的方法隐私上的优势很明显，数据从没离开过本地。皮肤病检测、医疗应用、指挥课堂、神经网络辅助服务等已有应用。

但是这种方法下，设备的模型没有从其他设备的数据中获益，没有发挥群体智慧。

2.3 联邦学习

Google在2016年提出了FL。在on-site ML之上，FL也是将训练任务放在设备本地上，但同时将本地模型和学习联合起来。它的主要目标是构建一个面向隐私保护的ML的框架。

3 预备：FL框架及设计

本部分介绍FL流程、产品应用及正式问题声明。

3.1 产品应用及开源框架

FL首先在Gboard（Google为安卓开发的键盘）上测试，FL加强了未来建议功能及与用户的交互，提供了更好的特性（例如下一词预测、词汇补全及修正等）。

FL开源框架有：tensorflow federated（TFF），federated AI technology enabler（FATE），PySyft，PaddleFL，Clara训练框架。

在科研界，图片分类和语言模型是最先广泛应用基于FL框架的领域，为了测试它们的表现，针对手写字符的Modified National Institute of Standards and Technology（MNIST）和针对图片的the Canadian Institute For Advanced Research（CIFAR）是文献实验中最流行的数据集。

3.2 FL生命周期及协议

FL生命周期分为许多连续的通信往来（round），一旦全局模型达到预期准确度则流程完毕。服务器首先生成一个通用模型，每轮（round）重复以下步骤：

服务器选取部分客户机。尽管客户机选择的典型条件是基于设备充电、空闲和未测量的连接状态，但是很少有这方面的工作。
被选中的客户机从服务器下载当前的模型参数并初始化本地模型。
被选中的客户机使用本地数据训练并优化全局模型。在典型的大多数被使用的技术中，客户机采用随机梯度下降算法（SGD）计算更新。受通信带宽限制，每算一个梯度就上传服务器带宽会不够用，所以在一轮（round）中采用mini-batch在本机上多训练几个epoch再上传服务器，这样可以获得更好的模型更新并减少通信代价。
一旦训练完成，客户机将优化后的模型参数发送给服务器。在这个过程中，一些客户机可能会由于连接差、受限的计算资源及大量的训练数据而掉线，因此超出服务器能掌控的客户机的宕机率会被报告，处理继续。如果及时报告的客户机的数量不够，当前轮（round）终止。
服务器在根据客户机的数据集大小对其进行加权后，聚合客户机更新（即联邦平均算法）。新的全局模型诞生，投入下一轮。

$\begin{aligned} & 算法1：Federated\ Averaging算法（FedAvg）。 \\ & K个客户端编号为k；B，E，\eta分别代表本地的minibatch\ size，epochs，学习率learning\ rate \\ & \\ & 服务器执行：\\ & \quad 初始化w_0 \\ & \quad for \ 每轮t=1,2,...,do \\ & \qquad m \leftarrow max(C \cdot K,1) \qquad\qquad //C为比例系数 \\ & \qquad S_t \leftarrow (随机选取m个客户端) \\ & \qquad for \ 每个客户端k \in S_t 同时\ do \\ & \qquad \qquad w^k_{t+1} \leftarrow 客户端更新(k,w_t) \\ & \qquad w_{t+1} \leftarrow \sum^K_{k=1} \frac{n_k}{n} w^k_{t+1} \qquad\qquad //n_k为客户机k上的样本数量，n为所有被选中客户机的总样本数量\\ & \\ & 客户端更新(k,w): \qquad \triangleright 在客户端k上运行 \\ & \quad \beta \leftarrow (将P_k分成若干大小为B的batch) \qquad\qquad //P_k为客户机k上数据点的索引集，P_k大小为n_k \\ & \quad for\ 每个本地的epoch\ i(1\sim E) \ do \\ & \qquad for\ batch\ b \in \beta \ do \\ & \qquad \qquad w \leftarrow w-\eta \triangledown l(w;b) \qquad\qquad //\triangledown 为计算梯度，l(w;b)为损失函数\\ & \quad 返回w给服务器 \end{aligned}$

3.3 问题公式化

FL关注有监督ML，样本 $i$ 特征向量为 $x_i$ ，标签为 $y_i$ ，训练目标是通过最小化损失函数 $f_i(w)$ 来找到模型参数向量 $w$ 。基于ML模型，问题可以是凸的和非凸的。由于FL建立在非凸神经网络上，它的有限和函数优化算法描述如下（整个样本集的平均损失函数值最小）：
$\begin{aligned} \min f(w), \quad \text { where } \quad f(w) &=\frac{1}{n} \sum_{i=1}^{n} f\left(x_{i}, y_{i}, w\right) \\ f(w) &=\frac{1}{n} \sum_{i=1}^{n} f_{i}(w) \end{aligned}$
在FL里客户机的数据从未被组装，所以上式需要修改一下。设 $K$ 个客户机参与学习，每个客户机有 $n_k=|P_k|$ 个样本， $P_k$ 是整个数据集 $P$ 分配给客户机 $k$ 的部分， $P=\cup_{k=1}^{K} P_{k}$ 。因此，代表全局损失的新的损失函数是将每个本地损失 $F_k(w)$ 加权平均（根据各自样本数量加权）：
$f(w)=\sum_{k=1}^{K} \frac{n_{k}}{n} F_{k}(w), \quad \text { where } \quad F_{k}(w)=\frac{1}{n_{k}} \sum_{i \in P_{k}} f_{i}(w)$

4 FL技术挑战及研究领域：新的分类

本部分讨论FL技术挑战并对主要研究领域进行新分类。

为什么FL区别于传统分布式学习环境：

非独立同分布数据（Nonindependent and Nonidentically Distributed，Non-IID）：每个客户机根据自己的使用情况生成自己的数据集，数据是本地的、分散的，其他客户端看不到，这使得每个设备的数据不具有代表性，在总体中分布不一致。
不平衡数据：设备不同使用方式、客户机本地环境和客户机之间不交流导致了客户机之间训练数据量差异很大。
大规模分布式数据：FL的参与者可以达到几百万，从移动手机到物联网设备、组织机构、交通工具等。参与者的数量预计比每个参与者的平均样本数量还要大得多。
不可靠的设备连接：在大多数时候，客户机处于低速、受限、昂贵和不可用的连接下，这大大降低了可用客户机数量。此外，由于不同的计算能力，许多可用客户机无法每轮都参与学习。
受限的设备存储：通常在移动设备，特别是在物联网设备中，可用的存储预算通常是受限的。另外，随着batch size提升，内存占用也会提升。这不仅会导致设备在训练阶段掉线，也会迫使设备采用小batch训练简单模型。
投毒攻击：客户机匿名可能会使一名攻击者被选中参与FL训练，因此，攻击者可以在训练阶段通过提供有毒数据来利用这一优势，同时使模型产生偏离。

FL问题研究主要分为四类：

系统模型及设计
应用领域
隐私与安全
资源管理

5 FL系统模型及设计

FL系统模型及设计的努力与贡献可以分为五个主要领域：通信代价、客户机选择、优化与聚合算法、Non-IID、激励措施。

5.1 通信代价

[32]提议研究两种方法。一种是结构化更新，通过提出两种类型：低位掩码和随机掩码，为更新施加一个预定义的结构。低秩将模型参数分为两个矩阵，其中一个是固定的，另外一个发送到云。另一方面，随机掩码可以以只发送非零值而不是整个条目的方式生成矩阵结构；第二种方法是草图更新，它要求更新完整模型，有损压缩后发给服务器。
[43]致力于减小服务器与客户机生成的模型大小。首先，采用federated dropout技术生成一个有较少参数的较小的子模型，然后服务器对生成模型进行有损压缩后发送给客户机。客户机解压缩后开始训练，训练后有损压缩后发送给服务器，服务器解压后做聚合。
[44]采用over-the-air计算法则提出了更快的聚合模型。
[45]致力于满足FL的以下需求：允许上下游压缩、使模型在小batch及不平衡的非独立同分布数据下变得鲁棒、可以掌控大量参与学习的客户机。
[46]提出了一个加强的FL框架，不仅降低了通信代价（采用异步策略），也提升了模型准确度（考虑到前几轮训练模型成果而非只考虑本轮训练）。
[47]采用双流模型。
[48]应用在讲话场景中的唤醒语检测（“Hey Siri”），用Adam-based adaptive averaging策略代替标准的FedAvg算法。
[49]提出一个通信减负FL方案（CMFL），解决FL通信负担瓶颈。

我们天真地以为只要恪守FL协议就能完整地传输模型，然而事实并非如此，通信负担成为了FL的一个瓶颈，连通性成为一个大问题，特别是当上行链路比下行链路网络连通更差的时候。

5.2 客户机选择

客户机选择的典型条件是基于设备充电、空闲和连接到未测量网络（例如WIFI）。然而，在处理通信和计算资源方面异构的客户机时，仅依赖这些标准会带来许多缺点，例如训练时间长。

[41]讨论了客户机的不同特征，这些特征会影响整个训练过程的效率。该提案由一个新的FL协议FEDC组成，确定了能够在特定期限内完成下载、更新和上传模型的FL步骤的客户端子集。
在[42]中，除了资源调度算法之外，这项工作还扩展到了客户机选择方面。在前者中，选择两组客户机，一组更新模型，另一组通过提供一些激励将自己的数据上传到服务器。服务器首先使用基于IID的原始数据更新模型，然后使用聚合模型进行更新。此外，利用一些验证数据对模型性能进行了测量。

当随机选取参与FL的客户机时，模型训练到部署将会依赖于客户机的表现。

5.3 优化与聚合算法

[3]选取了FedAvg算法并经过广泛评估证明该方法可以被实际应用。
[51]讨论了现存FL算法的不足，不能满足以下FL需求：大规模分布数据点、Non-IID、不平衡数据。据此提出了联邦随机方差减少梯度，仅经过几轮迭代收敛到最优分类准确度。
[53]除了集中优化之外，他们对FedAvg、FSVRG、CO-OP三种算法进行了基准测试，以比较它们的性能，结果表明FedAvg比其他算法表现更优。至于集中式优化，它在Non-IID划分中的性能优于FedAvg，但两者的性能在IID方式下相似。
[54]表明原生FL在最小化损失的时候完全依赖于数据的均匀分布，然而，这使模型偏向于特定的客户，使得FL系统不够完善。因此，作者提出了一个不可知FL框架，当出现任何客户机分布组合时，该框架会优化聚合模型。作者还提出了一种新的快速随机优化方法来解决上述问题。
[55]强调了在FL中，为了提高模型的准确性，需要进行多轮的通信，这会导致无法忍受的延迟和网络饱和。为了减少所需的通信轮数，通过部署移动边缘服务器作为客户机和云端之间的中介，提出了一种分层联邦平均算法。提议的解决方案最初在边缘服务器上进行多个本地聚合，以便在稍后阶段将客户端模型发送到云端进行全局聚合。
[56]中，中央服务器和客户端之间的大量通信轮被替换为一轮，以克服FL中通信的关键瓶颈。
[57]选择了一组关于客户机的标准，作为每个客户贡献的基础。接下来，为这些标准分配优先级，并对参数聚合使用在线调整。

FL里通信比计算代价更大，实现可以在不给主干网络造成负担的情况下以快速收敛的方式最大限度地减少轮数的优化和聚合算法至关重要。

5.4 Non-IID数据

非独立同分布的数据会使模型产生偏差，特别是在使用SGD训练的时候。

[58]解决了倾斜Non-IID数据下准确性降低的问题。这意味着每个客户机设备只能根据自己的行为训练一个单独的类。方案旨在通过与所有参与的客户共享一组包含类（标签）均匀分布的小数据来提高准确性水平。除了共享数据之外，每个客户机还使用其本地私有数据来构建ML模型。
[42]通过提出混合FL解决了FL中的Non-IID问题。后者为客户提供了一些激励措施，鼓励他们将数据上传到服务器。
[59]首先指出，当在分布式的节点上执行FL时，FL面临两个挑战，即统计和系统。当需要从不同节点生成的Non-IID分布式数据中学习模型时，会出现统计挑战。在系统挑战方面，由于贡献的设备在通信、存储和计算方面具有不平衡的数据和不同的容量，这导致了一些容错和掉队。作者证明了多任务学习可以解决统计问题，还提出了新的优化方法MOCHA应对系统挑战。

在高倾斜Non-IID数据下使用FedAvg时，CNN准确度大大降低。基本上，在FL中部署DNN依赖于SGD。后者训练数据应代表整个样本分布，以免在梯度估计中产生偏差。虽然这种属性基于IID数据分布，但FL遵循非IID方式，因为独立客户机根据自己的行为和使用情况生成数据，因此实现最初的FedAvg算法并没有保证性能。

5.5 激励

虽然现存的方法关注优化FL的方方面面，但是很少在意客户机不情愿参与训练或者选择了模型更新质量低的客户机的情况。

[61]得出，一些被服务器选择的、算力和通信能力受限的客户机不愿意浪费自己的资源。作者解决该问题通过基于合同理论设计一个激励机制鼓励用户在FL中做贡献。训练模型的数据质量越高，准确度越高，模型迭代次数越少。因此，客户机数据质量越高，得到的奖励越多。
[62]提出一种基于荣誉的可靠工作者的选择方法，为了选出有着高准确度和高效的训练数据的客户机，采用一种依靠于客户机以往的同其他FL服务交互及行为的客观的逻辑模型去评估“荣誉”。

经典的FL基于被选中的客户机总是可用的并且随时可以开始学习的假设，然而现实场景并非如此，相当数量的设备极可能在处理过程中掉线，甚至由于资源代价和限制拒绝参与学习。为了更快收敛全局模型，激励有着高质量数据的客户机是非常需要的。

6 FL应用领域

本部分为FL应用领域做一个新的分类。

6.1 Gboard应用

FL最初在Gboard（Google虚拟键盘）上使用，[4]改善了Gboard的搜索建议。为了验证参与FL的资格，客户机需要满足不同的需求，包括环境需求（设备规格、语言限制）及其他服务器声明的限制（参与学习的客户机的目标数量、每轮学习最小客户机数量、训练频率、等待接收模型更新的时间阈值、为了进行一轮必须报告的客户机比例）。

评估表明，晚上训练样本较多，白天损失较大。对实时部署的观察进一步显示，实际的查询点击率与预期的查询点击率相比有时略有下降。

Gboard也在[5]中使用FL为了训练一个更复杂的神经网络模型，证明了比在集中式数据上训练的模型有更好的表现。

[63]证明了RNN在Gboard上通过FL预测emoji（表情）的能力。
[64]改编了FL，更精确地联合基于字符的RNN学习字典之外的词汇（OOV）。

6.2 健康关怀

[10]提出了一种策略叫FADL，神经网络第一层使用所有数据以联邦的方式训练，其他层用各自数据本地训练。
[11]提出了一种基于集群的FL算法预测死亡与住院时间。基于通常的医疗方面在医院内部将电子健康记录聚类成簇（集群），每个集群内部进行学习和共享。
[65]中，FL也被用来预测心脏病患者的住院情况。考虑了两种情况，第一种是半集中的场景，其中每个代理/数据源持有多个样本，而第二种是完全分散的场景，其中每个代理持有一个样本。
[66]在医疗网络物理系统领域设计了一个基于FL的入侵检测系统。为了提供高性能模型，对具有相似特征的同质患者进行聚类，每个聚类创建其个性化的局部和全局模型。
[67]提出了可穿戴医疗设备的联邦迁移学习方法。
[68]中提出了一个FL框架，用于生物医学数据的分析。本研究分别使用局部任务的特征选择和交替方向乘数法和聚集法，研究神经系统疾病等多种疾病中的亚顺序脑改变。
[69]和[70]在考虑FL的同时，专注于用于脑肿瘤分割的医学图像预测。他们的解决方案允许多个机构通过共享本地计算模型进行协作。
[71]中，FL还用于对从各种设备收集的脑电图（EEG）信号进行分类。

6.3 物联网（IoT）系统

为了限制大规模物联网设备的漏洞，FL被应用在了物联网系统上。由于设备上密集的计算负载，边缘计算被设想去支持和卸载从物联网到边缘节点之间的任务。

[72]提出了一种基于物联网异常检测的入侵检测系统。不同的安全网关，每个网关监控一种特定设备类型的流量，在本地训练封闭的循环单元模型，并将其发送给物联网安全服务进行聚合。这样的系统可以在没有用户干预的情况下工作，并且能够检测到新的攻击。
[8]提出了一种针对资源受限设备的轻量级学习模型。首先，提出的解决方案在设备级应用高斯随机投影，以模糊训练数据。接下来，对于没有足够计算资源进行训练的参与设备，由协调器接管。
[9]考虑到边缘级别的代理数据与存储在物联网设备上的数据相关性较小。因此，后者负责训练模型，而边缘节点执行更新聚合。
[73]中考虑了许多方面，以实现物联网的完全安全FL方法。

6.4 其他应用领域

首先，FL已经被应用于边缘系统，同时在[74]中整合了深度强化学习。
[75]利用FL动态分配资源块，并为可能处于常规或报警模式的机器类型设备传输功率。
[12]中应用了机器人中的联邦强化学习。这项工作使机器人能够融合和转移他们的学习经验，以便快速适应新的环境设置。
[76]提出了一种基于强化学习的FL方法，旨在通过代理之间共享有限的加密信息来学习代理的Q网络策略。
[77]引入了一种自适应方法来确定局部模型更新和全局聚合参数之间的权衡，该方法能够在客户端资源约束下最小化学习损失。
[78]提出了一种针对FL设置的协同过滤方法。这项工作生成了一个推荐系统，根据其他客户的反馈为用户个性化推荐。
[79]将FL用于异常检测。
[80]选择将FL应用于在线零售业务活动。
[18]在无线通信中保护了数据的隐私。在介绍了FL及其显著特征后，作者讨论了该领域的几种可能应用，同时主要关注边缘、频谱管理和5G核心网络中的内容兑现和数据计算。
[81]分析了驾驶员行为指标，以预测电动汽车在电池和相关附件方面的故障。

6.5 总结

在IoT中，第一个挑战是所有IoT系统级特点，例如1）设备在硬件、连接、功率方面的异构性；2）网络规模及每台设备的限制（影响它们在 FL 过程中活动的能力，使包括掉队者和容错在内的障碍比其他环境（如数据中心）更加普遍）。另外，通信应当高效，因为在这样的环境中通信是很昂贵的。
虽然基于强化学习的FL方案可以融合学习经验并在新环境中将其迁移到导航上，使得允许FL的机器人导航可以处理多样的输入输出维度，给机器人系统提供了广泛的帮助，但这仍然是一个开放性挑战。
虽然FL证明了在推荐系统中保护隐私的能力，但在该领域仍然有许多挑战。首先，处理在线学习以对系统进行基准测试，换句话说，分析有着来自客户端的连续异步更新的现实生活系统。另外，在这样的系统中，处理分析通信能力和效率的方法是一个挑战。保护推荐系统学习模型免受攻击和威胁的技术也是一个挑战。
对于网络安全而言，在将权重更新存储在区块链上之前，提出一种聚合算法来应对所有硬件异构性、不可靠连接和间歇性连接的节点，以缓解投毒攻击，仍然是一项挑战。
无线通信中的一个重要挑战是模型的鲁棒性，其中任何通信带宽、噪声、干扰和其他方面都是可能加剧信道瓶颈的因素。此外，收敛时间是另一个相当大的挑战，它不仅取决于本地节点和集中式聚合器，而且还取决于它们之间的通信信道的质量，在优化更新交换频率和聚合频率时应考虑这一点。最后，聚合器和任何本地学习者之间的无线信道质量会影响训练过程，这是一个更具挑战性的问题。

7 隐私和安全

尽管FL的首要问题是通过防止数据共享来实现严格的隐私保护，但与隐私和安全相关的新挑战已经出现。最近所做的努力已经清楚地证明，模型更新的传输仍然可以披露有关客户端的敏感信息[19]，[97]，甚至更糟的是，可能会引发安全问题[98]。在本节中，我们将概述解决这些问题的相关方法。

7.1 隐私

现有隐私保护算法仍然会使用户隐私遭受风险。如[99]所示，FL中的攻击者可能会从客户机的训练数据中泄露信息。作者表示，恶意客户机能够推断训练集中是否存在确切的数据点，例如特定位置。此外，作者还研究了如何从参与的客户数据中推断属性。因此，保护FL模型需要严格的隐私保障。由于参与者可以在整个过程中自由加入和退出一轮沟通，FL环境会导致许多角色产生各种威胁模型和漏洞。

FL系统中不同的恶意角色（如上图所示）：

恶意服务器：潜在的恶意服务器不仅可以检查模型更新，还会篡改模型。
内部对手：会有恶意的客户机参与学习。
外部对手：在信任的客户机于服务器之间通信更新的时候，信道中会有窃听者出现。

鉴于这些威胁，最近的提议被推进以防止数据泄露。[98]调查了FL系统中的隐私与安全相关问题，首先，除了在整个FL框架上应用安全性，还讨论了在客户和服务器侧着手的几种保护方案。接着，隐私与安全问题被分类为收敛、数据中毒、拓展规模和模型聚合，对于每种分类，一些实验与可能的方案被提出以构建一个隐私保护的FL系统。另一方面，其他研究人员已经使用了不同的隐私技术（如下图所示），主要属于加密协议和差分隐私（DP）的范畴下。

差分隐私（Differential Privacy，DP）：通过注入一些噪声来掩盖客户对模型参数的影响[97]。

[101]介绍了一种算法，旨在使用DP解决数据泄漏问题。在所提出的算法中，使用了两种方法：1）随机子采样，其中在每一轮通信中，服务器选择一个随机的客户端子集与之共享全局模型；2）应用高斯技术来扭曲聚合的更新，但确保这不会超过一定的限制，因为它将添加影响学习过程准确性的不希望的噪声。
[102]中提出了联邦平均算法的新版本，其中Moments Accountant用于满足用户级隐私。
[103]将DP机制应用于医疗应用。在真实世界的健康数据集上进行了实验，结果表明，在没有DP的情况下，FL的性能接近集中式系统。此外，在应用DP时，尽管增加了隐私级别，但是所研究的医疗保健应用程序产生了重大损失。这将促使研究人员考虑未来基于DP的系统的应用。

安全多方计算（Secure Multiparty Computation，SMC）：它是密码学协议的一个子领域，目的是当多方在其私人输入上联合执行任意功能时，只显示输出。

[104]中的一项研究使用SMC构建FL系统。所提出的协议考虑秘密共享，在密钥共享过程中添加新的回合（round）、保护恶意服务器的双掩蔽回合、有效交换秘密的密钥协议以及最小化信任的服务器中介密钥协议。

同态加密（Homomorphic Encryption，HE）：它是一种通过直接在密文上做计算来保护客户机数据的加密形式[105]。

[106]在使用HE时提出SecureBoost（一种用于保护隐私的无损树增强系统）。本文的创新之处在于多个参与方的协作模型，这些参与方的数据是垂直分区的，而不是水平分区的。
[107]使用HE为私有FL处理垂直划分的数据。具体来说，在跨特征空间中，逻辑回归使用Paillier加密进行私密联合。此外，还分析了影响学习过程的实体解析错误。

混合协议（Hybrid Protocols）：使用组合技术来更好地保护原始数据。

[108]提出了联邦迁移学习，以构建隐私保护的FL框架。为了尽量减少对神经网络结构的调整，这种方法使用了HE到多方计算的方法。
[109]中，隐私保护FL系统是使用跨异构特征空间的转移学习构建的。该方法在HE和秘密共享设置下提供，包括以下步骤：1）安全域适配；2）安全特征映射；3）安全FL；4）安全模型集成；5）局部模型推理。
[110]中的工作强调了计算多方聚合的需要，在这种情况下，所有参与者都不会透露其更新，不仅是在彼此之间，也不会向聚合器透露。
[111]提出以混合方法实现DP和SMC。实验表明，该方法能够训练决策树、SVM和CNN模型。

其他技术：

[112]构建了一个系统来对抗投毒攻击。在模型被提取和聚合之后，所提出的方法允许共享黑盒环境下构建的模型的知识。
[113]旨在检测诱发型攻击（对手喂给分类器恶意活动以干扰最终模型）。
[114]允许客户机对神经网络参数编码和压缩，服务器解码它们以聚合，形成了一个端到端的加密模式。

7.2 安全

除了针对用户隐私的恶意角色，在其他类型的攻击和可能的漏洞下，FL系统也是很脆弱的。后者通常是用户不经意间造成的，例如训练混乱的数据、嘈杂的标签等。另一方面，对手会有意伤害模型表现。下图描绘的是敌对攻击者可能做的两种攻击类型：数据投毒和模型更新投毒。

数据投毒（Data Poisoning）：在FL学习的过程中，一个或多个客户机在正确地参与一或多轮学习之后可能恶意作为，给联合模型投毒。这样的敌人可以通过clean-label和dirty-label攻击操纵训练阶段，其中dirty-label攻击允许用一个不相关命不中的标签替换原有标签，而clean-label攻击看起来无害，因为它注入了有毒数据，导致模型本身在没有攻击者对标签进行任何控制的情况下被干扰。

label-flipping是dirty-label攻击的一个特例，在[115]中已被证明是FL漏洞之一。根据已进行的实验，可以清楚地证明，仅仅两个恶意sybils即可使最终模型受到严重影响。作者还表明，ML中现有的防御不适用于FL环境，尤其是基于sybil的攻击。因此，他们提出了一种基于客户机贡献相似性的新解决方案来防止此类攻击。使用上述DP技术可以缓解此类攻击。

模型更新投毒（Model Update Poisoning）：与往训练集中注入恶意数据的方式不同，模型更新投毒攻击试图通过欺骗本地模型直接破坏全局模型。与数据投毒攻击相比，模型更新投毒攻击看起来不那么自然，但更有效。

如[116]和[117]所示，入侵者可以单独行动，也可以与其他共谋参与者一起行动。此外，[116]通过证明参与FL步骤的任何客户机都可以在共享的全局模型中呈现隐藏的后门（backdoor）功能，将秘密后门引入到全局模型中。它们表明，一个攻击者的单次攻击足以在后门任务上实现100%的准确率。在他们对单词预测任务进行的实验中，8万名参与者中有8人被认为是恶意的，与数据中毒攻击中的400名入侵者相比，他们能够在后门上实现50%的准确率。

防御投毒攻击：为了保护系统免受投毒攻击，已经提出一些方法。

[118]中，区块链取代了vanilla FL中中心协调员的支持，本地模型在区块链网络中共享和验证，同时为客户提供奖励。在这项工作中，学习过程的整体延迟被规范化并最小化。
[119]在物联网环境中提出了一种安全的数据协作系统。为了保证数据的私密性和安全性，在FL的设置下，利用区块链范式建立了高效的数据访问控制，保证了大规模分布式数据计算的安全协作。
[105]考虑了这样一种情况：一个客户机有问题要解决，一些客户机持有适当的数据，而另一些客户机拥有具有足够计算资源的设备。针对这种情况，提出了一种加密方案，初始客户机创建公钥和私钥，并对模型参数进行加密。然后，适当的客户机协作利用提供的资源和私有加密数据，以便成功地训练模型。区块链技术和数据完整性也被用于提议的方法中，以实现更稳健的FL解决方案。

7.3 总结

FL的主要思想是将ML模型引入数据源，以避免将数据引入模型，从而保证数据隐私。目前关于FL安全和隐私的工作提出了无损方法，并证明了它们的有效性，同时保留了原始的准确性。然而，其中一些技术带来了巨大的额外通信成本，而其他方法包含了一系列超参数，这些超参数不仅会影响准确性，还会影响通信。此外，压缩技术和DP之间的融合将带来更大的好处。此外，安全和隐私约束可能会从一个设备转移到另一个设备，甚至可能跨越单个设备上的数据片段，这是一个挑战。因此，从这样的角度来看，可以解决各种特定样本数据和特定设备边界的新技术看起来很有希望。

8 资源管理

FL应用于动态环境中，在动态环境中，客户端拥有受限的资源设备，并通过带宽受限的网络进行通信，其中一些设备可以共享相同的链路。因此，许多贡献一直以来关注资源管理以做出有关客户机选择、超参数学习、训练轮的次数与持续时间、聚合策略的最佳决定。在这样的环境下，假设以下指标（如下图所示）子集的可用性/可预测性，各种优化问题被定义和解决。

客户机可靠性：资源（CPU，电量），定位追踪（GPS定位），本地训练时间，更新参数的质量（准确度，损失）。一些相关工作在每轮学习中假设这些指标“实际”值的可用性，而其他人采用各种方法“预测”这些值。
网络连接质量：上行链路/下行链路带宽（已经可用的或可能分配的）。
中心聚合服务器：聚合时间，全局模型准确度，损失。

文献针对各种目标提出了优化方法，包括全局模型（准确度、损失）收敛时间、客户机消耗资源、无线连接使用。在这方面，我们提供了下表所示的FL资源管理方法的分类。

主要的优化问题：

[120]通过联合优化本地训练batchsize和无线资源分配，解决了加速DNN训练任务的问题。
[77]在考虑Non-IID数据分布的情况下，对FL的收敛边界进行了分析。此外，他们提出了一种控制算法，在有限的资源预算下，在最小化损失函数的同时，实现局部更新和全局聚合之间的预期权衡。
[121]将客户选择问题描述为一个在线时变非线性整数规划，该规划将计算和通信资源的总累积使用量降至最低，分别取决于服务器容量以及每个设备和服务器上本地和聚合模型的长期收敛要求。

无线网络相关方法：

[122]提出了无线网络上的FL问题，该问题包含以下权衡：1）通过采用Pareto效率模型，权衡学习时间与客户机能耗；2）通过计算最佳学习精度，权衡计算与通信学习时间。
[123]通过制定一个联合带宽分配和调度问题来最小化训练时间，并达到所需的模型精度，从而最大化FL训练相对于时间的收敛速度。
[124]将联合学习、无线资源分配和客户选择问题描述为最小化FL损失函数的优化问题。提出了一个封闭形式的表达式来量化无线因素对FL收敛速度的影响。他们使用匈牙利算法来寻找最佳的用户选择和资源分配，以最小化FL损失函数。
[125]提出了一种通过无线网络实现自组织FL的方法。他们采用启发式算法来最小化全局FL时间，同时考虑局部能耗和资源块。
[126]提出了一个分析和描述FL性能的模型。考虑到调度方案和小区间干扰的影响，推导了FL收敛速度的可处理表达式。此外，他们还研究了随机调度、循环调度和比例公平调度策略的有效性（收敛速度）。

从所研究的贡献中，我们可以看到，在移动和无线网络环境下，FL管理的主要挑战是在参与的客户端之间最佳地共享带宽。至于管理能量完善，其基础是：1）减少模型参数更新的传输，2）优化局部模型训练。前一种策略是有效的，后一种策略受到无线设备及其其他计算任务的异构性的限制。

包含客户模型参数的方法：最近，一些研究人员开始研究在FL通信轮（round）中由模型改进机会指导的调度技术。

[127]设计了调度策略，用于根据信道条件和本地模型更新的重要性来决定处理每轮传输的设备子集。实验结果表明，与仅基于这两个指标之一的调度相比，该方法具有更好的长期性能。
[128]的贡献为客户端共享公共无线链路的无线网络中的资源分配提供了一个长期的视角。该方法基于实验观察，表明在最初的学习轮中选择较少的客户，并逐渐增加这个数量，是对学习绩效影响最大的策略。作者提出了一个随机优化问题，用于选择客户端和分配带宽，同时考虑长期客户端能量限制。这一贡献的一个关键设计元素是利用Lyapunov技术，为每个客户机构建一个虚拟能量不足队列。
[129]提出了一种基于分层的FL（TiFL）系统，该系统根据客户机的训练表现将客户机分为多个层次，同时应用基于分层的自适应客户机选择。
[130]提出了一种调度策略，以利用多用户信道的多样性和边缘设备学习更新重要性的多样性（通过梯度散度测量）。他们提出了一种新的概率调度框架，以产生无偏的更新聚合。
[131]提出了一种主动算法，该算法基于对移动客户端未来训练和报告质量的预测来选择移动客户机。所采用的方法包括两个主要部分：1）预测用户的移动轨迹模式及其智能手机的应用程序使用习惯；2）基于深度强化学习的客户机选择算法，处理大都市MEC（边缘云）环境中发生的意外动态事件。

虽然考虑到客户机模型更新的质量对于提高FL管理技术的效率非常有希望，但这些方法面临着许多挑战。首先，通信的模型参数和实际的本地训练活动之间没有可追溯性。第二，识别（Non-IID）数据的情况非常困难。最后，不能保证在前几轮中提供良好参数的客户在未来几轮中会提供相同质量的参数。

基于卸载（Offloading-Based）的方法：一个有趣的方向是卸载到边缘结点与分层组织。

此”卸载“非彼”卸载“，这里offload是指将任务”卸货“到某些地方，并非是指将应用程序卸载。

[132]介绍了一种分层联邦边缘学习框架，其中模型聚合部分从云端卸载到边缘服务器。提出并解决了一个联合计算和通信资源分配及边缘关联问题。在优化收敛时间和资源消耗时，考虑了带宽、时间和电量约束。
[133]提出了一种针对异构蜂窝网络的方法。FL由小型基站在其小区内的移动用户之间协调，这些基站定期将模型更新传达给宏基站，以获得全局共识。他们的方法通过联合稀疏化和周期平均以及最小化端到端延迟的资源分配策略来确保高效通信。

虽然呼吁FL计算卸载，但这些方法在移动设备（主要是智能手机）环境中的适用性有限，在移动设备中几乎不可能组织设备。然而，在无线传感器网络中，这些方法预计会对FL的采用产生重大影响，在无线传感器网络中，大多数传感器设备都有严重的资源限制，并且通常围绕更强大的边缘设备组织在一个层次中。

总结：现有方法的主要目标是在优化资源消耗的同时达到最好的全局学习效果（最小化损失并/或最大化准确度）。然而，这些方法的效率取决于客户机在通信所需的指标（CPU，时间等）时是否诚信，或者取决于预测算法的可靠性。另外，一个中心服务器没有对于用于训练客户机本地模型的数据的数量和质量的核查机会，这解释了为什么少有方法（[127] [129]）考虑客户机模型参数的质量。事实上，中央服务器无法控制相关客户端的资源监控工具。无线网络带宽是唯一动态分配给客户端并由现有方法管理的资源，前提是调度实体位于网络节点（如基站）处。

9 研究方向

本部分给出一些挑战与未来方向。

9.1 核心系统模型及设计

该类别涵盖FL的不同技术方面，包括使用的ML算法、优化和聚合机制、模型通信技术、部署模型和数据分布，以及采用的框架等。在这方面，基线聚合算法、联邦平均算法都已发展到了只考虑数据集大小去做聚合和加权更新的模型。然而，这种算法的收敛性取决于应用，更复杂的方法值得研究。新方法可以在减少通信次数的情况下达到预期的精度，从而降低通信成本。此外，在FL实现中高度鼓励使用神经网络以外的算法。这种模型尺寸较小的算法也有助于最小化通信和计算成本。尽管在这方面提出了一些令人鼓舞的方法，但仍有很大的工作空间。更进一步的，FL另一基本方面是客户机的选择，通常，从一轮到另一轮（round），不同客户机集被选择。当选择涉及资源有限的一些客户机时，例如物联网设备，客户机不仅需要更长的处理时间，而且可能无法完成训练任务，从而影响模型的准确性。因此，随机选择客户端会导致客户端发送的更新数量减少，因此一些FL轮将被丢弃[31]。因此，需要更多的努力来优化FL客户机选择，同时考虑网络特性和为训练模型而选择的设备的生存能力。

9.2 应用领域

更广泛的努力和贡献是针对应用领域的，其中医疗保健和物联网系统是最广泛的目标领域。在另一个方向上，在边缘FL中，以最小的学习开销证明了良好的性能效率，但在这方面仍需要考虑一些挑战。首先，为优化学习计算任务而制定定制技术仍然是一项挑战。此外，无论是在边缘节点还是移动设备上，都需要协作人工智能任务的调度方法。

此外，自主车辆和无人机（UAV）是很有前景的领域，可能有很多有用的应用，例如出租车、食品配送、医疗配送、虚拟现实应用、检查、公共安全、事故报告、交通监控等。无人机应用分为三类[134]：1）配送系统；2）实时多媒体流媒体；3）智能交通系统，每个系统都面临许多无线和安全挑战。为了解决后者，[134]在没有提供完整框架的情况下，为第一类和第三类引入了基于FL的解决方案。因此，研究适用于自动驾驶车辆和无人机系统的FL方法可能是一个有希望的投资方向。

此外，[135]提出了FL环境下智能家居的一个用例。在他们的解决方案中，共享同一智能设备的不同用户可以受益于经过训练的模型，智能家居中的不同设备可以受益于其他设备的数据和模型。在这种情况下，当智能家居设备受到攻击时，可以实施基于IDS的体系结构，我们可以假设：1）所有连接的设备都有足够的资源来执行训练任务；2）这些设备都没有所需的资源，监护人可以负责训练；3）一些设备能够训练模型。对于所描述的体系结构，[135]为其实现提供了一个完整的模拟试验台。智能家庭环境可能是研究FL部署的一个极好的匹配。

另一方面，大多数现有解决方案考虑FL应用的标记数据。然而，在实际场景中，有标记的数据集，甚至高质量的标记数据集都是一个挑战。因此，迫切需要新的解决方案来解决这种限制。

9.3 隐私与安全

虽然隐私和安全性是采用FL作为相关解决方案的最初目标之一，但分布式方面提出了其他需要解决的问题，例如泄露用户的敏感信息或毒害本地数据和共享模型。尽管最近的努力采用了不同的基于隐私的解决方案，但仍存在一些挑战。当使用DP时，会注入不同级别的噪声，这会导致一些缺点。首先，噪声会损害已建立的模型，导致精度损失。只有少数设备参与，才能保持可接受的精度。此外，这种做法不能保护数据隐私免受恶意服务器攻击。另一方面，即使密码方法被认为是无损的，也会带来密集的通信开销，有些方法甚至没有强大到可以检测中毒攻击的程度。因此，迫切需要设计强大的隐私保护和安全系统，在这种情况下，隐私和安全需要正式的保证，并且精确性会受到严重损失。

9.4 资源管理

由于ML训练和学习通常需要大量计算，因此资源管理对于实现相关、可持续和高效的基于FL的解决方案起着重要作用。在这方面，很少有研究开始将边缘计算集成到FL[8]、[73]、[74]中，以支持具有额外计算资源的终端设备。然而，在两个主要方向上仍然需要鲁棒系统。首先，由于FL的关键瓶颈在于通信带宽，边缘节点之间的一些协作可以决定向云发送的最佳客户端更新、发送更新的频率，以及有助于减少通信周期的其他标准。其次，由于FL不仅包括移动电话，还包括范围更广的设备，如物联网、车辆等，因此训练任务可以移动或卸载到边缘节点，以释放资源受限设备的密集计算[136]，[137]。

10 总结

FL已成为一种新兴的学习范式，它可以应对智能手机、可穿戴设备和自动驾驶车辆等设备不断增长的计算能力，同时还可以保护私人数据。在减少数据通信开销的同时，本地存储数据和将ML计算推送到终端设备的需求不断增加，这促使研究人员做出了许多努力，将这种FL训练设置应用于许多学科。在这种背景下，本文对FL体系结构、设计和部署进行了深入和广泛的研究，并将其与基于ML的集中式和分布式现场系统进行了比较。此外，在全面文献综述的基础上，对FL主题和研究领域进行了新的分类，并对其关键技术和新兴方面进行了分类，包括核心系统模型和设计、应用领域、隐私和安全以及资源管理。最后，讨论了为外语教学的未来前景量身定制的一些挑战和新的研究方向。我们相信，我们调查FL的拟议方法可以为未来的研究进展和领域进展提供基本见解。

你可能感兴趣的:(联邦学习,人工智能,联邦学习)

大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
GPU架构分类大明者省架构
一、NVIDIA的GPU架构NVIDIA是全球领先的GPU生产商，其GPU架构在图形渲染、高性能计算和人工智能等领域具有广泛应用。NVIDIA的GPU架构经历了多次迭代，以下是一些重要的架构：1.Tesla（特斯拉）架构（2006年发布）特点：NVIDIA推出的首个通用GPU计算架构，支持使用C语言进行GPU编程，标志着GPU开始从专用图形处理器转变为通用数据并行处理器。性能：具有128个流处理器
芯片的未来发展趋势 iccnewer
2024年，该行业将专注于AI/ML、RISC-V、量子、安全等发展趋势。今年年初，大多数人从未听说过生成式人工智能。现在整个世界都在竞相利用它，而这仅仅是个开始。量子计算、6G、智能基础设施等新市场领域专用处理正在加速对更快、更高效、更多数据的需求。与每隔几年等待下一个工艺节点的日子相比，未来几年的事件将与电话或汽车的引入一样重要。但可能不会只有一种创新技术，将会有很多技术一起以一种将让科技界惊
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
【人工智能之大模型】阐述生成式语言模型的工作机理...（二） 985小水博一枚呀大大大模型知识点人工智能语言模型自然语言处理机器学习神经网络
【人工智能之大模型】阐述生成式语言模型的工作机理…（二）【人工智能之大模型】阐述生成式语言模型的工作机理…（二）文章目录【人工智能之大模型】阐述生成式语言模型的工作机理...（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！祝所有的硕博生都能遇到好的导师！好的审稿
人工智能 - 通用 AI Agent 之 LangManus、Manus、OpenManus 和 OWL 技术选型天机️灵韵具身智能人工智能人工智能具身智能智能体
一、核心项目概览1.Manus（闭源通用AIAgent）定位：全球首个全流程自动化通用AIAgent，GAIA基准测试SOTA水平。核心能力：全流程自动化：从任务规划（如撰写报告）到执行（代码生成、表格制作）的端到端处理。智能纠错机制：基于沙箱环境的实时错误反思与调整（类似CodeAct技术）。云端依赖：需联网运行，集成浏览器操作、信息检索等工具。局限性：闭源且采用邀请制，二手市场邀请码溢价至数万
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
掌握ChatGPT写代码的秘诀：开发者的完整指南酷酷的崽798 机器学习 chatgpt
文章目录前言：如何利用ChatGPT来写代码：一个深度指南1.ChatGPT的基本功能概述2.利用ChatGPT辅助代码编写的好处3.ChatGPT支持的编程语言4.如何向ChatGPT提问以获取最佳结果5.实际应用案例6.ChatGPT的局限性及其解决方法7.关于隐私和安全性的注意事项8.未来展望结论前言：如何利用ChatGPT来写代码：一个深度指南近年来，人工智能技术取得了飞跃性的进展，尤其是
C++基础系列【26】排序和查找算法程序喵大人 C++基础系列 c语言算法开发语言 c++
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列专栏C++大佬养成攻略专栏C++训练营排序与查找算法的重要性不用过多介绍了吧，面试也经常考察。
深入探讨盘古大模型的高精度多尺度能力 Hardess-god WRF 人工智能算法
随着人工智能技术的快速发展，大模型的研究逐渐进入新的阶段。其中，盘古大模型以其卓越的高精度和多尺度处理能力成为研究热点。本文将详细分析盘古模型在高精度多尺度问题上的技术特征、优势和应用潜力，并探讨其深入研究的方向。一、盘古模型概述盘古模型是华为推出的中文预训练大模型系列，拥有数十亿甚至千亿级的参数规模。它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能
AI巨浪中的安全之舵：天空卫士助力人工智能落地远航天空卫士人工智能安全数据安全网络安全大数据
"AI时代的安全战场，不在云端在本地；数据治理的胜负手，不在防御在认知。"近期，众多企业纷纷接入DeepSeek大模型，迅速推动了大型模型应用的广泛铺开。无论是在制造业、金融业，还是在医疗、教育等领域，DeepSeek大模型的应用都如火如荼，遍地开花，展现出了其广泛的应用前景和巨大的商业价值。顺势而来的是DeepSeek一体机以"低成本、高算力、私有化部署"的优势席卷企业市场。因为DeepSeek
DeepSeek重塑软件行业：研发工程师的机遇与挑战 LiuSid7 人工智能 llama 语言模型 ai
人工智能技术的浪潮正以前所未有的速度重塑软件行业，而DeepSeek作为其中的代表性技术，已成为研发工程师日常工作中不可忽视的变革力量。从代码生成到架构优化，从效率提升到职业生态重构，DeepSeek正在重新定义工程师的工作范式。以下从技术革新、职业发展、行业趋势三个维度，分析其对研发工程师的核心影响。一、技术革新：从“重复劳动”到“创造力释放”代码生产的效率革命DeepSeek通过自然语言指令生
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开