非独立同分布数据孤岛的联邦学习：一项实验研究

关注公众号，发现CV技术之美

本篇分享论文『Federated Learning on Non-IID Data Silos: An Experimental Study』，非独立同分布数据孤岛的联邦学习：一项实验研究。

详细信息如下：

论文链接：https://arxiv.org/abs/2102.02079
代码链接：https://github.com/Xtra-Computing/NIID-Bench

背景与引言

联合学习(FL)使多方能够在不交换本地数据的情况下协作地训练机器学习模型，其中一个关键和共同的挑战是各方之间的数据分布的异构性，即各方的数据通常是非独立且非同分布的(non-IID)。此外，由于以往的研究在各方之间的数据划分策略非常固定，因此缺乏系统地了解其优缺点的实验研究，在本文中，作者提出了全面的数据划分策略来覆盖以往典型的非独立同分布数据案例，同时还进行了广泛的实验来评估最先进的FL算法。

关于数据异构性主要是不同方的数据分布通常是非独立同分布的，同时标签分布也因各方而异，例如即使是同一个世界，人们也有不同的写作风格，因此各方的特征分布不同。以往研究已经表明non-IID数据设置会降低机器学习模型的有效性。进一步而言，以往研究中只尝试了一种或两种划分策略来模拟非独立同分布的数据设置，不足以覆盖大多数情况，因此有必要通过对不同非独立同分布场景进行系统探索来评估FL算法。

在本文中，作者提出了NIID-Bench，打破了FL中non-IID数据分布挑战的实验障碍。具体而言，本文介绍了六种non-IID数据划分策略，充分考虑了标签分布偏差、特征分布偏差和数量偏差等不同情况。此外，在九个数据集上进行了广泛的实验，以评估四种最先进FL算法(FedAvg, FedProx, Scaffold, FedNova)的性能与效率。

通过广泛的研究，本文有以下主要发现：

non-IID数据分布确实给FL算法的学习精度带来了巨大的挑战，并且现有的FL算法并不能适应所有情况；
FL算法的有效性与数据偏斜的类型高度相关，例如标签分布偏斜设置比数量偏斜设置更具有挑战性；
在non-IID数据设置中，由于批量归一化和部分采样等技术，模型学习过程的不稳定性广泛存在，这会严重损害机器学习模型在分布式数据孤岛上的有效性。

非独立同分布数据的FL算法

Notations：令D={(x,y)}表示全局数据集，假设有N方客户端并记为P₁,…,P_N，其中关于P_i的本地数据集记为D_i={(x_i,y_i)}。我们分别用W_t和W^t_i来表示在迭代轮次t时的全局模型和局部模型，因此W_t是联邦学习过程的输出模型。

FedAvg算法：FedAvg已经成为一种经典的FL方法，FedAvg的框架如下图1所示。在每一轮中，服务器首先将全局模型发送给随机选择的参与方，然后各方使用其本地数据集更新模型，再将更新后的模型发送回服务器，最后服务器则将接收到的本地模型平均为更新后的全局模型。与传统的分布式SGD算法不同，FedAvg可以减少通信轮次，并且通信效率更高。然而，正如以往的研究表明，局部更新可能会导致较差的准确率。

Effect of Non-IID Data：FL中的一个关键挑战是数据往往是非独立同分布的，因此其对FedAvg的准确性有很大影响：由于每个局部数据集的分布与全局分布有很大的不同，各方的局部目标与全局最优解不一致。换言之，在局部训练阶段，局部模型会向局部最优值更新，而局部最优值可能远离全局最优值，因此平均模型也可能远离全局最优值，特别是当局部更新较大时，最终导致收敛的全局模型的精度比IID设置差得多。

如下图2所示，在IID设置下，全局最优值W^*接近局部最优值W^*₁和W^*₂，因此平均模型W^t⁺¹也接近全局最优值；而在non-IID情况下，由于W^*与W^*₁相距较远从而导致W^t⁺¹可能与W^*也相距较远。

FedProx算法：FedProx基于FedAvg改进了局部目标，直接限制了本地更新的大小，具体而言，它在局部目标函数中引入了一个附加的L2正则化项，从而限制局部模型与全局模型之间的优化距离，这是一种限制局部更新的直接方法，因此平均模型离全局最优值之间的距离被缩短，并引入了超参数μ来控制L2正则化的权值。

总体而言，其对FedAvg的修改是轻量级的且易于实现，FedProx会带来额外的计算开销，而不会带来额外的通信开销。然而，其中一个问题是用户可能需要仔细调整μ才能获得良好的准确性：如果μ太小，则正则化项几乎没有影响；如果μ太大，则局部更新很小，收敛速度较慢。

FedNova算法：最近的另一项研究FedNova对FedAvg的模型聚合阶段进行了改进，其认为当各方具有不同的计算能力时(时间限制或不同的本地数据集大小)，不同客户端参与方可能在每轮需要执行不同数量的局部步骤(自适应调整)。

因此，为了确保全局更新没有偏差，FedNova在更新全局模型之前，根据其局部迭代次数对每一方的局部更新进行归一化和缩放。FedNova也只对FedAvg进行了轻量级的修改，并且在更新全局模型时计算开销可以忽略不计。

Scaffold算法：Scaffold在各方之间引入方差减少技术，从而进行non-IID建模。它引入了服务器(c)和各方(ci)的控制变量，用于估计服务器模型的更新方向和每个客户端的更新方向，然后通过这两个更新方向之间的差异来近似纠正客户端局部训练的漂移。Scaffold算法通过在局部训练中添加方差减少技术来纠正本地的局部更新。

Scaffold主要提出了两种更新局部控制变量的方法：通过在全局模型中计算局部数据的梯度或通过重用先前计算过的梯度，其中第二种方法具有较低的计算成本，而第一种可能更稳定。与FedAvg相比而言，由于额外的控制变量，Scaffold算法使每轮的通信大小大约增加了一倍。

本文研究动机：以往研究只评估了一个或两个非独立同分布数据分布策略，但是目前还没有标准的基准测试或系统研究来评估这些FL算法的有效性。因此，本文希望开发一个具有更全面的数据分布以及数据分区策略的基准，然后我们可以评估现有FL算法的优缺点，并概述未来在non-IID数据上联邦学习的挑战和发展方向。

模拟non-IID数据分布设置

NIID-Bench

Research Problems：我们需要解决两个关键的研究问题：1) 是使用真实世界的non-IID数据集还是使用合成数据集；2) 如何设计全面的non-IID场景。

对于问题一，本文选择通过将现实世界的数据集划分为多个较小子集实现。现有研究主要使用划分方法来模拟non-IID联合设置，与使用真实联邦数据集相比，采用划分策略可以很容易地量化和控制本地数据的不平衡属性，此外当使用合成数据集时，可以很容易地在FL实验中设置不同因素(例如参与者数量、数据大小等)。因此，在已有大量集中训练知识作为参考的现有公共数据集上，开发分区策略更加灵活，也可以模拟不同的non-IID场景。

对于第二个问题而言，现有研究从分布的角度对non-IID数据案例进行了非常好和全面的总结，考虑本地数据分布P(xi,yi)=P(xi|yi)*P(yi)或P(xi,yi)=P(yi|xi)*P(xi)，先前的研究总结了五个不同的non-IID情况：标签分布偏差(P(yi)在各方之间不同)、特征分布偏差(P(xi)在各方之间不同)、相同的标签但不同的特征(P(xi|yi)在各方之间不同)、相同的特征但不同的标签(P(yi|xi)在各方之间不同)以及数据量偏差。虽然五种non-IID 数据情况涵盖了所有可能的单一类型的数据偏斜，但可能仍存在着混合类型的偏斜情况。

本文使用两个真实世界的数据集(Criteo与Digits)来实验non-IID情况：Criteo包含数百万个展示广告的特征值和点击反馈，可用于点击率预测；Digits则是包含用于数字分类的多个子集。

在Criteo数据集中，将每个用户视为一个参与方，选择十个参与方并绘制标签分布，如下图3(a)所示。在Digits数据集方面，将每个子集作为一个参与方，使用这些子集训练模型，并使用t-SNE绘制特征分布，如下图3(b)所示。

标签分布偏移：在标签分布偏移情况，标签分布P(yi)因各方差异而有所不同，例如，一些医院对几种特定种类的疾病更有专业性，并有更多的患者记录。为了模拟标签分布偏移，主要引入了两种不同的标签不平衡设置：基于数量的标签不平衡和基于分布的标签不平衡设置。

基于数量的标签不平衡：各方拥有固定数量的标签的数据样本，其中具有相同标签的数据样本被分成子集，每一方仅被分配两个具有不同标签的子集。本文还引入了一种通用的划分策略来设置每一方拥有的标签数量：首先为每一方随机分配k个不同标签的数据样本，然后对于每个标签样本，随机地将它们分成拥有标签的各客户端，这样的话，每一方的标签数量是固定的，不同方样本之间没有重叠。

基于分布的标签不平衡：根据狄利克雷分布为每一方分配每个标签的样本比例，狄利克雷分布通常用作贝叶斯统计中的先验分布，是模拟现实世界数据分布的合适选择。具体来说，对于狄利克雷分布进行采样并分配给各参与方，这种方法的一个优点是我们可以通过改变比例参数来灵活地改变标签分布不平衡水平，如下图4所示显示了这种分区策略的一个示例。

特征分布偏移：在特征分布偏移中，尽管P(yi|xi)相同但特征分布P(xi)因各方而异，例如，猫在不同区域的毛色和图案可能会有所不同。

这里介绍三种不同的设置来模拟特征分布偏移：

基于噪声的特征不平衡：首先将整个数据集随机平均分成多方，对于每一方在其本地数据集中添加不同级别的高斯噪声，以实现不同的特征分布；
合成特征不平衡：生成了一个称为FCUBE的合成特征不平衡联邦数据集，在这里假设数据点的分布是三维(x1，x2，x3)上的立方体，它有两个不同的标签并根据x1=0进行分类，其如下图6所示；
现实世界的特征不平衡：EMNIST数据集从不同的写入者那里收集手写字符/数字，然后根据作者将数据集划分为不同的部分，由于作者之间的字符特征通常不同，因此不同方之间存在自然的特征分布偏差。

数量偏差：在数量不平衡方面，本地数据集的大小 |Dⁱ| 在各方是不同的，尽管各方之间的数据分布可能仍然是一致的。与基于分布的标签不平衡设置一样，使用Dirichlet分布将不同数量的数据样本分配给每一方，基于q~Dir_N₍_β₎ 进行采样，并将总数据样本的q_j按照比例分配给P_j，参数β则可用于控制数量偏斜的不平衡水平。

实验分析

实验设置：为了研究现有FL算法在non-IID数据设置上的有效性，在9个公共数据集上进行了广泛的实验，主要包括6个图像数据集(MNIST, CIFAR-10, FMNIST, SVHN, FCUBE以及FEMNIST)和3个表格数据集(adult, rcv1以及covtype)。

对于图像数据集使用CNN(2个5*5卷积层+2个全连接层)作为主干网络，对于表格数据集，则使用具有三个隐藏层的MLP作为主干网络。默认情况下参与方数量为10，但是在FCUBE中设为4，并使用SGD优化器(学习率为0.1, 动量为0.9)进行模型优化，本地更新次数设置为10，批处理大小设置为64。

对于基准而言，使用测试数据集上的TOP-1准确率作为衡量标准来比较所研究的算法，为了公平比较，在相同的轮次中运行了所有研究的算法，默认情况下全局训练次数设置为50。

FL算法性能比较综述：如下表3所示，显示了FedAvg、FedProx、Scaffold和FedNova等现有方法在不同non-IID数据设置下的准确性，为了进行比较还给出了IID场景(即均匀分区)的结果。

我们可以发现：

标签分布偏移情况是最具挑战性的设置，其中每一方仅具有单个类别的样本，而特征分布偏移和数量偏移设置对FedAvg的精度影响很小；
在所有设置中，没有一种算法的性能始终优于其他算法，现有的最先进的算法仅在某几个情况下显著优于FedAvg算法；
CIFAR-10和表格数据集分类在non-IID环境下是具有挑战性的任务，而在大多数non-IID环境下，MNIST分类则是一项简单的任务，所有算法表现出类似的性能；
FedProx和FedAvg的收敛速度几乎相同，而Scaffold和FedNova在训练中则表现的更不稳定，但是会随着全局训练轮次的增加而改善；
本地迭代训练次数会对现有算法的准确性产生很大影响，本地迭代次数的最优值对非独立同分布分布非常敏感，并且在在不同的设置中也有所不同；
仅仅在部分参与的情况下，Scaffold算法无法有效的工作，而其他FL算法在训练时精度也非常不稳定，同时随着参与方数量的增加，所有FL方法的准确性都会降低；
与FedAvg相比，FedProx的计算开销较大，Scaffold的通信成本是FedAvg的两倍。

实验结果讨论：本文对于从实验研究中获得的见解进行了如下总结：

FL算法的设计和评估应考虑更全面的设置，包括不同的non-IID数据划分策略和任务。此外，没有一种被研究的算法始终优于其他算法，或者在所有设置下都具有良好的性能。因此，利用FL解决分布式数据孤岛中的问题仍然是一个很有前途的研究方向。
准确性和通信效率是评估non-IID数据环境下FL算法的两个重要指标。
FL与集中训练模型相比引入了新的训练因子(例如本地更新次数、批量归一化、参与方抽样与数量等)，在评估未来的FL研究时，这些具有超参数变量值得更多关注。
在联邦学习中，混合类型的异构设置比单一类型带来了更多的挑战，在混合non-IID设置中观察到更显著的模型质量下降，因此更重要的是研究有效的算法来处理多种类型的异构性设置。

总结与展望

最后，本文为non-IID分布式数据库的数据管理和联邦学习提出了一些有前途的未来方向与总结。

分布式数据管理与分配：现有学习系统大多基于集中式数据库，但是随着对数据隐私和数据监管的关注日益增加，分布式数据库以及现有的学习系统和算法需要重新考虑。例如，在不交换本地数据的情况下启用联合搜索为多个联邦学习系统共同学习索引结构可能是一个值得研究的方向(类似于集成学习)。

此外，如果能够在进行联邦全局模型训练之前知道非独立同分布数据的构成将会很有帮助(通过数据采样以及结构化搜索技术)。但是，如何将当前的统计估计扩展到non-IID分布仍然是一个未解决的挑战。

针对参与联邦学习系统训练的客户端进行随机采样会带来FL的不稳定性，因此根据各参与方的数据分布特征进行选择性抽样可能会显著提高联邦学习系统的稳定性，通过现有方法(例如抗偏斜数据技术、分层抽样)可能是一个很好的解决方案，可以在每一轮中以更平衡的方式选出有代表性的参与客户端。当然，以隐私保护的方式进行数据挖掘，如何在保证差异化隐私保护的同时减少精度损失也是一个具有挑战性的研究方向。

联邦系统设计：我们发现，如果每一方只有一个标签的数据，那么FL算法的准确性很差，但是在实践中该设定有许多现实世界的应用。从下图8可以看出，现有的FL算法的训练速度通常是接近的，为了提高训练速度，研究人员可以从以下两个方向进行工作：1) 开发通信效率高的FL算法，只需几轮即可训练出全局模型；2) 开发快速初始化方法，以减少轮数，同时实现相应的高精度模型。

此外，FL算法的自动参数调整会受到局部更新较大影响，因此，开发对局部更新具有健壮性的方法或者为FL设计有效的参数调整方法有助于提升联邦学习系统的泛化性。

进一步而言，现有FL算法的直觉是相同的：局部模型向局部最优值更新，而平均模型远离全局最优值，如果能在FL训练中观察到更详细、更常见的步骤，那么non-IID环境下的FL算法的设计将会得到改进。

从另一方面来看，简单的平均聚合不适用于批量归一化，不同方的批量归一化层之间存在异构性，因此需要研究更多针对深度学习模型中特定层的专门设计。

总结：在本文中主要研究了non-IID数据作为此分布式数据库中的一个关键挑战，并开发了一个名为NIID-bench的基准测试程序。具体地说，本文介绍了六种数据划分策略，这些策略比以前的研究要全面得多。此外，本文还进行了全面的实验来比较已有算法，并为在分布式数据库上建立有效的机器学习模型服务提供了一系列未来可能的发展方向。

END

加入「计算机视觉」交流群备注：CV

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
数据结构奇妙旅程之深入解析快速排序山间漫步人生路数据结构排序算法算法
快速排序（QuickSort）是一种高效的排序算法，它使用了分治法的策略来将一个数组排序。其基本思想是选择一个基准元素，通过一趟排序将待排序的数据分割成独立的两部分，其中一部分的所有数据都比基准元素小，另一部分的所有数据都比基准元素大，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。工作原理选择基准：从待排序的序列中选一个元素作为基准（pivo
python抓包与解包_Python—网络抓包与解包（pcap、dpkt） weixin_39691055 python抓包与解包
pcap安装[root@localhost~]#pipinstallpypcap抓包与解包#-*-coding:utf-8-*-importpcap,dpktimportre,threading,requests__black_ip=['103.224.249.123','203.66.1.212']#抓包：param1eth_name网卡名，如：eth0,eth3。param2p_type日志捕
华为OD机试 - 单向链表中间节点（Java & JS & Python & C & C++）华为OD题库华为od 链表 java
须知哈喽，本题库完全免费，收费是为了防止被爬，大家订阅专栏后可以私信联系退款。感谢支持文章目录须知题目描述输出描述解析代码题目描述给定一个单链表L，请编写程序输出L中间结点保存的数据。如果有两个中间结点，则输出第二个中间结点保存的数据。例如：给定L为1→7→5，则输出应该为7；给定L为1→2→3→4，则输出应该为3；输入描述每个输入包含1个测试用例。每个测试用例：第一行给出链表首结点的地址、结点总
php 把一个数组分成有n个元素的二维数组的算法风清扬-独孤九剑 php php 算法
一、第一种解法0){$columns_map[$position]++;//这个地方格外注意,$position与$columns比较$position=($position<$columns-1)?++$position:0;$array_length--;}foreach($columns_mapas$val){$newarray[]=array_splice($array,0,$val);}
python 推导式(派生、衍生) sanduo112 人工智能 python windows 开发语言
python推导式一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。2.列表(list)推导式3.字典(dict)推导式4.集合(set)推导式5.元组(tuple)推导式二、代码概述一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。Python支持各种数
【算法分析与设计】去除重复字母五敷有你算法分析与设计 java javascript 开发语言算法数据结构
个人主页：五敷有你系列专栏：算法分析与设计⛺️稳中求进，晒太阳题目给你一个字符串s，请你去除字符串中重复的字母，使得每个字母只出现一次。需保证返回结果的字典序最小（要求不能打乱其他字符的相对位置）。示例示例1：输入：s="bcabc"输出："abc"示例2：输入：s="cbacdcbc"输出："acdb"思路贪心+单调栈实现【字符串删除一个字符使其字典序最小的贪心策略】：对于两个长度相同的字符串，
数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
yarn的安装和使用全网最详细教程 zxj19880502 yarn npm
一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn能够保证在不同系统上无差异的工作。三、yarn的
图论记录之最短路迪杰斯特拉 Just right 算法图论 java 开发语言
简述思想这个思想能用一句话来概括，精简到的极致:每次找到一个最短距离的点并更新起点到各个点的最短距离如果要可视化的话，B站搜索Dijksra算法，有视频讲解伪代码写到这里，其实是想整一个动画的，这样效果更好点，但由于种种原因所以就拖一下intdijkstr(){dist[1]=0;其余的点的距离全部初始化为真无穷，不要写成int的最大值迭代n次将不在s中的，且距离最近的点给tsj即先到t，再加上t
谷歌浏览器驱动Chromedriver（114-120版本）文件以及驱动下载教程 pigerr杨 Python python chrome drivers
ChromeDriver官方网站GitHub||GoogleChromeLabs/chrome-for-testingChromeDriver113-125_JSONChromeforTestingavailability123-125zip白月黑羽Python基础|进阶|Qt图形界面|Django|自动化测试|性能测试|JS语言|JS前端|原理与安装
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
【数据结构】实验一实现顺序表各种基本运算的算法张鱼·小丸子数据结构实验 c++数据结构
题目：实现顺序表各种基本运算的算法要求：1、建立一个顺序表，输入n个元素并输出；2、查找线性表中的最大元素并输出；3、在线性表的第i个元素前插入一个正整数x；4、删除线性表中的第j个元素；5、将线性表中的元素按升序排列；6、将线性表中的元素就地逆序（只允许用一个暂存单元）；#include#defineSIZE1000usingnamespacestd;typedefstruct{int*a;//
27.Python从入门到精通—Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为以山河作礼。 #Python基础入门—详解版 python java 服务器
27.从入门到精通：Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理在Python中，异常处理是一种处理程序在执行期间可能遇到的错误的方法。当Python解释器遇到错误时，它会引发异常。异常是一种Python对象，它包含有关错误的信息，例如错误类型和错误位置。为了处理异常，您可以使用try-except语句。在
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
Python | Redis工具类 -拟墨画扇- Python redis 数据库缓存 python
一、需求自动连接Redis数据库，通过连接池处理数据对输出结果进行Log打印并保存到文件二、代码Utils.redisUtils.py#!/usr/bin/envpython#-*-coding:utf-8-*-importredisfromUtils.loggerimportlog"""Redis数据格式(1)字符串|存储形式:key-value:str-存储二进制数据:可以存储任意类型的数据，
Python dict字符串转json对象，小数精度丢失问题朝如青丝暮成雪 json python
一前言JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式，dict是Python的一种数据格式。本篇介绍一个float数据转换时精度丢失的案例。二问题描述importjsontest_str1='{"π":3.1415926535897932384626433832795028841971}'test_str2='{"value":10.00000}'print
Apache Kafka的伸缩性探究：实现高性能、弹性扩展的关键 i289292951 kafka kafka
引言ApacheKafka作为当今最流行的消息中间件之一，以其强大的伸缩性著称。在大数据处理、流处理和实时数据集成等领域，Kafka的伸缩性为其在面临急剧增长的数据流量和多样化业务需求时提供了无与伦比的扩展能力。本文将深入探讨Kafka如何通过其独特的架构设计实现高水平的伸缩性，以及在实际部署中如何优化和利用这一特性。一、Kafka伸缩性的核心设计分区（Partitioning）与水平扩展Kafk
Redis分布式锁—SETNX+Lua脚本实现 Sahm5k java redis 分布式 lua
使用redis实现分布式锁，就是利用redis中的setnx，如果key不存在则进行set操作返回1，key已经存在则直接返回0。优点：设置expiretime过期时间，可以避免程序宕机长期持有锁不释放。redis作为一个中间服务，所有微服务都可见，满足分布式的需求。只需redis中原生setnx命令即可构建，实现简单。性能高效，redis数据在内存中。高可用，可以部署redis集群。加锁在red
Python+Requests模拟发送GET请求爱学习的执念自动化测试软件测试技术分享 python 开发语言
模拟发送GET请求前置条件：导入requests库一、发送不带参数的get请求代码如下：以百度首页为例importrequests#发送get请求response=requests.get(url="http://www.baidu.com")print(response.content.decode("utf-8"))#以utf-8的编码输出内容二、发送带参数的get请求发送带参数的get请求有
Java回溯知识点（含面试大厂题和源码）一成码农 java 面试开发语言
回溯算法是一种通过遍历所有可能的候选解来寻找所有解的算法，如果候选解被确认不是一个解（或至少不是最后一个解），回溯算法会通过在上一步进行一些变化来丢弃这个解，即“回溯”并尝试另一个候选解。回溯法通常用递归方法来实现，在解决排列、组合、选择问题时非常有效。回溯算法的核心要点：路径：也就是已经做出的选择。选择列表：也就是你当前可以做的选择。结束条件：也就是到达决策树底层，无法再做出选择的条件。回溯算法
Python极速入门：五分钟开启实战之旅！知白守黑V Python 编程语言系统运维 python 编程语言 python开发 python学习 python入门 python数据分析
1.Python基础语法和结构：了解Python的基本语法，包括变量、数据类型、运算符、注释等。控制流：掌握条件语句（if-elif-else）、循环（for和while）及其控制（break和continue）。函数：学习如何定义和使用函数，包括参数传递、返回值、作用域和闭包。模块和包：理解如何导入和使用模块，以及如何创建和使用自己的包。2.数据处理列表、元组和集合：学习这些序列类型的操作和方法
Python Flask 使用数据库安果移不动 python flask 开发语言
pipinstallflask_sqlalchemy官方文档：Flask-SQLAlchemy—Flask-SQLAlchemyDocumentation(3.1.x)为了不报错也需要导入另外两个库#pipinstallflask_sqlalchemy#pipinstallmysqlclient完整代码importosfromflaskimportFlaskfromflask_sqlalchemy
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
第七章索引及执行计划，存储引擎执笔为剑 #MySQL运维篇编辑器 mysql
第七章索引及执行计划，存储引擎1，索引及执行计划1，作用：提供类似书目录的作用，目的是优化查询2，所用的种类（根据算法）B树索引Hash索引R树FulltextGIS3，B树基于不同的查找算法分类介绍B-tree：在范围查询方面提供了更好的性能（>showengines;#存储引擎作用在表上，不同的表可能有不同的存储引擎mysql>select@@default_storage_engine;#查
使用Python读取Excel文件并计算平均分嘻嘻爱编码 Python从入门到放弃 python excel 开发语言
在这篇博客中，我们将探讨如何使用Python的pandas库来读取Excel文件，并计算其中数据的平均分。pandas是一个强大的数据分析工具，它允许我们以简单直观的方式处理表格数据。安装必要的库在开始之前，确保你的环境中安装了pandas和openpyxl库。可以使用以下命令进行安装：pipinstallpandasopenpyxl读取Excel文件首先，我们需要读取Excel文件。假设我们有一
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

非独立同分布数据孤岛的联邦学习：一项实验研究

你可能感兴趣的:(算法,分布式,大数据,编程语言,python)