我爱计算机视觉

【科普】半监督学习的概述与思考，及其在联邦学习场景下的应用

关注公众号，发现CV技术之美

在现实世界中，数据往往存在各种各样的问题，例如：图片分类模型对标注数据的依赖性很强、标注图片数据难以获取、大量未标注数据存在、针对某个场景的数据量过小…等等问题。

在联邦学习中，由于数据的非独立同分布特性（Non-IID）导致了每个客户端（数据拥有者）自身的数据可能存在噪声、标注不完全、数据量不够等等情况，同时我们从隐私安全的方面考虑到只要使用数据，就有可能存在隐私泄露的风险，因此有人思考到：能否只从每个数据拥有方抽取一小部分数据（含有标签）放到客户端，然后再添加大量无标注数据来帮助模型进行训练呢？

这就不得不提到半监督学习，半监督学习是指训练集同时包含带标签的样本数据以及未标记的样本数据，在不需要人工干预的情况下，让模型可以自动利用未标记样本数据来提升自己的学习性能。

进一步而言，本质就是模型利用已标注数据从未标注数据中提取信息用于自身训练，同时有些情况下如果标注数据很多，那么再利用未标注数据可以提升模型的泛化能力。如下图所示，半监督学习可以在标签不知道的情况下让模型也能正确完成任务。

图1：半监督学习example（链接1）

以往的联邦学习工作往往专注于监督学习任务的研究，即要求所有的数据都必须包含相应的标签。但是在联邦学习的现实场景下，本地客户端所包含的数据常常大部分甚至全部都是没有相应的标签的。因此，我们需要结合半监督学习的技术来改进算法从而解决联邦学习中存在的一些问题。

接下来我将从近期的一些论文从半监督学习与联邦半监督学习两个方面进行概述，并加以总结和思考。

▊ 半监督学习

伪标签（Pseudo Label）：伪标签是半监督学习的一个基本思路，即模型在标注数据上进行训练然后对未标注数据进行预测，得到的预测结果作为未标记数据的标签。

模型通过伪标签的方式，可以将未标注样本拉向与其最相邻的类，然后再训练时（有标签数据+无标签数据一起训练）这就相当于约束了模型对无标签的搜索空间，但是也有一个缺点就是这个伪标签的预测是不分对错的，其仅仅只是提高了模型对该样本的置信度。

同时我们也可以从熵的角度去思考，强迫模型对未标记数据做出预测，这就代表熵降低了，模型偏向于低熵预测，通过最小化熵将模型预测拉向当前最邻近的类别。伪标签方法带来了若干好处：

1）增强模型的泛化能力和鲁棒性；

2）模型充分利用了无标注数据。

最小化熵（Entropy Minimization）：同时我们也可以从概率的角度去思考，熵代表事件的混乱程度，如果一个事件分布越均衡那么其熵越高。强迫模型对未标记数据做出预测，这就代表熵降低了，模型偏向于低熵预测，通过最小化熵将模型预测拉向当前最邻近的类别。强迫模型如何作出低熵预测呢？

实现方法其实很简单，就在损失函数中增加一项loss：最小P_model(y|x)对应的熵即可。如下图公式所示：

标签锐化（Sharpen Label）：标签锐化也是在半监督学习方面常用的一个技巧，模型预测某个样本得出结果logit，这是一个矩阵，矩阵的每一列代表该数据样本所对应类别的概率。为了防止噪音等因素干扰，使用标签锐化操作，其实就是一个基于softmax函数的放大最高概率的方法，特别地，当锐化因子T→0的时候，趋于one-hot。具体如下：

一致性正则化（Consistency Regularization）& 数据增强（Data Augmented）：一致性正则化（Consistency Regularization）依赖于模型在输入同一图像的扰动版本时应该输出相似预测的假设，用于未标记数据。

我们定义数据为x，某种弱数据增强方法（例如翻转、平移等）为a()函数，某种强数据增强方法（例如RandAugment、CTAugment）为A()函数，定义模型为f()，一致性正则化具体而言有如下方式：

1）f(x)应当与f(a(x))具有相同的预测；

2）f(a(x))应当与f(A(x))具有相同的预测；

此时模型f()应当是两个结构相同但是Dropout不同的模型，同时我们往往在带标记数据上采用CE loss交叉熵损失，在无标记数据上采用MSE loss。有人发现，不同的数据增强会给模型带来推理速度、时间开销以及batch_size受限等方面问题，因此提出Temporal Ensembling（链接2）带时序的方法。

具体而言将当前时间步和上一时间步得到了未标记数据增强后的数据，分别看成经过两次不同数据增强的数据，然后进行一致性正则化，同时添加参数来控制当前和上一次数据的所占比例，例如：f(x)= f(pre(x)*0.3+next(x)*0.7)。具体如下图所示：

图2：Temporal Ensembling流程（链接2）

经过上述前置知识后，接下来我们通过Mixup→MixMatch→ReMixMatch→FixMatch→FlexMatch顺序论文来看看半监督学习方法。

Mixup：Mixup论文（链接3）主要提出了一种随机融合不同类别数据的策略方法，后来被广泛应用于半监督学习领域来重构建数据集。具体而言xi,yi,xj,yj分别是从数据集中随机挑选的两对数据，然后通过如下方式进行组合，产生新的数据（x,y）：

图3：Mixup实现方式（链接3）

其中Beta(a,a)代表贝塔分布，公式具体如下所示：

图4：Beta分布公式（链接3）

MixMatch：MixMatch论文（链接4）通过“集百家之长”，集合多种步骤运用于半监督学习，并且取得不错效果。主要步骤如下：

1）对于一个batch内的数据，针对有标签数据进行一次数据增强，针对无标签数据进行K次数据增强；

2）对K次数据增强后的无标签数据用模型进行预测，然后对所有的预测结果取平均并锐化处理，然后将其作为无标签数据的伪标签；

3）混合打乱所有数据并进行Mixup操作，我们将所有数据记为W，将有标签数据记为X，无标签数据记为U，那么融合后的有标签数据为X’= Mixup(W,X)，U’= Mixup(W,U)；

4）针对X’进行CE loss计算，针对U’进行MSE loss计算。如下图所示：

图5：MixMatch操作（链接4）

这里我们对MixMatch进行一个小总结：

1）MixMatch采用了一致性正则化方法，在数据增强阶段对图像进行随机翻转于裁剪；

2）MixMatch采用了最小化熵的思想，对预测结果进行锐化处理，从而最小化无标签数据的分类熵；

3）MixMatch在训练阶段还采用了正则化手段进行优化；

4）MixMatch结合Mixup方法对数据进行重构建。

ReMixMatch：ReMixMatch（链接5）主要是针对MixMatch论文的改进工作。主要改进点在于：

1）由于MixMatch的标签猜测可能存在噪声和不一致的情况（初期模型预测率较低）基于此，作者提出利用有标签数据的标签分布，对无标签数据的预测结果进行对齐，称为Distribution Alignment。如下图左图所示，蓝色是对当前无标签数据的标签预测结果q，绿色是一个运行平均版本（average之后）的无标签数据预测结果p'，黄色是有标签数据的标签分布p，对齐之后的标签预测为：q' = Normalize(q*(p/p'))；

2）作者提出一个假设：对样本进行简单增强（比如翻转和裁切）之后的预测结果，要比多次复杂变换更加可靠和稳定，称为Augmentation Anchor。因此，对于同一张图片，首先进行弱增强，得到预测结果q'，然后对同一张图片进行复杂的强增强。弱增强和强增强共同使用一个标签猜测q'进行Mixup和模型训练，即使用弱增强得到的预测结果作为强增强数据的标签来进行训练。

图6：ReMixMatch示意图（链接5）

FixMatch：一种对现有SSL方法具有显著简化的算法（链接6）。首先，FixMatch对无标签数据进行弱增强然后预测结果，将预测结果作为该无标签数据的伪标签，将数据本身进行强增强作为数据。

进一步而言，无标签数据弱增强后的预测结果只有其置信度超过某个阈值才会被保留。FixMatch损失分为针对有标签数据的交叉熵损失L_s和针对无标签数据的交叉熵损失L_u，总损失为loss=L_s+参数*L_u。通过消融实验得知：阈值最好选择为0.95。具体FixMatch算法如下图所示。

图7：FixMatch算法（链接6）

FlexMatch：这是针对上文所述的FixMatch算法的改进版本（链接7），由于FixMatch算法一直使用一个固定阈值，这会带来一些缺点：

1）模型从不同的类中进行训练比较困难：因为固定阈值的存在，使得容易被模型识别的类（简单类）具有较高的置信度。而难以被模型识别的类（困难类）具有较低的置信度，因此再一个批次数据中，可能会有较多的简单类参与到训练，而困难类却很少，这会导致模型训练有难度；

2）模型训练初期，大多数无标签样本都是较低的置信度，如果恰好有超过阈值的预测结果也很有可能是错误的预测或噪声数据在进行干扰，这有可能导致模型朝着错误的方向收敛（收敛缓慢）的问题，同时训练初期大量的无标签数据得不到训练（低利用率）问题。

因此FlexMatch提出一个自适应的阈值想法，即每个类的阈值会随着训练时间的变化而变化，一个很自然的想法就是用模型在当前时间步的精确度来调整该类的阈值，但是由于缺少验证集数据以及计算效率的昂贵性，这无疑是困难的。

但是作者又提出一个假设：利用当前时间步无标签数据中某个类别C被选取数据（大于阈值）的数量来近似精确度，然后通过归一化方法最终得到比率，然后乘上初始阈值就是当前时间步下类别C的阈值了。具体如下图所示，作者还使用了一系列trick来增强FlexMatch算法，例如：对得到比率进行进一步的非线性处理等。

图8：FlexMatch算法（链接7）

▊ SSL算法小总结

综上其实MixMatch思想就是对数据弱增广+平均和锐化处理，再结合Mixup重新融合数据集；ReMixMatch则是模型将强增广分布与弱增广对齐后的分布拉近相对之间的距离；FixMatch则是模型对弱增广与强增广之间分布直接拉近距离，类似于对比学习，个人感觉这样其实就是把无标签数据约束到一个个簇里面，模型更好识别。

在联邦学习场景下，数据不足/非独立同分布情况下，加入半监督学习又会碰撞出怎样的火花呢？后期我们将从联邦半监督学习方面进行概述，欢迎关注。

参考链接

[1] https://github.com/yassouali/awesome-semi-supervised-learning

[2] Laine S, Aila T. Temporal ensembling for semi-supervised learning[J]. arXiv preprint arXiv:1610.02242, 2016.

[3] Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond empirical risk minimization[J]. arXiv preprint arXiv:1710.09412, 2017.

[4] Berthelot, David, et al. "Mixmatch: A holistic approach to semi-supervised learning." Advances in Neural Information Processing Systems 32 (2019).

[5] Berthelot, David, et al. "Remixmatch: Semi-supervised learning with distribution alignment and augmentation anchoring." arXiv preprint arXiv:1911.09785 (2019).

[6] Sohn K, Berthelot D, Carlini N, et al. Fixmatch: Simplifying semi-supervised learning with consistency and confidence[J]. Advances in Neural Information Processing Systems, 2020, 33: 596-608.

[7] Zhang B, Wang Y, Hou W, et al. Flexmatch: Boosting semi-supervised learning with curriculum pseudo labeling[J]. Advances in Neural Information Processing Systems, 2021, 34.

END

欢迎加入「半监督」交流群备注：半监督

基于NanoDet的无人机交通违规监控系统设计与实现深度学习&目标检测实战项目 NanoDet 无人机目标检测人工智能计算机视觉深度学习
1.引言随着无人机技术的发展，无人机在交通监控领域的应用逐渐增多。无人机能够提供空中视角，具有更高的视野覆盖范围，能够帮助交通管理部门实时监控交通违规行为。本博客将介绍如何使用NanoDet模型实现无人机交通违规监控系统，并结合PyQt5设计一个UI界面来实时展示检测结果。通过该系统，能够检测交通违规行为并做出实时预警，确保交通安全。本博客详细介绍了数据集的构建、模型的训练与推理、碰撞检测算法的实
python poetry添加某个git仓库的某个分支 waketzheng git
命令行不太清楚怎么弄，但可以通过编辑pyproject.toml实现实例：pypika-tortoise={git="https://github.com/henadzit/pypika-tortoise",branch="do-not-use-builder"}参考：WIPDonotcopypypikaquerybyhenadzit·PullRequest#1851·tortoise/torto
The following modules are *disabled* in configure script:_sqlite3 waketzheng python
Unabletoupgradepast3.6.9-#24byRosuav-PythonHelp-DiscussionsonPython.orgsudoaptinstalllibsqlite3-devcdPython-3.13.1./configure--enable-optimizations--enable-loadable-sqlite-extensionsmakesudomakealtins
P3375 【模板】KMP 好好学习^按时吃饭算法
题目来自洛谷网站：思路：从题目名字知道这是KMP模板题目，对于KMP算法，就两步，1、构造next数组。2、在s1中找到s2出现的位置。KMP代码：#includeusingnamespacestd;constintN=1e6+10;chars1[N],s2[N];//全局变量名字不能定义为next//C++标准库中有一个函数名字是nextintnext1[N];//ne数组intmain(){/
CentOS7 python安装Ta-lib 0.6.x【talib不能直接安装，必须先安装ta_lib之c++库才可以】 weixin_43343144 服务器运维
正常流程：CentOS7python安装Ta-lib【talib不能直接安装，必须先安装ta_lib之c++库才可以】_centos7安装ta-lib-CSDN博客不同的版本参考如下！参考官方文档：ta-lib·PyPI务必下载匹配版本的【ta-lib-0.6.4-src.tar.gz】才可以正常安装$wgethttps://github.com/ta-lib/ta-lib/releases/do
【Kivy App】Pyjnius是什么？ Botiway 移动APP Kivy python
Pyjnius是一个Python库，用于在Python中访问Java类和方法，特别适用于在Kivy或其它Python应用中调用AndroidAPI。以下是Pyjnius的详细介绍、安装和使用方法：1.Pyjnius是什么？Pyjnius是一个Python-to-Java的桥接工具，允许Python代码直接调用Java类和方法。它基于JavaNativeInterface(JNI)，主要用于以下场景
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
基于Python PYQT5 的相机定时采集图像程序，GUI打包独立运行夏时summer time python qt 数码相机相机
基于PythonPYQT5编写相机定时采集图像及手动采集版本介绍Python3.6pyqt55.15.4pyqt5-tools5.15.4.3.2另外就是常用的cv2和numpy包fromPyQt5importQtCore,QtGui,QtWidgetsfromPyQt5importQtCore,QtGui,QtWidgetsimportcv2importnumpyasnpfromdatetime
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
Mac下载python并安装小小酥*
下载pythonPython官网：https://www.python.org/进入官网后点击download，选择MacOSX版本2.安装MAC系统一般都自带有Python2.x版本的环境，你也可以在链接https://www.python.org/downloads/mac-osx/上下载最新版安装。3.设置环境变量程序和可执行文件可以在许多目录，而这些路径很可能不在操作系统提供可执行文件的搜
Python使用minIO上传下载身似山河挺脊梁 python
前提VSCode+Python3.9minIO有Python的例子1.python生成临时文件2.写入一些数据3.上传到minIO4.获取分享出连接5.发出通知#创建一个客户端minioClient=Minio(endpoint='xx',access_key='xx',secret_key='xx',secure=False)#生成文件名current_datetime=datetime.dat
深入理解Python上下文管理器 ……-…… python 开发语言
1.什么是上下文管理器？2.with语句的魔法3.创建上下文管理器的两种方式3.1基于类的实现3.2使用contextlib模块4.异常处理1.什么是上下文管理器？上下文管理器（ContextManager）是Python中用于精确分配和释放资源的机制。它通过__enter__()和__exit__()两个魔术方法实现了上下文管理协议，确保即使在代码执行出错的情况下，资源也能被正确清理。#经典文件
【Appium】Appium征服安卓自动化：GitHub 10.5k+星开源神器，Python代码实战全解析！山河不见老 python 测试 appium android 自动化
Appium一、为什么开发者都在用Appium？二、环境搭建：5分钟极速配置2.1核心工具链2.2安卓设备连接三、脚本实战：从零编写自动化操作3.1示例1：自动登录微信并发送消息3.2示例2：动态滑动屏幕与数据抓取四、避坑指南4.1元素定位优化4.2稳定性增强4.3云真机集成五、生态扩展：超越安卓的自动化版图一、为什么开发者都在用Appium？万星认证：GitHub超10.5k+星标，活跃社区持续
基于Streamlit实现的音频处理示例大霸王龙音视频 ffmpeg
基于Streamlit实现的音频处理示例，包含录音、语音转文本、文件下载和进度显示功能，整合了多个技术方案：一、环境准备#安装依赖库pipinstallstreamlitstreamlit-webrtcaudio-recorder-streamlitopenai-whisperpython-dotx二、完整示例代码importstreamlitasstfromaudio_recorder_stre
异步编程中的并发编程优化 AI天才研究院架构师必知必会系列自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录1.简介2.基本概念术语说明什么是异步编程？为什么要异步编程？浅谈异步编程模型基于事件驱动的模型基于消息队列的模型基于协程的模型为什么要进行并发优化？3.基本算法原理和具体操作步骤1.串行执行2.并行执行3.任务分片4.超时重试5.异步回调6.消息队列7.缓存8.异步框架9.模型选择4.具体代码实例和解释说明模块划分1.串行执行2.并行执行3.任务分片4.超时重试5.异步回调6.消息队列7
npm错误 gyp错误 vs版本不对 msvs_version不兼容澎湖Java架构师前端 html npm node.js 前端
npm错误gyp错误vs版本不对msvs_version不兼容windowsSDK报错执行更新GYP语句第一种方案第二种方案执行更新GYP语句npminstall-gnode-gyp最新的GYP好像已经不支持Python2.7版本，npm会提示你更新都3.*.*版本安装Node.js的时候一定要勾选以下这个，会自动检测安装缺少的环境第一种方案管理员运行CMD（PowerShell也行）执行更新工具
深入了解 ArangoDB 的图数据库应用与 Python 实践 eahba 数据库 python 开发语言
在当前数据驱动的时代，对连接数据的高效处理和分析需求日益增长。ArangoDB作为一个可扩展的图数据库系统，能够加速从连接数据中获取价值。本文将介绍如何使用Python连接和操作ArangoDB，并展示如何结合图问答链来获取数据洞察。技术背景介绍ArangoDB是一个多模型数据库，支持文档、图和键值类型的数据存储。其强大的图形存储和查询能力使其成为处理复杂数据关系的理想选择。通过JSON支持和单一
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
一、Python入门基础 MeyrlNotFound python 开发语言
1.Python简介与环境搭建•了解Python的历史、特点和应用领域Python的历史Python是一种高级编程语言，由GuidovanRossum于1989年发明。Python语言的设计目标是让代码易读、易写、易维护，从而提高开发效率和代码质量。自其诞生以来，Python已从一个简单的系统管理工具发展成为一种广泛应用于多个领域的编程语言。Python的特点1.简单易学：Python的语法简洁明
npm error gyp info 计算机辅助工程 npm 前端 node.js
在使用npm安装Node.js包时，可能会遇到各种错误，其中gyp错误是比较常见的一种。gyp是Node.js的一个工具，用于编译C++代码。这些错误通常发生在需要编译原生模块的npm包时。下面是一些常见的原因和解决方法：常见原因及解决方法Python未安装或版本不兼容：Node.js使用Python来运行gyp。确保你的系统上安装了Python，并且版本与node-gyp兼容。通常推荐使用Pyt
股票量化交易开发 Yfinance 数字化转型2025 python 开发语言
以下是一段基于Python的股票量化分析代码，包含数据获取、技术指标计算、策略回测和可视化功能：pythonimportyfinanceasyfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfrombacktestingimportBacktest,Strategyfrombacktesti
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
算法训练（leetcode）第四十六天 | 110. 字符串接龙、105. 有向图的完全可达性、106. 岛屿的周长 Star Patrick 刷题日记算法 leetcode 职场和发展
刷题记录*110.字符串接龙105.有向图的完全可达性邻接矩阵邻接表106.岛屿的周长深搜简化代码*110.字符串接龙题目地址使用广搜。本题相当于求最短路径，因此使用广搜。如何应用广搜是一个难点，因为题目给的是字符串而非图的表示（邻接矩阵、邻接表），因此需要自行构建连接关系。题目要求每一步只能修改一个字符，因此从起始字符串开始，对字符串中的每一个字符进行修改，修改后在输入的字符串列表中查找是否存在
Java架构师成长之路 hweiyu00 分享 spring 微服务 spring cloud java
概述本教程主要从6个方面，全面讲解Java技术栈的知识。1.性能调优深入理解MySQL底层原理、索引逻辑，数据结构与算法。使用Explain进行优化分析MVCC原理剖析日志机制解析2.框架源码掌握Spring底层原理带你手写一个Spring解析IOC、AOP源码、以及事务原理3.并发编程剖析Java底层锁机制CAS、JUC工具使用、AQS源码分析以及并发的集合类的讲解4.分布式开发剖析分布式中使用
sqlmap笔记君如尘网络安全-渗透笔记笔记
1.运行环境sqlmap是用Python编写的，因此首先需要确保你的系统上安装了Python。sqlmap支持Python2.6、2.7和Python3.4及以上版本。2.常用命令通用格式：bythonsqlmap.py-r注入点地址--参数-rpost请求-uget请求--level=测试等级--risk=测试风险-v显示详细信息级别-p针对某个注入点注入-threads更改线程数，加速--ba
python环境部署工具 uv Honnnnnn uv
以原先使用的pipenv工具为例子，通过pipfile.lock生成requirements文件，再将requirements转成pyproject.toml文件，最后生成uv.lock基于当前虚拟环境导出requirements.txt--pipfreeze>requirements.txt（如果原先不是env而是基础的通过requirements.txt文件，省去转化requirements的
笔记：代码随想录算法训练营day60：并查集理论基础、寻找存在的路径 jingjingjing1111 笔记
本文为学习并查集理论基础|代码随想录、代码随想录过程中的思考find是找的顶头上司，而不是当前上司，最后怎么也得找到一个顶头上司的上司是自己，要不然这个结构也不成立使用issame替换会使被操作者为当前节点，而非根节点。join(u,v)的功能为将v的根节点挂到u的根节点下模拟过程可以看出，join中的find中的路径压缩要在长度大于2（路径大于1）的时候才会体现出来107.寻找存在的路径卡码网题
【Matlab光伏功率预测】基于RF随机森林算法的多变量光伏功率预测（附MATLAB代码）天天科研工作室光伏功率预测算法 matlab 随机森林机器学习
【Matlab光伏功率预测】基于RF随机森林算法的多变量光伏功率预测（附MATLAB代码）文章目录【Matlab光伏功率预测】基于RF随机森林算法的多变量光伏功率预测（附MATLAB代码）文章介绍基本步骤代码分享运行结果参考资料文章介绍随机森林可以应用于光伏功率预测，这是一项重要的任务，旨在估计光伏发电系统的输出功率。光伏功率预测在可再生能源管理、电网调度和能源计划等领域具有广泛的应用。随机森林回
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

【科普】半监督学习的概述与思考，及其在联邦学习场景下的应用

你可能感兴趣的:(算法,大数据,python,计算机视觉,机器学习)