Ace2NoU

【学习笔记】标签噪声下利用深度学习进行图像分类任务——概述

论文地址

[1912.05170v1] Image Classification with Deep Learning in the Presence of Noisy Labels: A Survey (arxiv.org)https://arxiv.org/abs/1912.05170v1

Abstract

Introduction

Preliminaries

Problem Statement

Label Noise Models

Sources of Label Noise

Methodologies

Noise Model Based Methods

Noisy Channel 噪声信道

Label Noise Cleaning 噪声清洗

Sample Choosing 样本选择

Sample Importance Weighting 样本重要性赋权

Labeler Quality Assessment 标签机质量评估

Noise Model Free Methods

Robust Losses 鲁棒性损失函数

Meta Learning 元学习

Multiple-Instance Learning 多实例学习

Semi-Supervised Learning 半监督学习

Regularizers 正则化

Ensemble Methods 集成方法

Others 其他

Dataset and Noise Generation

Datasets and Test Set 数据集和测试集

Adding Synthetic Label Noise 添加合成标签噪声

Conlusion

Abstract

用于进行图像分类的神经网络需要大量的标记数据来进行适当的训练。但是，由于分类的困难和标记过程的高代价，使得标签噪声是数据集中普遍存在的问题。

众所周知，深度网络对标签噪声具有一定的鲁棒性，但它们倾向于过拟合数据，这使它们容易对噪声进行记忆，甚至是完全随机的噪声也是如此。因此，为了有效地训练深度神经网络，必须考虑标签噪声的存在，并开发相应的对抗算法来消除其负面影响。

本文的目的是在提出这些算法的同时，根据它们的相似性对它们进行分类。

一种常见的用于图像分类的卷积神经网络(CNN)结构图

Introduction

尽管强大的模型会具有令人印象深刻的泛化能力，但研究表明，它们能够记忆完全随机的噪声。如何避免记忆噪声，是一个重要的挑战。

这里我们将噪声分为两种，即特征噪声和标签噪声。特征噪声对应观测到的数据特征的破坏，而标签噪声则是标签从其真实类别标签的变化。

一种特征噪声，将图像原有的特征加以破坏

一种标签噪声，将图像的类别加以变化

两种噪声类型均可能会导致性能的下降，但是标签噪声往往被认为是更有害的。标签对每个数据都是唯一的，而数据的特性是多重的，每个特性的重要性是不同的，标签总是对神经网络训练有很大的影响。

事实上，监督学习需要过多的带标签数据是一个主要的缺点，因为它需要一个昂贵的数据集收集和标记过程。当前，数据收集和标记的过程往往借助于搜索引擎和网络，也可以通过众包来完成。这样的做法导致数据的收集和标记过程都会产生噪声。

本文是关于围绕标签噪声深度学习的分类方法的全面调查。

Preliminaries

Problem Statement

记无噪声数据集 $D={(x_1,y_1)...(x_n,y_n)}$ ，有噪声数据集 $\tilde{D}={(x_1,\tilde{y _1})...(x_n,\tilde{y _n})}$

参考集，是一个无噪声的子集。最终数据集用表示，则可分为两种。

一种是带有参考集的： $D_f=\left \{ D_{ref},\tilde{D}\right \}$

一种是不带有参考集的： $D_f=\left \{ \tilde{D} \right \}$

标签向量在二元分类任务中，是二进制变量，在多分类任务中，则是一个单热向量。

对于多标记的数据，在唯一的情况下，一个实例可以有多个 $\tilde{y _i}$ 。如果一个实例包含多个对象，y则可以代表多个类。

Label Noise Models

随机噪声是完全随机的，既不依赖实例的特征，也不依赖它的类别。如果存在一个给定的转移概率矩阵，那么标签将依据矩阵改变它的真实类别。

一个噪声率为0.4的对称噪声转移概率矩阵(混淆矩阵)

依赖噪声 噪声与实例无关，但依赖于实例的类别。这意味着来自特定类的数据更有可能被错误标记。

依赖噪声同时依赖于和。在依赖的情况下，来自特定类的对象更有可能被错误标记。依赖则意味着错标的几率可能会根据数据特征而改变。

Sources of Label Noise

噪声会产生于获取数据的过程中。
噪声会由于不同标记者的水平不同而产生。
过于复杂的数据即使是专家也会产生误分类。
数据中毒中需要使用标签噪声。

Methodologies

提高分类性能的方法目前可分为两类：基于噪声模型的方法和非基于噪声模型的方法。

基于噪声模型的方法旨在为噪声建立一个噪声的模型，并用这个模型提供的信息来训练分类器，以达到良好的鲁棒性。

非基于噪声模型的方法旨在设计一个更为通用的算法来克服噪声带来的负面影响。

Noise Model Based Methods

Noisy Channel 噪声信道

通过对噪声转移矩阵建模，提取数据样本的真实分类概率，并将其送入分类器进行噪声鲁棒训练。

噪声信道是模型预测和噪声标签之间的映射。

噪声可以被建模为基础分类器上的噪声信道

在这类方法中，一个常见的问题是可扩展性，因为增加类的数量需要在噪声转移矩阵中估计更多的参数。这可以通过只允许在最可能的节点或预定义节点之间连接来避免。

噪声信道的建模方法可以大致分为三种：

Extra Layer：噪声信道可以建模为分类器之上的额外一层。在反向传播阶段，无噪声梯度通过这一层进行干净的训练。这一层可以是线性全连接层或者是应用了dropout的softmax层。
Seperate Network：在该方法中，噪声信道采用另一个网络进行建模。方法包括，采用两种卷积神经网络分别预测实例的真实标签和噪声类型，然后使用期望最大化算法(EM)迭代计算随机变量和网络参数的后验；使用屏蔽，允许某些类转换发生而其他类不发生；引入了一个新的参数，即嵌入质量，它表示数据的可信度，并由神经网络进行估计，基于真类概率和嵌入质量两个变量，分类器进行分类。
Explicit Calculation：可以显式地计算噪声转移矩阵，并应用于将模型预测映射到噪声标记。可以采用的算法有期望最大化算法、条件独立性、前向和后向损失、无监督生产模型、贝叶斯定理等。

Label Noise Cleaning 噪声清洗

处理噪声标签的一种简单方法是去除带有可疑标签的样本，或将其噪声标签修正为与真实类别相对应的类别。这可以在训练数据的预处理阶段完成，但这类方法通常解决了从带有噪声标签的样本中区分有信息的硬样本的困难。

硬样本：Hard Sample，是相对于Easy Sample而言的。两种样本均是干净的，但是分类器（神经网络）往往更容易学习到Easy Sample的特征和信息，对于Hard Sample则比较难以学习。

根据对参考集的需要，可将这类方法分为使用参考集和不使用参考集。

使用参考集：如果存在一个干净的数据子集，该子集既有噪声标签又有经过验证的真标签，则可以使用在该数据集上训练的网络重新标记噪声标签。

在参考集上训练清洁器，用于噪声清洁
基于特征提取的噪声清洁
导师网络为学生网络清洁噪声
采用不同数据集子集训练的网络集成学习，如果他们都同意标签，它被更改为预测标签，否则标签设置为随机标签。

不使用参考集：

网络预测的移动平均
一致性的损失
网络整合
为每个类构造原型，这些原型能够代表对应类的深度特征分布
数据集随机分割
部署信任策略，其中标签由网络输出或给出噪声标签决定。随着迭代数数的增加，网络输出的置信度增加，使得网络在训练时能够更好地预测标签

Sample Choosing 样本选择

克服标签噪声的一种广泛使用的方法是控制进入到分类器的输入流。引导网络选择正确的实例进行训练，可以帮助分类器在有噪声标签的情况下更好的学习。由于这些方法在现有系统之外操作，因此它们更容易作为附加组件附加到现有系统中。

Self Consistency 自我一致性：通过检查标签与网络预测的一致性，可以选择下一个待训练的样本

网络预测的移动平均
与模型一致，如果给定样本的标签预测和模型预测一致，则将其用于训练集。否则，模型有权不同意。
标签预测和模型预测的移动平均之间的一致性
基于图的方法
在概率分类器的帮助下，训练数据被分为两个子集:自信的干净子集和噪声子集。根据这些子集的大小估计噪声率，并从干净子集中去除不太自信的例子。最后，在修剪后的数据集上训练分类器

Curriculum Learning 课程学习：从简单的样本开始，经过较难的样本来指导训练

筛选损失函数
导师-学生网络
在训练中选择不确定的样本
提取类与类之间的相似关系，然后将计算出的相似矩阵作为额外层加入模型当中，并输入硬样本进行微调
选择损失值低的样本进行损耗计算的课程损失，将该损失作为0-1损失上界进行优化
根据数据的复杂性，将数据分成子组，并通过在完整数据集上预先训练的网络进行提取
使用一个网络来寻找和估计容易丢失的样本，其他网络来训练这些校正的数据

Multiple Classifiers 多分类器：使用两个分类器互相帮助，选择下一批数据进行训练。这不同于教师-学生的方法，因为没有一个网络监督对方，但他们更愿意互相帮助，这可以提供鲁棒性。

如果两个网络都不同意给定的标签，则假设标签是有噪声的，只有当两个网络的预测发生冲突时才更新模型权重
采用合作教学范式，两个网络相互选择对方的下一批数据

Active Learning 激励学习：对整个数据集进行正确的注释可能代价高昂，因此可以使用主动学习方法只标记关键实例

在一个大的有噪声的数据集上训练网络，这些数据集很容易从网络上获得。在训练分类器之后，与模型预测有太多不一致的实例被发送到注释器进行校正。重复这个过程，直到获得所需的分类精度。

Sample Importance Weighting 样本重要性赋权

根据估计的噪声水平为实例赋权，可以使训练更加有效。这样做的效果是强调更清晰的实例，以便更好地更新模型权重。

一种基于元学习为样本赋权的算法流程图

样本赋权的方法有

加权因子取决于条件分布和噪声率
训练两个独立的网络处理标签偏差:视觉呈现分类器和相关性分类器
相似性损失：图像与其噪声标签的相关性，然用来衡量特定样本对学习的重要性
将图像特征分组，并进行稀疏正则化，迫使模式选择相关特征，从而使可靠图像的权重更大
采用元学习范式确定权重因子
通过对Siamese网络的识别特征的学习，将干净的和有噪声的数据分离出来，从而实现对噪声标签的检测
根据pLOF加权引入弃权，根据样本的交叉熵误差，可以选择弃权样本，并设置弃权惩罚
利用θ分布中样本的θ值来计算干净样本的概率，并利用这个信息在训练中增加干净样本的权重。检查生成分布和目标分布之间的一致性来估计数据样本的质量

Labeler Quality Assessment 标签机质量评估

多标记数据集的存在可能有几个原因。每个标签者可能有不同的专业知识，他们的标签通常相互矛盾。众包数据或数据集中常见的情况之一就是，在如医学成像等领域，需要高水平的专业知识。因此，建模和使用标签器特性可以显著提高性能。在这种设置中，有两个未知数，即标签器噪声转移矩阵和真实标签。目前研究的方法有：

用EM算法来进行估计。
在损失函数中添加了一个正则化器，该函数是注释器混淆矩阵的迹之和，这个附加项有助于在一些温和的条件下近似出真正的混淆矩阵。
估计图像的难度，以更好地评估标签的准确性。
人和计算机视觉系统相互使用
处理图像中省略标签时的噪声，采用省略概率变量来代替标签符的混淆矩阵，并利用EM算法与真类一起进行估计。
针对每个注释器和最终的分类器训练Softmax层，根据标签特定的网络的输出和数据的特征来预测数据的真实类别。这种设置使得能够在单独的网络中为每个标记器建模，以及为它们的整体噪声结构建模。

Noise Model Free Methods

Robust Losses 鲁棒性损失函数

如果分类器在有噪声和无噪声的数据中学习，两者达到相同的分类精度，则称损失函数具有噪声鲁棒性。

本节旨在设计损失函数，使噪声不会降低分类器性能。然而，即使对于鲁棒损失函数，噪声也会严重影响性能。某些非凸损失函数，如0-1损失，比常用的凸损失具有更大的噪声容忍度。

一些研究证明了在均匀非均匀噪声和非均匀噪声风险最小化下容忍噪声的充分条件。

如果一个损失函数是对称的，这意味着它的分量之和等于一个常数，噪声水平低于一个阈值，在均匀噪声下，它是噪声鲁棒的。

经验表明，在给定的情况下，没有一个标准的凸损失函数具有噪声鲁棒性，而0-1的损失具有噪声鲁棒性。

然而，0-1损失是非凸的，不可微的，因此一些研究也提出了0-1损失的替代损失，这仍然是噪声敏感的。

在其他情况下，我们还有以下方法使得损失函数达到鲁棒性

MAE及其改进IMAE
广义交叉熵和对称交叉熵
线性奇损失
分类校准的损失函数
利用标签噪声的先验信息的损失函数的无偏加权估计
修改的交叉熵损失（省略噪声）

Meta Learning 元学习

虽然网络能够自主学习复杂的功能，但仍然存在许多手工设计的参数，如网络结构、超参数、优化算法等。元学习的目的是消除这些必要，不仅学习任务所需的复杂功能，而且学习“学习”本身。目前的研究有：

元任务可以定义为在一系列方法中预测给定噪声数据集最合适的方法
泵出，定义的元目标是通过尺度梯度上升来消除噪声样本对模型的影响，来恢复噪声样本所造成的损伤。
通过元学习找寻权重初始化方案，也可找出在师生训练架构下不易受噪音影响的容忍噪音模型参数
知识蒸馏，在一个干净的数据集中训练一个教师网络，并将其知识转移到学生网络，以便在存在错误标记数据的情况下指导训练过程。
梯度控制调整，目标网络在噪声过大的数据上进行训练，置信网络在参考集上进行训练，置信网络的任务是控制目标网络梯度更新的大小，使噪声标签不会导致更新梯度。

一种通过元学习更正错误标签的算法流程图

Multiple-Instance Learning 多实例学习

数据被分为“包”或“簇”。在一包数据中，有一个为正例则该包为正。一个包的数据输入网络，但只产生一个输出。目前研究的方法有：

最小化总“包”级损失，来有效地从每个包中选择训练样本来训练噪声鲁棒分类器。
训练额外模型作为注意力模型，选择部分要聚焦的图像。其目的是关注正确标记图像上的少数区域，而不是关注任何错误标记图像的区域。

Semi-Supervised Learning 半监督学习

由于噪声只存在于标签中，而不存在于特征中，因此可以去除带有噪声实例的标签，并以半监督的方式对网络进行训练。

在学习开始前去除最有可能是噪声的标签
在学习过程中迭代去除噪声标签

Regularizers 正则化

众所周知，正则化可以防止DNN过度拟合噪声标签。

Dropout
对抗性训练
混合
标签平滑
预训练

有研究提出了一种复杂性度量来理解网络是否开始过度拟合。其结果表明，学习包括两个步骤：

维数压缩，建模一个与底层数据的分布密切匹配的低维子空间
维数展开，稳步增加子空间维数以过拟合数据。

防止过拟合的关键是在第二步之前停止学习。

局部内在维数(LID)可用于测量训练模型的复杂性，并在其开始过拟合前停止。

Ensemble Methods 集成方法

LogitBoost&BrownBoost
基于AdaBoost的噪声检测
rBoost
RBoost1&RBoost2
鲁棒多类AdaBoost

Others 其他

协方差最小行列式
使用补充标签
带有噪声和低噪声标签的数据集
自动编码器重构错误

Dataset and Noise Generation

Datasets and Test Set 数据集和测试集

用于测试在存在标签噪声的情况下的算法性能的基准数据集可分为两个子类别：

具有噪声标签的数据集，这类数据集通常有干净注释的样本参考集，以便用作验证集。
具有干净标签的数据集。这类数据集，在保持验证集干净的同时，可以手动添加合成标签噪声，以评估网络的性能。

图像分类任务中常用的公开数据集
Name	Image count	Class count
Datesets with Clean Annotation
MNIST	70K	10
Fashion-MNIST	70K	10
Cifar10	60K	10
Cifar100	60K	100
SVHN	630K	10
ImageNet	1.2M	1000
MS-COCO	320K	80
OpenImages	9M	6012
Datesets with Noisy Annotation
Clothing1M	1M	14
Food101N	310K	101
WebVision	2.4M	1000
YFCC100M	100M	5400

Adding Synthetic Label Noise 添加合成标签噪声

Y-Dependent Noise

Y−依赖噪声可以用混淆矩阵表示，其中 $p_{ij}$ 项表示实例的标签从第类翻转到第类的概率。

均匀噪声：选择任何其他类（不是其本身真正的类）的概率，是均匀分布的。可以定义一个预定义的错标概率，并将每个类的样本从它的真类改变为具有相同概率的任何其他类。

均匀噪声的混淆矩阵

随机噪声：选择任何其他类别（不是真正的类别）的概率，是随机分布的。对于第类到第类的每一个误标概率，可以定义一个误标 $p_{ij}$ 的随机概率。

随机噪声的混淆矩阵

$p_i=p_{i0}+...p_{in}$

成对噪声：一个类的任何实例只能以的概率翻转到另一个类。在这种类型的噪声中，学习的充分条件是，否则成对错误标记的数据占多数。

成对噪声的混淆矩阵

类依赖噪声：根据类的相似性分配从类到的翻转概率。例如，在手写体数字识别任务中，将1错标为7的概率可能更高，而 $p_{15}$ 则更低。这些概率可以由人工标注者分配，也可以由预先训练的网络的预测概率分配。

类依赖噪声的混淆矩阵

XY-Dependent Noise

人工创建这种XY-依赖噪声比之前的要复杂，因为需要考虑每个样本的特征向量。最简单的方法是使用人工注释器来选择样本，但这既昂贵又缺乏扩展性。一种特别的方法是使用预训练网络，直接对给定的数据或来自相似但不同域的数据集进行训练，提取决策边界。

Conlusion

在这篇论文中，为了从真实的数据集中获得理想的性能，标签噪声是一个重要的障碍使处理标签噪音成为通过自我持续学习系统的重要一步。方法可以细分为两大类:基于噪声模型的方法和无噪声模型的方法。

第一组的方法旨在以某种方式对噪声进行建模，并利用这些信息来减少噪声标签对学习的负面影响。
第二组方法的目的是设计更通用的算法，以消除噪音的影响尽管对机器学习技术进行了大量的研究，但通过噪声标签进行深度学习肯定是一个有待研究的问题。考虑到其对DNNs的显著影响，该领域仍有许多悬而未决的研究课题。例如，真正理解标签噪声对深度网络的影响可能是一个富有成果的未来研究课题。
了解网络的哪些部分受标签噪声的影响较大，有助于有效地实现迁移学习。当数据量较小时，对带噪声标记的数据集的学习关注很少。考虑到它在收集数据集成本高昂的领域的潜力，这可能是一个卓有成效的研究方向。

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
阶段总结反思轻争
马上就要进入10月份了，今天做一下前段时间的总结和反思。前段时间，日更、英语、健身、护肤坚持的比较好。阅读、书法坚持的不好。1.中间被迫停更半个多月，其余时间一直在坚持日更挑战。偶尔也有不想写的时候，就做一下摘抄。因为阅读（输入）没跟上来，所以写作（输出）质量有待进一步加强。2.英语做到了一周至少学习5天，每次不少于30分钟，但是小班课没有跟上更新速度，下一步要争取利用零碎时间补听小班课。3.减肥
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
2019-3-23晨间日记红红火火小耳朵
今天是什么日子起床：7点40就寝：23点半天气：有太阳，不过一会儿出来一会儿进去特别清爽的凉意，还蛮舒服的心情：小激动要给女朋友过生日啦纪念日：田田女士过生日任务清单昨日完成的任务，最重要的三件事：1.英语一对一2.运动计划3.认真护肤习惯养成：调整状态周目标·完成进度英语七天打卡（5/7）轻课阅读（87/180）音标课（25/30）读书（福尔摩斯一章）学习·信息·阅读#英语课#Cookingte
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
教育用心灵温暖心灵
@陈春丽长期学习班冯倩。今天一早就听到说高职合并，取消中专教育的教育信息。感觉是虽然知道，再听还是吓一跳。国家重视职业教育为何还要取消中专技术学校的教育？再听高中就要进行技术教育了，一部分人学习好继续努力学习考大学，一部分人在高中就可以进行职业教育接受职业教育了还要中专技术教育学校干什么呢！a有些职业教育学校转型升级快，不是孩子上完给找工作，而是学校帮孩子创业，我觉得是不错的方向！新闻新你得实时更
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
学习“论语”-第59天春峰轩
12.14子张问政。子曰：“居之无倦，行之以忠。”子张问为政之道。孔子说：“在位尽职不懈怠，执行政令要忠诚。”12.15子曰：“博学于文，约之以礼，亦可以弗畔矣夫！”孔子说：“君子广泛地学习文献，并且用礼节约束自己，也就不会离经叛道了。”12.16子曰：“君子成人之美，不成人之恶。小人反是。”孔子说：“君子成全别人的好事，而不助长别人的坏处。小人则与此相反行事。”知识点:“成人之美，不成人之恶”贯
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep

【学习笔记】标签噪声下利用深度学习进行图像分类任务——概述

Abstract

Introduction

Preliminaries

Problem Statement

Label Noise Models

Sources of Label Noise

Methodologies

Noise Model Based Methods

Noisy Channel 噪声信道

Label Noise Cleaning 噪声清洗

Sample Choosing 样本选择

Sample Importance Weighting 样本重要性赋权

Labeler Quality Assessment 标签机质量评估

Noise Model Free Methods

Robust Losses 鲁棒性损失函数

Meta Learning 元学习

Multiple-Instance Learning 多实例学习

Semi-Supervised Learning 半监督学习

Regularizers 正则化

Ensemble Methods 集成方法

Others 其他

Dataset and Noise Generation

Datasets and Test Set 数据集和测试集

Adding Synthetic Label Noise 添加合成标签噪声

Conlusion

你可能感兴趣的:(图像分类学习,深度学习,人工智能,cnn,分类,神经网络)