龙海L

Long-Tail(长尾)问题的解决方案

长尾问题

在实际的视觉相关问题中，数据都存在长尾分布：少量类别占据绝大多数样本，大量的类别仅有少量的样本，比如open-images,ImageNet等。
解决长尾问题嘚方案一般分为4种：

1，Re-sampling:主要是在训练集上实现样本平衡，如对tail中的类别样本进行过采样，或者对head类别样本进行欠采样；

2，Re-weighting：主要在训练loss中，给不同的类别的loss设置不同的权重，对tail类别loss设置更大的权重
3，Learning strategy（阶段训练）：有专门为解决少样本问题涉及的学习方法可以借鉴，如：meta-learning、metric learning、transfer learing。另外，还可以调整训练策略，将训练过程分为两步：第一步不区分head样本和tail样本，对模型正常训练；第二步，设置小的学习率，对第一步的模型使用各种样本平衡的策略进行finetune。

4，综合使用以上策略

文章目录

- - 长尾问题
- 常见解决方法
- - 1，数据增强
  - - 空间几何变换类
    - 噪声类
    - Pytorch上的transforms的二十二个方法
  - 2，过采样，欠采样
  - 过采样和欠采样的中间方法：数据分布做平滑
  - 阈值移动
  - 图像分类训练技巧包
- 解决方案二，BalancedGroup Softmax
- - Balanced Group Softmax
  - 实验
  - Balanced-Meta Softmax
- 重采样类
- - 双边分支网络BBN
  - 我们的方法
  - Decoupling Representation and Classifier（与BBN原理相似）
  - Dynamic Curriculum Learning for Imbalanced Data Classification，ICCV 2019
- 重加权（re-weighting）方向
- - Equalization Loss
  - 论文笔记
  - Class-Balanced Loss Based on Effective Number of Samples，CVPR 2019
  - Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss，NIPS 2019
  - Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition from a Domain Adaptation Perspective, CVPR 2020
  - Remix: Rebalanced Mixup, Arxiv Preprint 2020
- 迁移学习方向
- - OLTR(Large-Scale Long-Tailed Recognition in an Open World，CVPR 2019)
  - Deep Representation Learning on Long-tailed Data: A Learnable Embedding Augmentation Perspective，CVPR 2020
- 利用因果分析解决通用长尾分布问题

常见解决方法

1，数据增强

空间几何变换类

翻转：上下，左右
局部裁剪
旋转
缩放变形
仿射变换
同时对图片做裁剪，旋转，转换，模式调整等多重操作
视觉变换
对图像应用一个随机的四点透视变换
分段防射

噪声类

高斯噪声，
CoarseDropout
在面积大小可选定、位置随机的矩形区域上丢失信息实现转换，所有通道的信息丢失产生黑色矩形块，部分通道的信息丢失产生彩色噪声。
SimplexNoiseAlpha产生连续单一噪声的掩模后，将掩模与原图像混合
FrequencyNoiseAlpha在频域中用随机指数对噪声映射进行加权，再转换到空间域。在不同图像中，随着指数值逐渐增大，依次出现平滑的大斑点、多云模式、重复出现的小斑块。
2.2 模糊类减少各像素点值的差异实现图片模糊，实现像素的平滑化。高斯模糊
ElasticTransformation
根据扭曲场的平滑度与强度逐一地移动局部像素点实现模糊效果。
随机擦除法
对图片上随机选取一块区域，随机地擦除图像信息。
超像素法（Superpixels）
在最大分辨率处生成图像的若干个超像素，并将其调整到原始大小，再将原始图像中所有超像素区域按一定比例替换为超像素，其他区域不改变。
GrayScale将图像从RGB颜色空间转换为灰度空间，通过某一通道与原图像混合。

Pytorch上的transforms的二十二个方法

参考文献：https://blog.csdn.net/qq_41168327/article/details/104620934
1.裁剪——Crop
中心裁剪：transforms.CenterCrop
随机裁剪：transforms.RandomCrop
随机长宽比裁剪：transforms.RandomResizedCrop
上下左右中心裁剪：transforms.FiveCrop
上下左右中心裁剪后翻转，transforms.TenCrop
2，翻转和旋转——Flip and Rotation
依概率p水平翻转：transforms.RandomHorizontalFlip(p=0.5)
依概率p垂直翻转：transforms.RandomVerticalFlip(p=0.5)
随机旋转：transforms.RandomRotation
3，图像变换
resize：transforms.Resize
标准化：transforms.Normalize
转为tensor，并归一化至[0-1]：transforms.ToTensor
填充：transforms.Pad
修改亮度、对比度和饱和度：transforms.ColorJitter
转灰度图：transforms.Grayscale
线性变换：transforms.LinearTransformation()
仿射变换：transforms.RandomAffine
依概率p转为灰度图：transforms.RandomGrayscale
将数据转换为PILImage：transforms.ToPILImage
transforms.Lambda：Apply a user-defined lambda as a transform.
4，对transforms操作，使数据增强更灵活
transforms.RandomChoice(transforms)：从给定的一系列transforms中选一个进行操作
transforms.RandomApply(transforms, p=0.5)，给一个transform加上概率，依概率进行操作
transforms.RandomOrder，将transforms中的操作随机打乱

2，过采样，欠采样

Pytorch上的过采样和欠采样
过采样：重复正比例数据，实际上没有为模型引入更多数据，过分强调正比例数据，会放大正比例噪音对模型的影响。
欠采样：丢弃大量数据，和过采样一样会存在过拟合的问题。但总的来肯定是利大于弊 pytorch的权重采样使用WeightedRandomSampler函数
代码示例：

import torch
from torch.utils.data import DataLoader,WeightedRandomSampler
from dataset import train_dataset
weights = torch.FloatTensor([1,2,2,4,4,1])#weights：指每一个类别在采样过程中得到权重大小（不要求综合为 1），权重越大的样本被选中的概率越大
train_sampler = WeightedRandomSampler(weights,len(train_dataset),replacement=True)#第二个参数是num_samples:共选取的样本总数，待选取得样本数目一般小于全部的样本数目；replacement ：指定是否可以重复选取某一个样本，默认为 True，即允许在一个 epoch 中重复采样某一个数据。如果设为 False，则当某一类的样本被全部选取完，但其样本数目仍未达到 num_samples 时，sampler 将不会再从该类中选择数据，此时可能导致 weights 参数失效。
train_sampler = DataLoader(train_dataset,sampler=sampler)

函数加权：
就是在计算损失函数过程中，对每个类别的损失做加权，具体的方式如下：

weights = torch.FloatTensor([1,1,8,8,4])
criterion = nn.BCEWithLogitsLoss(pos_weight=weights).cuda()

在数据样本中的采样均衡，以Xgboost为例：
利用imblearn这个包对训练集进行处理

# 生成不平衡分类数据集
from collections import Counter
from sklearn.datasets import make_classification
from imblearn.over_sampling import RandomOverSampler
X, y = make_classification(n_samples=3000, n_features=2, n_informative=2,
                           n_redundant=0, n_repeated=0, n_classes=3,
                           n_clusters_per_class=1,
                           weights=[0.1, 0.05, 0.85],
                           class_sep=0.8, random_state=2018)
print(X)
print(Counter(y))#生成了一个类别个数为3的不均衡的样本集
#下面采用集中采样方法，降低样本不均衡带来的影响
# 使用RandomOverSampler从少数类的样本中进行随机采样来增加新的样本使各个分类均衡
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_sample(X, y)
print(sorted(Counter(y_resampled).items()))
# SMOTE: 对于少数类样本a, 随机选择一个最近邻的样本b, 然后从a与b的连线上随机选取一个点c作为新的少数类样本，  属于新样本生成得方式增加少数样本类的个数
from imblearn.over_sampling import SMOTE
X_resampled_smote, y_resampled_smote = SMOTE().fit_sample(X, y)
print(sorted(Counter(y_resampled_smote).items()))
# ADASYN: 关注的是在那些基于K最近邻分类器被错误分类的原始样本附近生成新的少数类样本
from imblearn.over_sampling import ADASYN
X_resampled_adasyn, y_resampled_adasyn = ADASYN().fit_sample(X, y)
print(sorted(Counter(y_resampled_adasyn).items()))
# RandomUnderSampler函数是一种快速并十分简单的方式来平衡各个类别的数据: 随机选取数据的子集.
from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler(random_state=0)
X_resampled, y_resampled = rus.fit_sample(X, y)
print(sorted(Counter(y_resampled).items()))

下面是xgb.DMatrix设置每一个样本的权重，这样模型在计算损失的过程中都会结合每个样本的权重去计算。例如：样本1的权重为0.1，样本2的权重为0.5，样本3的权重为1.2，则如果这三个样本计算损失为： $Loss=0.1*Loss_1+0.5*Loss_2+1,2*Loss_3$ 。

import xgboost as xgb
import pandas as pd
import time
import numpy as np
dataset=pd.read_csv("mnist_train",header=None, nrows =5001)
train = dataset.iloc[0:5000,:784].values
labels = dataset.iloc[0:5000,784:785].values

params={
'booster':'gbtree',
# 这里手写数字是0-9，是一个多类的问题，因此采用了multisoft多分类器，
'objective': 'multi:softmax', 
'num_class':10, # 类数，与 multisoftmax 并用
'gamma':0.05,  # 在树的叶子节点下一个分区的最小损失，越大算法模型越保守 。[0:]
'max_depth':12, # 构建树的深度 [1:]
#'lambda':450,  # L2 正则项权重
'subsample':0.4, # 采样训练数据，设置为0.5，随机选择一般的数据实例 (0:1]
'colsample_bytree':0.7, # 构建树树时的采样比率 (0:1]
#'min_child_weight':12, # 节点的最少特征数
'silent':0 ,
'eta': 0.05, # 如同学习率http://localhost:8889/notebooks/Test.ipynb#
'seed':701,
'nthread':4,# cpu 线程数,根据自己U的个数适当调整
}

plst = list(params.items())

#Using 10000 rows for early stopping. 
offset = 4000  # 训练集中数据60000，划分50000用作训练，10000用作验证

num_rounds = 50 # 迭代你次数

# 定义每一个样本的权重
weight = []
for ele in labels[:offset]:
    if ele < 5:
        weight.append(0.1)
    else:
        weight.append(1.0)
# 划分训练集与验证集 
xgtrain = xgb.DMatrix(train[:offset,:], label=labels[:offset], weight=weight)
xgval = xgb.DMatrix(train[offset:,:])
y_label=labels[offset:]

# training model 
# early_stopping_rounds 当设置的迭代次数较大时，early_stopping_rounds 可在一定的迭代次数内准确率没有提升就停止训练
print("开始训练")
model = xgb.train(plst, xgtrain)
print("结束训练")
pred_val = model.predict(xgval)
print(pred_val)
print(accuracy_score(pred_val, y_label))
print(confusion_matrix(pred_val, y_label))

过采样和欠采样的中间方法：数据分布做平滑

重采样的权重使用函数进行拟合：
$q_i=p^{\alpha}_i/\sum_{}^N$
其中， $p_i$ 是原始类样本占比， $p_i=n_i/\sum_{k=1}^Nn_k$
,通过这种平滑抽样，抽样结果不会改变原始的各类别数据量大小的序关系，但是对类别数量过大的类数据量会相对减少，对类别数量过小的类数据量会相对增加。减少过拟合的可能性，也没有过度浪费数据。
参见论文：https://arxiv.org/pdf/1901.07291.pdf

阈值移动

就是对阈值进行调整。直接基于原始数据训练，进行预测时，用样例的真实观测几率来修正阈值。

数据不均衡，分类的会向样本大的位置偏置，所以预测时不按照置信度最大的分类，而是置信度大于样本占比就可以当做分为这一类，降低了样本少的分类置信度。

图像分类训练技巧包

论文：https://arxiv.org/pdf/1812.01187v2.pdf
这篇文章是亚马逊李沐团队的一篇技巧(tricks)文章，被CVPR2019收录了。虽然题目是讲的Image Classification，但是作者也说了，在目标检测，实例分类等问题上也是有一定的作用的。
技巧部分从以下几个部分展开：
efficient training 高效训练

蓝线代表常见的保持 Batch Size，逐步衰减学习率的方法；
红线代表与之相反的，保持学习率，相应的上升 Batch Size 的策略；
绿线模拟真实条件下，上升 Batch Size 达到显存上限的时候，再开始下降学习率的策略。
显然，增大 Batch Size 的方法中参数更新的次数远少于衰减学习率的策略。
但是一味的增大batch_size会造成一些缺点：1.模型收敛过慢。2.占用更大的显存。3.训练结果反而会比较小的Batch_size训练结果更差。那我们有没有什么办法在增大Batch_size的同时又避免这些缺点呢？方法如下：1.Large-batch training 大批量训练；2. Learning rate warmup 学习率预热
为了进行大Batch_size的训练，作者对比四种启发方法：

Linear scaling learning rate 等比例增大学习率
大批量会降低梯度中的噪声，因此我们可以提高学习率，以便进行调整。
例如：作者按照何恺明的resnet论文中的内容，选择0.1作为Batch_size为256的初始学习率。当第b个batch时，学习率线性增加到0.1×b/256。
Learning rate warmup 学习率预热
在训练的开始时期，所有的参数都是一个随机值，这样离最终结果差的比较大。使用大的学习率会导致数值的不稳定。可以先采用一个手段使得训练过程稳定下来。这个手段就是“学习率预热”，那么什么是学习率预热？就是在训练最开始的时候，先使用一个小的学习率训练，当训练稳定下来后，再换回原来设定的学习率。前m个batches是用来warmup。
Zero γ 零γ初始化
这一技巧针对ResNet的网络结构提出来的。残差块的最后一层是BN层：具体操作如下：1.求均值。2.求方差。3.归一化。4.缩放和偏移。第4步将normalize后的数据再扩展和平移。是为了让神经网络自己去学着使用和修改这个扩展参数γ,和平移参数β, 这样神经网络就能自己慢慢琢磨出前面的normalization操作到底有没有起到优化的作用, 如果没有起到作用, 就使用γ和β来抵消一些normalization的操作
其中，γ和β都是可训练的参数。通常的做法是在初始化时，将β设为0，但是作者提出在初始化时可以将γ也设为0，也就是上图中的block在初始化时输出为0。这样一来，输出就只有shortcut结构的输出了，也即输出等于输入。这样的好处：将所有残差块中的最后一个BN中的初始化设置成0，也即残差块的输出等于输入，相当于模型的网络层数较少，可以使得模型在初始化阶段更容易训练
No bias decay 无偏置衰减
Weight Decay是用来解决过拟合问题。但是一般来说，会对可学习的参数如 weight 和 bias 都会做 decay，通常的做法是使用L2正则化来做。机智团队提出只对卷积层和全连接层的weight做L2中正则化，不对bias，BN层的γ和β进行正则化衰减。
model tweaks 网络模型结构
Training Refinements 训练过程优化
Transfer Learing 迁移学习

解决方案二，BalancedGroup Softmax

代码开源：https://github.com/FishYuLi/BalancedGroupSoftmax
论文：https://arxiv.org/pdf/2006.10408.pdf
这种不平衡将使low-shot 类别（尾类）的分类分数比many-shot 类别（头部类）的分类分数小得多。在标准softmax函数之后，这种不平衡会被进一步放大，因此分类器错误地抑制了预测为low-shot 类别的proposal 。
长尾分布问题的一般解决方法
**Re-sampling：**主要是在训练集上实现样本平衡，如对tail中的类别样本进行过采样，或者对head类别样本进行欠采样。基于重采样的解决方案适用于检测框架，但可能会导致训练时间增加以及对tail类别的过度拟合风险。
**Re-weighting：**主要在训练loss中，给不同的类别的loss设置不同的权重，对tail类别loss设置更大的权重。但是这种方法对超参数选择非常敏感，并且由于难以处理特殊背景类（非常多的类别）而不适用于检测框架。
Learning strategy：有专门为解决少样本问题涉及的学习方法可以借鉴，如：meta-learning、metric learning、transfer learing。另外，还可以调整训练策略，将训练过程分为两步：第一步不区分head样本和tail样本，对模型正常训练；第二步，设置小的学习率，对第一步的模型使用各种样本平衡的策略进行finetune。
统计变换
数据分布的倾斜有很多负面的影响。我们可以使用特征工程技巧，利用统计或数学变换来减轻数据分布倾斜的影响。使原本密集的区间的值尽可能的分散，原本分散的区间的值尽量的聚合。
这些变换函数都属于幂变换函数簇，通常用来创建单调的数据变换。它们的主要作用在于它能帮助稳定方差，始终保持分布接近于正态分布并使得数据与分布的平均值无关。

Log变换
Box-Cox变换
主要思想：
将简单而有效的balanced group softmax（BAGS）模块引入到检测框架的分类head中。本文建议将训练实例数量相似的目标对象类别放在同一组中，并分别计算分组的softmax交叉熵损失。分别处理具有不同实例编号的类别可以有效地减轻head类对tail类的控制。但是，由于每次小组训练都缺乏不同的负样本，结果模型会有太多的误报。因此，BAGS还在每个组中添加了一个其他类别，并将背景类别作为一个单独的组引入，这可以通过减轻head类对tail类的压制来保持分类器的类别平衡，同时防止分类背景和其他类别的false positives。
性能表现其tail类性能提升了9%-19%，整体mAP提升了约3%-6%。
长尾数据集性能下降原因探索：
当训练集遵循长尾分布时，当前表现良好的检测模型通常无法识别尾巴类别。本文通过对代表性示例（COCO和LVIS）进行对比实验，尝试研究从均衡数据集到长尾数据集这种性能下降的背后机制。
　　通过所设计的对比实验发现（具体的实验细节可以参考论文原文），tail类的预测得分会先天性地低于head类，tail类的proposals 在softmax计算中与head类的proposals 竞争后，被选中的可能性会降低。这就解释了为什么目前的检测模型经常在tail类上失效。由于head类的训练实例远多于tail类的训练实例(例如，在某些极端情况下，10000：1)，tail类的分类器权重更容易(频繁)被head类的权重所压制，导致训练后的weight norm不平衡。
　　因此，可以看出为什么重采样方法能够在长尾目标分类和分割任务中的使得tail类受益。它只是在训练过程中增加了tail类proposals 的采样频率，从而可以平等地激活或抑制不同类别的权重，从而在一定程度上平衡tail类和head类。同样，损失重新加权方法也可以通过类似的方式生效。尽管重采样策略可以减轻数据不平衡的影响，但实际上会带来新的风险，例如过度拟合tail类和额外的计算开销。同时，损失重新加权对每个类别的损失加权设计很敏感，通常在不同的框架，backbone和数据集之间会有所不同，因此很难在实际应用中进行部署。而且，基于重新加权的方法不能很好地处理检测问题中的背景类。因此，本文提出了一种简单而有效的解决方案，无需繁重的超参数工程即可平衡分类器 weight norm。

Balanced Group Softmax

框架：

说明：训练：包含类似数量的训练实例的类被组合在一起。类others被添加到每个组中。G0为背景组。Softmax交叉熵(CE)损失分别应用于每组中。测试：利用新的预测z，将softmax应用于每一组，并将概率按其原始类别id (CID)排序，并与前景概率重新缩放，生成新的概率向量用于后续处理。
Group softmax
如前所述，权重规范与训练示例数的正相关关系会损害检测器的性能。为了解决这个问题，我们提出将类分成几个不连接的组，分别进行softmax操作，这样每组内只有训练实例数量相似的类才会竞争。通过这种方式，在训练过程中可以将包含显著不同实例数量的类与其他类隔离开来。头类不会实质上抑制尾类的分类器权重。
具体地说，我们将全部 $C$ 个类别根据训练样本数量把他们分成N组。我们将类别j分配给第 $N_j$ 组。如果 $s_n^t<=N(j)snt<=N(j)<snh$

然而，我们发现上述组softmax设计存在以下问题。在测试期间，对于一个区域，所有组都将被用于预测，因为它是未知的。因此，每一组至少有一个类别将获得高预测分数，这将很难决定采取哪一组预测，导致大量错误的肯定。为了解决这个问题，我们在每一组中都安排了一些 others类别来校准各组之间的预测并抑制假阳性。此其他类别包含未包含在当前组中的类别，这些类别可以是其他组中的背景或前景类别。对于group_0，类别‘其他’也是代表前景类别，具体来说，对于一个提案区域具有真实类别标签 $c$ ,新的预测值 $z$ 应该是在 $R^{(c+1)+(N+1)}$ ,类别j的置信度的计算方式为： $p_j=e^(z_j)/\sum_ipj=e(zj)/∑i<gne(zi)$

实验

在LVIS的结果
由于其他类占主导地位，baseline模型忽略了大多数尾部类别。考虑其他模型由模型(1)初始化，并由另外12个epoch进一步进行微调。为了确保改进不是来自于更长的训练计划，我们训练模型(1)与另外12个epoch进行公平比较。对比模型(2)和模型(1)，我们发现长时间训练主要对AP2有所改善，但AP1仍保持在0左右。也就是说，对于次数少于10次的低射击类别，长时间的训练很难提高成绩。只有AP2显著增加，而AP4减少2.5%，AP1仍然为0。这说明在训练实例过少的情况下，原有的softmax分类器不能很好地进行分类。
论文方法与其他长尾数据分布的方法比较：
我们的结果大大超过了所有其他方法。AP1增加11.3%，AP2增加10.3%，AP3和AP4几乎没有变化。该结果验证了所设计的均衡组softmax模块的有效性
更换backbone模型，基本mAP提高5.6%

模型分析

我们的方法可以很好的平衡分类效果吗？

Balanced-Meta Softmax

BALMS提出 Meta Sampler来自动学习最优采样率以配合Balanced Softmax，避免过平衡问题。BALMS在长尾图像分类与长尾实例分割的共四个数据集上取得SOTA表现。这项研究也被收录为ECCV LVIS workshop的spotlight。
论文名称: Balanced Meta-Softmax for Long-Tailed Visual Recognition
论文连接https://papers.nips.cc/paper/2020/file/2ba61cc3a8f44143e1f2f13b2b729ab3-Paper.pdf

代码地址：https://github.com/jiawei-ren/BalancedMetaSoftmax
方法介绍：

Balanced Softmax
目的：避免样本不均匀带来的分类偏差，偏差将分类结果倾向于训练样本更多的类别。

对Softmax进行改造：
原来softmax： $\frac{e^{\eta_j}}{\sum_{i=1}^ke^{\eta_i}}$
其中 $\eta_j=log\frac{\phi_j}{\phi_k}$ ,贝叶斯公式 $\frac{\phi'_j}{\phi_j}=\frac{n}{kn_j}*\frac{p'(x)}{p(x)}$
Balanced Softmax: $\frac{\eta_je^{\eta_j}}{\sum_{i=1}^k\eta_ie^{\eta_i}}$ 考虑了标签样本的分布。
2. 元采样器Meta Sampler
虽然我们得到了一个适合长尾问题的理想的优化目标，优化过程本身依然充满挑战：罕见类别只能在训练中出现极少次数，因此无法很好地贡献到训练梯度。解决这一问题的最常见的方法是类别均衡采样 (CBS)Decoupling representation and classifier for long-tailed recognition。也就是对每个类别采样同样数量的样本来组成训练批次。然而，实验表明直接将Balanced Softmax与CBS一起使用会导致模型表现下降，于是我们对两者一起使用时的梯度进行了分析。（由于过平衡）

为了解决过平衡问题，我们提出了Meta Sampler（元采样器），一种可学习版本的CBS。Meta Sampler使用元学习的方法，显式地学习当前最佳的采样率，从而更好地配合Balanced Softmax的使用。
理想的采样结果：

下图展示了我们对不同模型预测的标签分布进行的可视化。其中，紫色线代表的Balanced Softmax与CBS的组合由于过平衡问题，明显地偏向于尾部类别。而红色线代表的Balanced Softmax与Meta Sampler的组合则很好地解决了这一问题，最终取得了最为均衡的标签分布。

重采样类

双边分支网络BBN

论文：https://arxiv.org/pdf/1912.02413.pdf
代码开源：https://github.com/Megvii-Nanjing/BBN
我们的工作重点是解决具有挑战性但自然的视觉识别任务的长尾数据分布(即。，少数类占用大部分数据，而大多数类很少有样本)。在文献中，为了缓解长尾问题的极端不平衡，提出了类的再平衡策略(如重新加权和重新采样)是突出而有效的方法。在本文中，我们首先发现这些再平衡方法能够取得较好的识别精度是因为它们能够显著地促进深度网络的分类器学习。但与此同时，它们也会在一定程度上意外地损害已学习的深层特征的代表性能力。因此，我们提出了一种统一的双侧分支网络(BBN)，可以同时兼顾表示学习和分类器学习，每个分支都独立完成自己的任务。特别是我们的BBN模型进一步配备了一种新的累积学习策略，即先学习通用模式，然后逐渐关注尾部数据。在四个基准数据集上的广泛实验，包括大规模的自然数据集，证明了所提出的BBN可以显著优于最先进的方法。此外，验证实验可以证明我们的初步发现和在长尾BBN中定制设计的有效性
1.简介
大规模数据集，总是有一个长尾的分布，即一些类占据大部分数据，而大多数类很少样本，如下图。近年来，计算机视觉界构建并发布了越来越多反映现实挑战的长尾数据集

在文献中，处理长尾问题的突出而有效的方法是类再平衡策略，它被提出来缓解训练数据的极端不平衡。一般来说，类重新平衡方法大致可以分为两组，即。，重新采样[26,1,14,1,11,2,7,21,4]和成本敏感的重新加权[13,30,5,23]。这些方法可以调整网络训练，通过对样本重新采样或在小批量中对样本的尾部重新加权，从而使其更接近测试分布。因此，类重平衡是直接影响深度网络分类器权值更新的有效方法。，促进分类器的学习。这就是为什么重新平衡可以获得满意、识别、准确和长尾数据的原因。
然而，尽管平衡方法不能做出好的预测，我们认为这些方法仍然有负面影响，即。，它们还会意外地损害已学习的深度特征(即深度特征)的代表性能力。在某种程度上。具体地说，当数据不平衡非常严重时，重采样有过采样过度拟合尾部数据的风险，也有过采样过度拟合整个数据分布的风险。为了重新加权，它会通过直接改变甚至反转数据呈现频率而扭曲原始分布。
图二.在两个长尾数据集CIFAR-100IR50和CIFAR-10-IR50[3]上不同表示学习和分类器学习方式的Top-1错误率。“CE”(交叉熵)、“RW”(重加权)和“RS”(重抽样)是进行学习的方式。可以看到，在固定表示(比较三个块在垂直方向的错误率)时，RW/RS训练的分类器错误率比CE低。而在固定分类器时(水平方向比较错误率)，CE训练的表示法比RW/RS训练的表示法错误率低得惊人.

作为我们工作的一个初步，通过进行验证实验，我们证明了我们的上述论点。具体来说，为了弄清再平衡策略是如何工作的，我们将深度网络的训练过程分为两个阶段，即:，分别进行表示学习和分类器学习。在表示法学习的前一阶段，我们采用普通训练(传统的交叉熵)、重加权和重采样三种学习方式来获得相应的学习表示法。然后，在分类器学习的后期，我们首先确定表征学习的参数(即。在前一阶段收敛，然后对这些网络(即骨干层)的分类器进行再训练。(如全连接层)从零开始，同样采用上述三种学习方式。在图2中，两个基准长尾数据集[3]的预测错误率，即分别为CIFAR-100-IR50和CIFAR-10-IR50。显然，在确定表示学习方式时，重新平衡方法可以合理地降低错误率，说明它们可以促进分类器的学习。另一方面，通过固定分类器的学习方式，根据原始不平衡数据的较好特性，对其进行简单的训练可以获得较好的效果。此外，重新平衡方法的糟糕结果证明，它们将损害特征学习。
因此，在本文中，为了全面提高长尾问题的识别性能，我们提出了一个统一的双侧分支网络(BBN)模型，以同时兼顾表征学习和分类学习。如图3所示，我们的BBN模型由两个分支组成，称为“传统学习分支”和“再平衡分支”。一般来说，每个分支分别完成了表示学习和分类器学习的任务。顾名思义，传统学习分支配备典型的均匀采样器w.r.t，原始数据分布负责学习通用模式进行识别。再平衡分支与反向采样器耦合设计用于尾部数据建模。然后，通过自适应权衡参数循环将这些双边分支的预测输出聚合到累积学习部分。由“适配器”根据训练时段的编号自动生成模型的尾数据，对整个BBN模型进行调整，首先从原始分布中学习到通用特征，然后逐渐关注尾数据。更重要的是，可以进一步控制参数更新法的分支，例如，避免损害学习的通用特征时，强调尾巴数据在训练的后期.

上图3说明：BBN网络框架，它包含三个关键部分：1，传统的学习分支从一个均匀采样器获取输入数据，该采样器负责学习原始分布的通用模式；2，重新平衡分支从反向采样器接收输入，并被设计为尾部数据建模。两个模型的输出特征分别是 $f_c$ 和 $f_r$ ,将两个分支的输出特征向量在第三个模块中聚合。3，累计学习策略计算训练的损失，‘GAP’是global average pooling 的简称。
在四种长尾数据中，都验证了我们的模型明显优于现在最先进的方法。本文的主要贡献包括：

本文探讨了长尾问题中显著的类再平衡方法的作用机制，并进一步发现这些方法对提高学习效率有显著的促进作用，同时也会对特征学习产生影响
我们提出了一个统一的双侧分支网络(BBN)模型来兼顾表示学习和分类器学习，以尽推地提高长尾识别。此外，一个新的累积学习策略被开发来调整双边学习，并与我们的BBN模型的训练相结合。
我们在四个基准的长尾视觉识别数据集上评估了我们的模型，我们提出的模型始终取得了优于之前的竞争方法的性能。
相关工作
类别再平衡策略是如何起作用的

我们的方法

整体框架
BBN双边分支网络主要包括三个部分，如图3所示，我们的BBN由三个主要组件组成。具体来说，我们设计了表示学习和分类器学习两个分支，分别称为“常规学习分支”和“再平衡分支”。两个分支使用相同的残差网络结构[12]，**共享除最后一个残差块之外的所有权值。**令x·表示一个训练样本，y·∈{1,2，…，C}是对应的标签，其中C是类的数量。对于双边分支，我们分别使用均匀和反向采样器，得到两个样本(xc,yc)和(xr,yr)作为输入数据，其中(xc,yc)为常规学习分支，(xr,yr)为再平衡分支。网络结构一致，输入数据样本分布不同。然后，将其送入各自对应的分支中，通过全局平均pooling（GAP）得到特征向量fc∈RD和fr∈RD。
此外，我们还设计了一个特定的累积学习策略，在训练阶段在两个分支之间转移学习注意力，具体来说，通过自适应的权衡参数(model) $\alpha$ 控制fc和fr的权重，将权重特征向量 $\alpha f_c$ 和 $(1-\alpha)f_r$ 分别送入Wc∈RD * C和Wr∈RD * C的分类器中，并通过元素加法的方式将输出的特征向量(model)整合到一起。输出日志表述为:
$z=\alpha W^Tf_c+(1-\alpha)W_r^Tf_r$ ,Z是预测的输出，大小为c,最后使用softmax预测每个类的置信度。
然后，定义损失函数，E()表示交叉熵损失函数，输出值得概率分布为 $p=[p_1,p_2,...p_c]^T$ ,因此，加权交叉熵分类损失函数设为： $L=\alpha E(p,y_c)+(1-\alpha)E(p,y_r)$ ,前面是传统网络分支，后面对应再平衡网络分支输出。
提出双边分支网络结构
在本节中，我们将详细介绍图3中所示的统一的双边分支结构。如前所述，所提议的传统学习分支和再平衡分支确实履行了它们自己的职责(分别是表示学习和分类器学习)。这些分支有两种独特的设计
数据采样
传统学习分支的输入数据来自一个均匀采样器，其中训练数据集中的每个样本在一个训练历元中只以等概率采样一次。均匀采样器保留了原始分布的特征，因此有利于表示学习。而重新平衡分支旨在缓解极端的不平衡，特别是提高尾部类[28]的分类精度，其输入数据来自反向采样器。对于反向采样器，每个类的采样可能性与其样本量的倒数成正比，即。，类中样本越多，类的抽样可能性越小。式中，表示类i的样本数为Ni，所有类的最大样本数为Nmax，构造反向采样器有三个子过程。1，计算类别 $i$ 的采样可能性，根据类别的样本数量
$p_i=w_i/\sum_{j=1}^Cw_j$
2,根据概率 $p_i$ 进行随机采样
3，从类i中均匀取一个样本并进行替换。通过重复这种反向采样过程，得到一个小批的训练数据
权重共享
在BBN中，两个分支经济上共享相同的剩余网络结构，如图3所示。我们使用ResNets[12]作为骨干网络。、ResNet-32和ResNet-50。其中，除了最后一个残差块外，两个分支网络共享相同的权值。权值共享有两个好处:一方面，传统学习分支的良好学习表示有利于再平衡分支的学习;另一方面，共享权值将大大降低推理阶段的计算复杂度。
提出的累积学习策略
提出了累积收益策略，通过控制两个分支产生的特征的权重和分类损失 $L$ 来转移双边分支之间的收益焦点.它的设计目的是先学习通用模式，然后逐步关注尾部数据。在训练阶段，将传统学习分支的特征 $f_c$ 乘 $\alpha$ ,再将再平衡分支的特征乘以 $1-\alpha$ ,其中，根据训练epoch自动生成了 $\alpha$ .具体的，总的训练次数作为 $T_max$ ,当前训练次数为 $T$ ,
$\alpha=1-(T/T_{max})^2$
所以 $\alpha$ 会逐渐减小随着训练次数
直觉上，基于区分特征表示是学习鲁棒分类器的基础的动机，我们设计了面向后移的自适应策略。虽然表示学习和分类器学习同样重要，但是我们的BBN的学习重点应该从特征表示逐渐转向分类器，这样可以彻底提高长尾识别的准确率。随着循环递减，BBN的重心由传统的学习转向再平衡。与两阶段微调策略[3,6,22]不同的是，我们的 $\alpha$ 确保了不同目标的两个分支在整个训练过程中不断更新，避免了在训练另一个目标时对一个目标的影响。
在实验中，我们也通过比较不同类型的适配器提供了这种直觉的定性结果
推理阶段：
在推理过程中，将测试样本分别送入两个支路，得到两个特征 $f_c^0$ 和 $f_r^0$ 。因为这两个分支都同样重要，所以我们只是在测试阶段将其固定为0.5。然后，同等权重的特征被提供给它们相应的分类器(例如。我们使用了两种预测方法。最后，这两个日志按按元素添加进行聚合，以返回分类结果。
实验
1，数据集和经验设置
数据集：长尾分布的CIFAR-10和CIFAR-100
不平衡因子 $\beta=N_{max}/N_{min}$ 我们在实验中的不平衡因子采用10，50，100
2，实现细节

Decoupling Representation and Classifier（与BBN原理相似）

论文：https://arxiv.org/abs/1910.09217
代码：https://github.com/facebookresearch/classifier-balancing
是目前长尾图片分类领域的SOTA（最高级），与上面BBN共同发现了一个长尾分类研究的经验性规律：
对任何不均衡分类数据集地再平衡本质都应该只是对分类器地再均衡，而不应该用类别的分布改变特征学习时图片特征的分布，或者说图片特征的分布和类别标注的分布，本质上是不耦合的。
Decoupling 将长尾分布模型的训练分为两步：1，先不作任何重采样将样本分布均衡，而是直接像传统的分类一样，利用原始数据训练一个分类模型（包含特征提取的backbone和一个全连接分类器）2，将第一步学习的模型的特征提取backbone的固定参数，然后单独街上一个分类器(可以是不同于上一步的分类器)，对分类器进行class-balanced sampling学习。此外，作者还发现全连接分类器的weight的norm和对应类别的样本数正相关，也就是说样本数越多的类，weight的模更大，这也就导致最终分类时大类的分数（logits）更高（对头部类的过拟合）。所以第二步的分类器为归一化分类器，文章中有两种较好的设计：利用第一步的分类权重学习了一个加权参数 $f_i$ , $w'_i=w_i/||w_i||^T$ , $w'_i=w_i/f_i$ 最后可以得到 $f_i=||w_i||^T$
Decoupling的核心在于图片特征的分布和类别分布其实不耦合，所以学习backbone的特征提取时不应该用类别的分布去重采样（re-sampling），而应该直接利用原始的数据分布。

Dynamic Curriculum Learning for Imbalanced Data Classification，ICCV 2019

论文：https://arxiv.org/abs/1901.06783
动态课程学习是一种模拟人类学习过程的训练策略，旨在从简到难。先用简单的样本学习出一个比较好的初始模型，再学习复杂样本，在线自适应调整单batch的采样学习，实现更好的泛化特征向量，并对类目做更好的区分，从而达到一个更优的解。
DCL框架包括两个level的课程学习方案：
1.Sampling Scheduler
基本思想：直接将训练集作为采样数据集，能够学习数据的主要特性。而将训练集中数据按类目平均采样样本作为采样数据集，能够学习到样本量少的类目的特性。为了能够兼顾学习这两种特性，DCL首先直接将训练集直接作为采样数据集，随着模型训练的进行，慢慢地，减少训练集主要类目（类目图片数量多）的样本采样量，直到所有类目被采样的样本数量相等为止。
具体步骤：
首先，统计数据分布：统计训练集中各个类目的样本数量，并对其升序排序， #表示样本数量最小的类目， $C_{min}$ 表示 $C_{min}$ 类目的样本数量， $K$ 表示类目数量。下式给出了其他类目与 $C_{min}$ 类目之间的样本数量比，这 $K$ 个数组成训练样本分布信息 $D_{train}$ 。
$1 :\#C_1/\#C_{min}:...\#C_{k-1}/\#C_{min}$
然后，采样样本成训练样本：根据训练样本分布信息Dtrain，生成采样数据集D(l)，l表示current epoch，每次的epoch的训练样本不同，采样方式不同。举个例子：若 $C_{min}$ =5, $C_1=30$ ,当 $g (l) = 1$ ,类C1的采样数量等于其在训练样本中的样本数量。当l=maxepoch，g(l)=0,类目C1的采样数量等于类目 $C_{min}$ 在训练集中的样本数量。
采样数据集分布变化函数： $D(l)=D_{train}^{g(l)},l=epoch$ , $g ()$ 函数的设置，影响到采样数据集分布的变化，文章给出四种函数，分别是：

凸函数，学习速度从慢到快
$SF_{cos}(l)=cos(l/L*\pi /2)$
线性函数，常量的学习速度
$SF_{COS}(l)=1-l/L$
凹函数学习速度由快到慢
$SF_{exp}(l)=\lambda^l$
组合函数从慢到快再到慢
$SF_{exp}(l)=1/2 cos(l/L*\pi)+0.5$

2.Loss Scheduler
损失函数包括两种：分类损失、度量学习损失

分类损失

使用交叉熵损失，考虑当前epoch的样本分布与前一个epoch的样本恩不的关系，认为主要类目的样本权重会不断降低，次要类目（样本数量少）的样本权重相对地会不断增长。
$L_{DSL}=-1/N\sum_{j=1}^M\sum_{i=1}^{N_j}w_j*log(p(y_{i,j}=y_{i,j}^-|X_{i,j}))$
权重 $w_j$ 的定义如下： $if D_j(l)/B_j>=1 then D_j(l)/B_j elif <1 w_j=0/1$
$N$ 为batch size,M表示类目数量， $W_j$ 表示属于类目j的样本的样本权重。 $D_j(l)$ 表示 $e p o c h = l$ 时类目 $j$ 的样本数量， $B_j$ 表示 $e p o c h = l - 1$ 时类目 $j$ 的样本数量，当两者的比值小于1时，文章为占比的类目 $j$ 样本赋值权重1，其他样本赋值权重为0.

度量损失
简称TEA，改进版的三元组损失，挖掘三元组样本时，只考虑次要类目的easy anchor，目的是增大次要类目图像特征与其他类目图像特征之间的距离，使得次要类目的图像特征能更好地学习到。easy anchor指的是与postive sample距离比negative sample距离更近的样本。
三元组损失的定义：

目标：使具有相同标签的样本在embedding空间尽量接近。使具有不同标签的样本在embedding空间尽量远离。
具体的说明可以参考知乎文章：https://zhuanlan.zhihu.com/p/136948465
公式如下：
$L_{TEA}=\sum_Tmax(0,m_j+d(x_{easy,j},x_{+,j})-d(X_{easy,j},X_{-,j}))/|T|$
其中， $x_{easy,j}$ 表示类目 $j$ 的easy anchor， $x_{+,j}$ 表示类目 $j$ 的postive sample， $x_{-,j}$ 表示类目 $j$ 的negative sample， [公式] 表示挖掘到的triplet sample的对数
positive sample的两种选择：

当前模型下，预测到该类目的概率小的样本，概率最小的 k个样本
当前模型下，预测到的与anchor距离最远的 k个样本
negative sample的两种选择：

当前模型下，其他类目图片预测到该类目的概率值最大的 k个样本
当前模型下，其他类目图片预测到的与该anchor距离最近的 k个样本

两种损失的动态组合
度量损失是为了让各个类别分的更开，分类损失用于学习不同类目的图像特征。
组合方式如下： $L_{DCL}=L_{DSL}+f(l)*L_{TEA}$

通过图像可以知道，在训练过程中，前面的训练为了训练的更开，后面强调学习的更准。

重加权（re-weighting）方向

Equalization Loss

开源代码：https://github.com/tztztztztz/eql.detectron2
论文：https://arxiv.org/pdf/1911.04692.pdf
方案特点：
1，出发点简单：减少梯度反向传播时对tail样本的惩罚
2，仅有一个超参需要人工调节
3，可以嵌入到任何模型训练中
以检测任务为例，修改了检测任务中分类的loss:在交叉熵loss的基础上，增加了一个权重，如下公式，在分类任务中就是直接在误差函数上加权重
权重值 $w_j$ 计算任务如下： $w_j=1-E(r)T_\lambda(f_j)(1-y_j)$
$E (r)$ 为二值，当前r为前景类别时，为1，为背景类别时，为0.背景类别时没有分类任务，所以不参与修正
$T_\lambda(f_j)$ 为二值，当 $f_j$ 小于 $\lambda$ 时为1，反之为0， $\lambda$ 为阈值，需要人为的设定， $f_j$ 为第j类样本的频率， $f_j=N_j/N$ ,其中 $N_j$ 为第j类样本的图片数，N为训练集样本总数；这项作用是只对尾部样本进行损失函数干预，样本少的范围自己定义。头样本不参与修正
$y_j$ 为groundtruth:指的是用于有监督训练的训练集的分类准确性，即j类别的分类准确度。目的：样本少的例子中准确度高的惩罚大，准确度高，说明召回率低，别的样本分到了这里。所以对该类的损失函数加大些。
代码： $w_j$ 的实现
$w_j=1-E(r)T_\lambda(f_j)(1-y_j)$

 def exclude_func(self):
        # E(r)的实现  在分类任务中不用考虑
        # instance-level weight
        bg_ind = self.n_c#背景类别
        # 对背景类别置为0，非背景类别置为1
        weight = (self.gt_classes != bg_ind).float()
        weight = weight.view(self.n_i, 1).expand(self.n_i, self.n_c)#n_i为类别个数
        return weight

def threshold_func(self):
        # T(x)实现  频率大于阈值的为0，小于阈值为1
        # class-level weight
        weight = self.pred_class_logits.new_zeros(self.n_c)
        # 对小于λ的置为1，其他为0
        weight[self.freq_info < self.lambda_] = 1
        weight = weight.view(1, self.n_c).expand(self.n_i, self.n_c)#n_c为样本数
        return weight
def eql_loss(self):
        # eql loss的实现
        self.n_i, self.n_c = self.pred_class_logits.size()#self.n_i为类别数，self.n_c为样本数 （feature_len,batch_size）
        def expand_label(pred, gt_classes):
            target = pred.new_zeros(self.n_i, self.n_c + 1)
            target[torch.arange(self.n_i), gt_classes] = 1
            return target[:, :self.n_c]

        target = expand_label(self.pred_class_logits, self.gt_classes)
        # wj的实现
        eql_w = 1 - self.exclude_func() * self.threshold_func() * (1 - target)#target为每个类的准确度

        cls_loss = F.binary_cross_entropy_with_logits(self.pred_class_logits, target,
reduction='none')#交叉熵损失函数

        return torch.sum(cls_loss * eql_w) / self.n_i#torch.sum求和

对其中参数的理解：
交叉熵函数： $E=-\sum_{j=1}^Ty_ilogP_j$ 是每个类别的损失和。
$w_j$ 是交叉熵损失函数的每个类损失的权重，所以应该是一个类别数大的向量。

改进思想：
自己对该公式的改进有了新的想法，是否可以对样本的频率不要一刀切，出现频率大的值小，频率小的大。
公式推导

论文笔记

摘要
卷积神经网络(CNN)的目标识别技术取得了巨大的成功。然而，最先进的目标检测方法在大词汇表和长尾数据集(如LVIS)上仍然表现不佳。在本研究中，我们从一个新的角度来分析这个问题:一个类别的每个正样本都可以被看作是其他类别的负样本，使得尾部类别得到更多令人沮丧的梯度。在此基础上，我们提出了一种简单而有效的损失，即均衡损失，通过忽略稀有类的梯度来解决长尾稀有类的问题。均衡丢失保护了稀缺范畴的学习在网络参数更新中不受干扰。因此，模型能够更好地学习区分类或对象的特征。在没有任何附加功能的情况下，与Mask R-CNN基线相比，我们的方法在具有挑战性的LVIS基准测试中获得了4.1%和4.8%的AP增益。在2019年LVIS挑战赛中，我们利用了有效的均势损失，最终获得了第一名
简介
最近，由于深度学习和卷积神经网络(CNNs)的出现，计算机视觉界见证了物体识别的巨大成功。物体认知是计算机视觉中的一项基本任务，在重新识别、人体姿态估计和目标跟踪等许多相关任务中发挥着核心作用。
目前，大多数用于通用对象识别的数据集，如PascalVOC[10]和coco[28]，主要收集常见的类别，每个类都有大量的注释。然而，当涉及到更实际的场景时，不可避免地会出现类别频率长尾分布的大型词汇表数据集(例如LVIS[15])。类别的长尾分布问题对目标检测模型的学习是一个很大的挑战，特别是对于样本很少的类别。注意，对于一个类别，其他类别包括背景的所有样本都被视为负样本。因此，在训练过程中，少数类别容易被大多数类别(样本数量大的类别)所压倒，并倾向于被预测为否定的类别。因此，在这样一个极不平衡的数据集上训练的传统的物体探测器会大大下降。
以往的研究大多将长尾类别分布问题的影响考虑为训练过程中的批采样不平衡，主要通过设计专门的采样策略来处理该问题[2,16,32,38]。其他著作介绍了专门的损耗配方来解决样品正-负失衡的问题[27,25]。但他们关注的是前景和背景样本之间的不平衡，因此不同前景类别之间的不平衡仍然是一个具有挑战性的问题。
在这项工作中，我们关注的问题之间的极端不平衡的前景类别，并提出了一个新的视角来分析它的影响。如图1所示，绿色曲线和橙色曲线分别代表了正样本和负样本的平均梯度。我们可以看到，对于频繁类别，正梯度的影响平均大于负梯度，而对于罕见类别，情况正好相反。进一步说，在分类任务中常用的损失函数，如softmax交叉熵和sigmoid交叉熵，对非真实值的概率有上升作用。当一个特定类的样本被用来训练时，其他类的预测参数将会受到阻碍梯度，这导致他们预测低概率。由于这些参数的对象很少发生，这些参数的预测被网络参数更新过程中令人沮丧的梯度淹没了。

为了解决这一问题，我们提出了一个新的损失函数——均衡损失函数。一般来说，我们对每个样本的每一类都引入一个权值项，主要是降低负样本对rare cat的影响均衡损失的完整公式载于第3节。随着均衡损失，平均梯度正负值振幅减小，如图1所示(蓝色曲线)。和一个简单的可视化效果，它说明了平均预测概率为每个类别的积极建议与(红色曲线)和没有(蓝色曲线)均衡损失。可以看出，EQL在不影响频繁类别的准确性的前提下，显著提高了检索的性能。提出的EQL使不同频率的类别在网络参数更新中处于更加平等的地位，训练后的模型能够更准确地区分稀有类别的对象。
在开放图像[23]和LVIS[15]等非平衡数据集上的大量实验证明了该方法的有效性。我们也验证了我们的方法在其他任务，如图像分类。我们的主要贡献如下:(1)我们提出了一个新的视角来分析长尾问题:在学习过程中由于班级间竞争造成的压力，这解释了长尾数据集上重新分配的糟糕表现。基于这一观点，提出了一种新的损失函数——均衡损失函数，该函数通过引入忽略策略来缓解学习过程中沮丧梯度过大的影响。(2)我们在不同的数据集和任务上进行了广泛的实验，如对象检测、实例分类和分类。所有的实验都证明了我们的方法的优势，与一般的分类损失函数相比，它带来了很大的性能提升。尽管我们输掉了平级，但我们在2019年LVIS挑战赛中获得了第一名。
相关工作：
三种方法解决长尾问题。
3，功能操作。还有一些工作直接对特征表示进行操作。射程损失[44]增加了类间距离，同时减少了类内的变化。[43]通过转移具有足够训练样本的常规类的特征方差来增大尾部类的特征空间。[30]采用了一个存储模块，将语义特征表示从头类转移到尾类。然而，设计这些方法会使模型变得难以训练。相比之下，我们的方法更简单，而且不直接访问表示。
均衡损失的中心目标是缓解长尾类分布中每个类的数量分配不平衡问题。我们首先回顾传统的损失函数进行分类，即softmax交叉熵和sigmoid交叉熵
从网络输出z得到各类别的多熵分布p，然后计算估计分布p与地真分布y之间的熵值。softmax交叉熵损失LSCE可表示为:
$L_{SCE}=-\sum_{j=1}^Cy_ilog(p_j)，其中C是类别的数量。这里，p由softmax(z)计算,z是输出向量。y是one-hot形式，
对于两种交叉熵函数，我们注意到前景样本类别的c,它可以作为其他类别j的负样本。所以类别j将收到一个负梯度pj模型更新,这将导致网络预测低概率类别j。如果j是一种罕见的类别,负梯度比正梯度期间会发生更频繁的迭代优化。累积的梯度将对这一类别产生不可忽视的影响。最后，即使是类别j的正样本，从网络得到的概率也相对较低。

从网络输出z得到各类别的多熵分布p，然后计算估计分布p和grouth_truth分布y之间的熵

均衡损失函数
当类别的数量分布相当不平衡时，例如。在这个数据集中，来自频繁类别的令人沮丧的梯度对注释稀少的类别有显著的影响。利用常用的交叉熵损失，可以很容易地抑制对稀有类别的学习。为了解决这一问题，我们提出了均衡损失算法，该算法忽略了频繁类别样本对稀有类别的梯度。这个损失函数是为了使网络训练对每个类都更加公平，我们称之为均衡损失。
形式上，我们在原s型交叉熵损失函数中引入权项w，均衡化损失可表示为:
$L_{EQL}=-\sum_{j=1}^Cw_jlog(p_j)$
其中 $w_j=1-E(r)T_\lambda(f_j)(1-y_j)$

扩展到图像分类
由于softmax损失函数在图像分类中被广泛采用，我们也设计了一种softmax均衡损失的形式遵循我们的主要思想。Softmax均衡损失(SEQL)可表示为:
$L_{SEQL}=-\sum_{j=1}^Cy_ilog(p_j)$
其中： $p_j=e^{z_j}/\sum_{k=1}^Cw_ke^{z_k}$
其中 $w_k=1-\beta T_\lambda(f_k)(1-y_k)$

其中， $\beta$ 该变量是一个随机变量，其概率为:
需要注意的是，图像分类和目标检测分类是不同的:每一幅图像都属于一个特定的类别，因此不存在背景类别。因此,权重公式工作没有方程 E ®的一部分。因此，我们引入了随机保持负样本梯度的方法。在第6节中，我们研究了参数 $\gamma$ 的影响

4
LVIS是一个用于实例配置的大型词汇表数据集，在当前versionv0.5中包含1230个类别。在LVIS中，根据包含这些类别的图像数量，将类别分为三类:罕见(1-10幅)、常见(11-100幅)和常见(>100幅)。我们在57 k的训练图像上训练我们的模型，在5k的val集上评估我们的模型。我们也报告了我们在20k的测试图像上的结果。评价指标为跨越IoU阈值的AP，总体类别为0.5 ~ 0.95。与COCO的评估过程不同，由于LVIS是一个稀疏注释的数据集，对于图像级别标签中没有列出的类别的检测结果将不会进行评估。

6.在图像分类中的实验
设定 $\gamma=0.95$ $\lambda=3*10^{-3}$

Class-Balanced Loss Based on Effective Number of Samples，CVPR 2019

链接：https://arxiv.org/abs/1901.05555
代码：https://github.com/vandit15/Class-balanced-loss-pytorch/blob/master/class_balanced_loss.py
这篇文章的核心理念在于，随着样本数量的增加，每个样本带来的收益是显著递减的。所以作者通过理论推导，得到了一个更优的重加权权重的设计，从而取得更好的长尾分类效果。
文章定义了一个核心的概念，有效采样数En。 $E_n=(1-\beta^n)/(1-\beta)$ ,其中 $\beta=(N-1)/N$ ,n为类别的总样本，N则可以看着类别的唯一原型数，该方法在Cross-Entropy Loss中对图片根据所属类别给予 $1/E_n$ 的权重，所以某一类别有效采样数多，则loss的权重应该小，即和 $E_n$ 成反比，所以类别权重只要乘以En的倒数即可, 可以和各种已有的loss结合, 其中 $\beta$ 为样本的数目, $n_y$ 为第n次采样数目
$CB(P,y)=(1-\beta/1-\beta^{n_y})*L(p,y)$
$\beta$ 是小于1的小数
En怎么得到是核心！！！

某一类别的所有样本量为 $N$ ,在采样新的数据时，有可能和已经采样的包含，也有可能不包含，作者假设有些采样数据, 就是最后采样的体积, 上界为N
作者假设random crop, sclae,等数据增强后的数据等价于原始数据
假设采样了n-1次样本后, 的有效样本数为En-1, 那么第n次采样为包含关系的概率p为En-1/N, 非包含为1-p
所以第n次采样的有效采样数:
$E_n=pE_{n-1}+(1-p)(E_{n-1}+1)=1+(N-1)/N*E_{n-1}$
假设 $E_{n-1}=(1-\beta^{n-1})/(1-\beta)$
$E_n=(1-\beta^n)/(1-\beta)$

则可推导出： $\beta=(N-1)/N$

Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss，NIPS 2019

链接：https://arxiv.org/abs/1906.07413
代码：https://github.com/kaidic/LDAM-DRW
这篇文章首先设计了一个如下的非典型的重加权loss。其中C是常数， $n_j$ 是各类别的样本数。
$L_{LDAM}((x,y);f)=-log\frac{e^{z_y-\Delta y}}{e^{z_y-\Delta y}+\sum_{j\neq y}e^{z_j}}$
$\Delta_j=\frac{C}{n_j^{1/4}} for j \in {1,...,k}$
然后，文章中实验的训练分为两步：第一步，只利用设计的LDAM损失函数训练，第二步利用LDAM loss再额外加上传统的re-weighting权重 $n_j^{-1}$ ， $n_j$ 为类别样本个数，样本越多的个数损失权重越小，进一步优化尾部类。这也可以看做规律的侧面体现。

Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition from a Domain Adaptation Perspective, CVPR 2020

链接：https://arxiv.org/abs/2003.10780
文章中对loss的加权分为两项：1,class-Balanced loss based on effective Number of Samples 的weight作为 $w_{y_i}$ ;2,条件权重( $\epsilon_i$ ),
$error=E_{P_s(x,y)}L(f(x,\theta),y)(w_y+\epsilon )\approx1/n\sum_{i=1}^n(w_{y_i}+\epsilon_i)L(f(x_i;\theta),y_i)$
论文的关键是条件参重 $\epsilon_i$ 的学习
实现偏复杂，费时间和显存

Remix: Rebalanced Mixup, Arxiv Preprint 2020

链接：https://arxiv.org/abs/2007.03943
Mixup是数据增强的方式，这两年比较常用，方法对两个样本的输入图像和label做线性插值，得到一个新数据样本。
Mixup的方法公式： $x'^{MU}=\lambda x_i+(1-\lambda)x_j$ and $y'=\lambda y_i+(1-\lambda)y_i$
mixup效果展示：

mixup的代码实现：

def get_batch(x, y, step, batch_size, alpha=0.2):
    """
    get batch data
    :param x: training data
    :param y: one-hot label
    :param step: step
    :param batch_size: batch size
    :param alpha: hyper-parameter α, default as 0.2
    :return:
    """
    candidates_data, candidates_label = x, y
    offset = (step * batch_size) % (candidates_data.shape[0] - batch_size)

    # get batch data
    train_features_batch = candidates_data[offset:(offset + batch_size)]
    train_labels_batch = candidates_label[offset:(offset + batch_size)]

    # 最原始的训练方式
    if alpha == 0:
        return train_features_batch, train_labels_batch
    # mixup增强后的训练方式
    if alpha > 0:
        weight = np.random.beta(alpha, alpha, batch_size)
        x_weight = weight.reshape(batch_size, 1, 1, 1)
        y_weight = weight.reshape(batch_size, 1)
        index = np.random.permutation(batch_size)
        x1, x2 = train_features_batch, train_features_batch[index]
        x = x1 * x_weight + x2 * (1 - x_weight)
        y1, y2 = train_labels_batch, train_labels_batch[index]
        y = y1 * y_weight + y2 * (1 - y_weight)
        return x, y
import matplotlib.pyplot as plt
import matplotlib.image as Image
import numpy as np

im1 = Image.imread(r"C:\Users\Daisy\Desktop\1\xyjy.png")
im2 = Image.imread(r"C:\Users\Daisy\Desktop\1\xyjy2.png")
for i in range(1,10):
    lam= i*0.1
    im_mixup = (im1*lam+im2*(1-lam))
    plt.subplot(3,3,i)
    plt.imshow(im_mixup)
plt.show()

Remix是 Rebalanced Mixup，将数据增强的时候考虑样本的不均衡的再平衡策略，就是将类别 $y$ 插值的时候，往少样本的类别方向偏移一点，给小样本更大的 $\lambda_y$ ,Remix的数据增强公式为：
$x'^{RM}=\lambda x_i+(1-\lambda)x_j$ and $y'^{RM}= \lambda_yy_i+(1-\lambda_y)y_j$ 其中 $\lambda$ 的取值方式如下：

其中 $i$ 是多样本类别，样本比例比 $j$ 超过阈值，类别属于 $j$ 。

迁移学习方向

OLTR(Large-Scale Long-Tailed Recognition in an Open World，CVPR 2019)

论文：https://openaccess.thecvf.com/content_CVPR_2019/papers/Liu_Large-Scale_Long-Tailed_Recognition_in_an_Open_World_CVPR_2019_paper.pdf
代码： https://liuziwei7.github. io/projects/LongTail.html
摘要：
真实世界的数据通常有一个长尾和开放式的分布。一个实际的认知系统必须对多数和少数阶级进行分类，从少数已知的事例中归纳，从从未见过的事例中承认新事物。我们将开放长尾识别(OLTR)定义为从自然分布的数据中学习，并在包含头、尾和开放类的平衡测试集上优化分类精度。OLTR必须在一个集成的算法中处理不平衡的分类、少镜头学习和开放集识别，而现有的分类方法只关注一个方面，在整个类谱中表现不佳。关键的挑战是如何在头类和尾类之间共享可视化知识，以及如何减少尾类和开放类之间的混淆。我们开发了一个集成的OLTR算法，它将图像映射到一个特征空间，这样视觉概念就可以很容易地基于一个学会的度量，尊重封闭世界的分类，同时承认开放世界的新颖性。我们所谓的动态元嵌入结合了一个直接图像特征和一个相关的记忆特征，特征范数表示对已知类的熟悉程度。在我们从以对象为中心的ImageNet、以场景为中心的地点和以面部为中心的MS1M数据中管理的三个大型OLTR数据集上，我们的方法始终优于最先进的技术。
该文章试图用一个算法OLTR同时解决大样本、少样本（尾部）、开放集识别问题，即我们需要模型解决long-tail下head label和tail label的精度问题，同时还需要模型能鉴别出那些在训练集中没有出现过的novel类(不需要给出具体的类别，只需要将它们判定为是novel 类即可，这与zero-shot有些许区别)。

OLTR的关键挑战是尾部识别的鲁棒性和开放集的灵敏度:当训练实例的数量从在头类中的数千个下降到在尾部类中的少数，识别精度应保持尽可能高;另一方面，当开放集的实例数下降到零时，识别精度依赖于区分未知开放类和已知尾部类的灵敏度。一个完整的OLTR算法应该解决连续类谱上的识别鲁棒性和识别灵敏度这两个看似矛盾的问题。为了提高识别的鲁棒性，必须在头尾类之间共享视觉知识;为了提高识别灵敏度，它必须减少tail和open类之间的混淆。

图中主要包含了两个模型：动态元向量和模型注意机制。
参考文献：https://zhuanlan.zhihu.com/p/66192159
模型的主要三个创新点：

鉴于head label出现频数高，
为了甄别出open set，

Deep Representation Learning on Long-tailed Data: A Learnable Embedding Augmentation Perspective，CVPR 2020

论文的核心思想就是：为尾部样本构造特征云，就像电子云填充空旷的原子–数据上的特征学习方法。
实验发现：头部数据样本不仅充足，而且类间间隔大，区分容易，而削减样本数量后，少样本的类就会再特征空间内依附样本数量大的类，造成难以区分，准确率降低。
解决长尾分布带来的问题
我们提出让tail class去学习head class的类内多样性，换句话说，我们将从head class学习的类内多样性transfer到tail class，以此来弥补在训练过程中tail class类内多样性的不足。为此，我们提出了“feature cloud”的概念：给定一个尾部类的特征向量,围绕为其生成许多虚拟的特征向量 (概率分布服从在head class中学
习到的分布)，我们将这一簇称之为特征云。
模型训练中，给尾部类的每个样本的特征向量构建一个“特征云”，一个具体的特征向量就被一个云代替，这样尾部类别的特征空间就被扩大，变成和head class类似的特征空间，类别间的距离也变大了。

构建特征云的方法

我们使用特征向量与其对应的类中心之间的夹角分布来建模类内的特征分布。因此我们要学习head 与tail的类内夹角分布，我们假设夹角分布服从高斯分布Gaussian distribution且每个类的夹角分布是彼此独立的。通过在训练过程中不断统计每个类别的类内夹角分布，可以得到：

head class 的类内夹角分布，图中红线分布， $\theta _h \in N(u_h,\sigma_h^2)$
tail class 的类内夹角分布,图中绿色线 $\theta _t\in N(u_t,\sigma_t^2)$
特征云的分布 $\theta_{\Delta}\in N(0,\sigma_h^2-\sigma_t^2)$
将 head class 的角度方差transfer到tial类，为每个属于tail类的特征向量构建“feature cloude”,最终我们可以得到一个新的tail class类内夹角分布。
$\theta_t+\theta_{\Delta}\in N(u_t,\sigma_h^2)$
问题：认为样本多的类的类内多样性更大，但是也有可能样本多的类内多样性不大。

利用因果分析解决通用长尾分布问题

该方法是南洋理工大学的汤凯华博士在论文“Long-TailedClassification by Keeping the Good and Removing the Bad Momentum Causal Effect”提出，该工作利用因果分析技术，首次实现不需要提前预知数据分布情况下适用的长尾分布去偏见算法。并且该方法不增加任何额外的训练负担，可以轻易适用于各种场景，如我们在图片分类，物体检测，实例分割任务上都取得了显著提升。
论文：https://arxiv.org/abs/2009.12991
代码：https://github.com/KaihuaTang/Long-Tailed-Recognition.pytorch

你可能感兴趣的:(算法,论文,图像识别,神经网络)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
女儿考研完报考雅思捡拾流年
是否我过于焦虑？会不会无形间让女儿觉得压力太大了啊。2022年对于我们家来说是不平常的一年。女儿今年大四，为了准备考研，暑假也没回家，年初去了学校到了年末才回家。女儿自己一个人面对考研，没有参加培训，大四学校作业论文等课业也多，她同时也是很努力复习考研的。在疫情开放很多羊的时期，女儿终于顺顺利利参加12月24、25号的考研，我们和家人都觉得女儿回家来要好好休息调养。可女儿回到家，我再查阅考研信息，
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
自动写论文的网站推荐这5款实用类工具小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款实用类工具推荐，特别是千笔-AIPassPaper。1.千笔-AIPassPaper千笔-AIPassPaper是一款功能强大且全面的AI论文写作助手，用户只需输入基本的研究需求和关键词，便能迅速生成一篇完整的论文。该工具利用先进的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
4款毕业论文参考文献格式生成器（附加详细步骤）小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在撰写毕业论文时，参考文献的格式规范是至关重要的。为了帮助学生和学者们更高效地生成符合要求的参考文献格式，本文将详细介绍四款推荐的参考文献格式生成器，并提供详细的使用步骤。1.千笔-AIPassPaper千笔-AIPassPaper是一款先进的AI辅助论文写作工具，不仅能够自动生成大纲、开题报告，还能一键生成参考文献。AI论文，免费大纲，10分钟3万字https://www.aipaperpass
AI论文写作推荐哪个好？分享5款AI论文写作带数据图表网站小猪包333 写论文人工智能深度学习计算机视觉
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款推荐的AI论文写作工具，包括千笔-AIPassPaper。千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文写作助手，旨在帮助用户快速生成高质量的论文内容。AI论文，免费大纲，10分钟3万字https:
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
毕业论文附录一般都写什么?大学生写论文是干嘛用的写个原创论文人工智能深度学习 AI写作 chatgpt 论文阅读
毕业论文的附录通常包含一些在正文中不便于展示或详细阐述的内容，但对理解论文整体又具有重要意义的资料。具体来说，附录可能包含以下内容：AI论文，免费大纲，10分钟3万字，查重高于15%退费，支持数据图表！！AIPaperPass-AI论文写作指导平台AIPaperPass是AI原创论文写作平台，免费千字大纲，5分钟生成3万字初稿，提供答辩汇报ppt、开题报告、任务书等，40篇真实中英文知网参考文献，
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
【算法练习】IDEA集成leetcode插件实现快速刷 2401_84102892 2024年程序员学习算法 intellij-idea leetcode
============点击右侧边leetcode->设置->配置地址、用户名、密码、存放目录、文件模板用户名要登录后在账号信息里看模板代码1.codefilename!velocityTool.camelC
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S