当训练样本不均衡时,可以采用过采样、欠采样、数据增强等手段来避免过拟合。
Sampler类中有一个派生的权重采样类WeightedRandomSampler,能够在加载数据时,按照指定的概率进行随机顺序采样。
WeightedRandomSampler(samples_weight, samples_num)
1、weights:对应的是“样本”的权重而不是“类别的权重”。 也就是说:有一千个样本,weight的数值就有一千个,因此有 len(weight)= 样本数。
2、num_sampes:提取的样本数目,待选取的样本数目一般小于全部的样本数
3、replacement:用于指定是否可以重复选取某一个样本,默认为True,即允许在个epoch中重复选取某一个样本。如果设为False,则当某一类的样本被全部选完,但其样本数自仍未达到num_samples时,sampler将不会再从该类中选取本,此时可能导致weights参数失效。
如下图,weight是一些tensor,代表每个位置的样本对应的权重,WeightedRandomSampler(weights, 6, True) ,表示按照weight给出的权重,生成六个索引,而且是重复取样。
从输出可以看出,位置 [1] = 10 由于权重较大,被采样的次数较多,位置[0]由于权重为0所以没有被采样到,其余位置权重低所以都仅仅被采样一次。
weight = [ ] 里面每一项代表该样本种类占总样本的倒数。
例如: 数据集 animal = [ cat, cat, dog, dog, dog],cat有两个,dog有三个。
解:
第一步:先计算每种动物的占比,
cat_count = 2/5 = 0.4
dog_count = 3/5 = 0.6第二步:再计算count的倒数,也就是占比的倒数,这个数值就是weight
cat_weight = 1/count = 1/0.4 = 2.5
dog_weight = 1/count = 1/0.6 = 1.67第三步:生成权重
weight 列表就可以写作:weight = [2.5, 2.5, 1.67, 1.67, 1.67]
from torch.utils.data import WeightedRandomSampler
weights=[1]*1000
bbb=list(WeightedRandomSampler(weights, 200, replacement=True))
print(bbb)
weights =aaa=[1]*20000
sampler=WeightedRandomSampler(weights,num_samples=200,replacement=True)
_image_size = 32
_mean = [0.485, 0.456, 0.406]
_std = [0.229, 0.224, 0.225]
trans = transforms.Compose([
transforms.RandomCrop(_image_size),
# transforms.RandomHorizontalFlip(),
# transforms.ColorJitter(.3, .3, .3),
transforms.ToTensor(),
# transforms.Normalize(_mean, _std),
])
if __name__ == '__main__':
train_ds = DogsCatsDataset(r"D:\data\ocr\wanqu\archive", "train", transform=trans)
train_dl = DataLoader(train_ds, batch_size=2,num_workers=1,sampler=sampler)
# train_dl = DataLoader(train_ds, batch_size=20,num_workers=1,shuffle=True)
for i, (data, target) in enumerate(train_dl):
# print(i,target)
if len(np.where(target.numpy() == 1)[0])>0:
print('find 1')
在Dataloader类中,使用了采样器Sampler类就不能使用shume参数。
通过采样的方式进行样本均衡,只是一种辅助手段,它也会引入一些新的问题。在条件允许的情况下,还是推荐将所收集的样本尽量趋于均衡。
重复正比例数据,实际上没有为模型引入更多数据,过分强调正比例数据,会放大正比例噪声对模型的影响。
丢弃大量数据,和过采样一样会存在过拟合的问题。
在多标签非互斥的分类任务(一个对象可以被预测出多种分类)中,还可以使用 BCEWithLogitsLoss函数,在计算损失时为每个类别分配不同的权重。
这种方式可以使模型对每个类别的预测能力达到均衡。例如,多分类的个数是6,则可以使用类似的代码指定每个分类的权重:
pos_weight = torch.ones( [6] )#为每个分类指定权重为1
criterion = torch.nn.BCEwithLogitsioss( posweight = pos_weight)
用于单标签二分类或者多标签二分类,即一个样本可以有多个分类,彼此不互斥。输出和目标的维度是(batch,C),batch是样本数量,C是类别数量。每个C值代表属于一类标签的概率。
用于单标签二分类或者多标签二分类,它相当于Sigmoid+BCELoss,即对网络输出的结果先做一次Sigmoid将其值域变为[0,1],再对其与标签之间做BCELoss。
当网络最后一层使用nn.Sigmoid时,就用BCELoss。
当网络最后一层不使用nn.Sigmoid时,就用BCEWithLogitsLoss。
用于多类别分类,输出和目标的维度是(batch,C),batch是样本数量,C是类别数量。每一个C之间是互斥的,相互关联的。
对于每一个batch的C个值,一起求每个C的softmax,所以每个batch的所有C个值之和是1,哪个值大,代表其属于哪一类。
若用于二分类,那输出和目标的维度是(batch,2)。