3阿谭

损失函数与优化器

十七个损失函数

L1loss
class torch.nn.L1Loss(size_average=None, reduce=None)
计算 output 和 target 之差的绝对值，可选返回同维度的 tensor 或者是一个标量。

MSELoss
class torch.nn.MSELoss(size_average=None, reduce=None, reduction='elementwise_mean')
计算 output 和 target 之差的平方，可选返回同维度的 tensor 或者是一个标量。

NLLLoss
class torch.nn.NLLLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='elementwise_mean')
对应类别上的输出，取一个负号。

CrossEntropyLoss
class torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='elementwise_mean')
将输入经过 softmax 激活函数，将向量“归一化”成概率形式，再计算其与 target 的交叉熵损失。 即该方法将nn.LogSoftmax()（相当于激活函数）和 nn.NLLLoss()（损失函数）进行了结合。严格意义上的交叉熵损失函数应该是nn.NLLLoss()。

拓展：在多分类任务中，经常采用 softmax 激活函数+交叉熵损失函数，因为交叉熵描述了两个概率分布的差异，然而神经网络输出的是向量，并不是概率分布的形式。所以需要 softmax激活函数将一个向量进行“归一化”成概率分布的形式，再采用交叉熵损失函数计算 loss。

PoissonNLLLoss
class torch.nn.PoissonNLLLoss(log_input=True, full=False, size_average=None, eps=1e-08, reduce=None, reduction='elementwise_mean')
用于 target 服从泊松分布的分类任务。

KLDivLoss
class torch.nn.KLDivLoss(size_average=None, reduce=None, reduction='elementwise_mean')
计算 input 和 target 之间的 KL 散度( 描述两个概率分布之间的差异) 。

BCELoss
class torch.nn.BCELoss(weight=None, size_average=None, reduce=None, reduction='element wise_mean')
二分类任务时的交叉熵计算函数。

BCEWithLogitsLoss
class torch.nn.BCEWithLogitsLoss(weight=None, size_average=None, reduce=None, reduction='elementwise_mean', pos_weight=None)
将 Sigmoid 与 BCELoss 结合，类似于 CrossEntropyLoss ( 将 nn.LogSoftmax()和 nn.NLLLoss()进行结合）。即 input 会经过 Sigmoid 激活函数，将 input 变成概率分布的形式。

MarginRankingLoss
class torch.nn.MarginRankingLoss(margin=0, size_average=None, reduce=None, reduction='elementwise_mean')
计算两个向量之间的相似度，当两个向量之间的距离大于 margin，则 loss 为正，小于margin， loss 为 0。

HingeEmbeddingLoss
class torch.nn.HingeEmbeddingLoss(margin=1.0, size_average=None, reduce=None, reduction='elementwise_mean')
为折页损失的拓展，主要用于衡量两个输入是否相似。

MultiLabelMarginLoss
class torch.nn.MultiLabelMarginLoss(size_average=None, reduce=None, reduction='element wise_mean')
用于一个样本属于多个类别时的分类任务。例如一个四分类任务，样本 x 属于第 0类，第 1 类，不属于第 2 类，第 3 类。

SmoothL1Loss
class torch.nn.SmoothL1Loss(size_average=None, reduce=None, reduction='elementwise_mean')
计算平滑 L1 损失，属于 Huber Loss 中的一种(因为参数 δ 固定为 1 了)。

拓展：Huber Loss 常用于回归问题，其最大的特点是对离群点（outliers）、噪声不敏感，具
有较强的鲁棒性。

SoftMarginLoss
class torch.nn.SoftMarginLoss(size_average=None, reduce=None, reduction='elementwise_mean')
Creates a criterion that optimizes a two-class classification logistic loss between input tensor xand target tensor y (containing 1 or -1).

MultiLabelSoftMarginLoss
class torch.nn.MultiLabelSoftMarginLoss(weight=None, size_average=None, reduce=None, reduction='elementwise_mean')
SoftMarginLoss 多标签版本。

CosineEmbeddingLoss
class torch.nn.CosineEmbeddingLoss(margin=0, size_average=None, reduce=None, reduction ='elementwise_mean')
用 Cosine 函数来衡量两个输入是否相似。

MultiMarginLoss
class torch.nn.MultiMarginLoss(p=1, margin=1, weight=None, size_average=None, reduce=None, reduction='elementwise_mean')
计算多分类的折页损失。

TripletMarginLoss
class torch.nn.TripletMarginLoss(margin=1.0, p=2, eps=1e-06, swap=False, size_average=None, reduce=None, reduction='elementwise_mean')
计算三元组损失，人脸验证中常用。

十个优化器

基类 Optimizer

PyTorch 中所有的优化器(如： optim.Adadelta、 optim.SGD、 optim.RMSprop 等)均是Optimizer 的子类，Optimizer 中定义了一些常用的方法：

参数组(param_groups)

# 一个参数组
optimizer_1 = optim.SGD([w1, w3], lr=0.1)
# 两个参数组
optimizer_2 = optim.SGD([{'params': w1, 'lr': 0.1},
                         {'params': w2, 'lr': 0.001}])

optimizer 对参数的管理是基于组的概念，可以为每一组参数配置特定的lr,momentum,weight_decay 等等。
参数组在 optimizer 中表现为一个 list(self.param_groups)，其中每个元素是dict，表示一个参数及其相应配置，在 dict 中包含’params’、 ‘weight_decay’、 ‘lr’ 、'momentum’等字段。

zero_grad()
将梯度清零。由于 PyTorch 不会自动清零梯度，所以在每一次更新前会进行此操作。

state_dict()
获取模型当前的参数，以一个有序字典形式返回。key 是各层参数名， value 就是参数。

load_state_dict(state_dict)
将 state_dict 中的参数加载到当前网络，常用于 finetune。

add_param_group()
给 optimizer 管理的参数组中增加一组参数，可为该组参数定制 lr,momentum, weight_decay 等，在 finetune 中常用。

step(closure)
执行一步权值更新, 其中可传入参数 closure（一个闭包）。

十个优化器

这里都说的是 ** 优化器，并没有提 ** 优化方法，因为 PyTorch 中给出的优化器与原始论文中提出的优化方法，多多少少有改动，详细还需看优化器源码。

torch.optim.SGD
class torch.optim.SGD(params, lr=