计算机视觉 - 07 Softmax、微调、resnet、信息熵

1、Softmax(逻辑回归)
参考源:
https://zhuanlan.zhihu.com/p/41784404
https://blog.csdn.net/bitcarmanlee/article/details/82320853
https://blog.csdn.net/weixin_36411839/article/details/81835552
vgg16: https://www.sohu.com/a/241338315_787107
resnet: https://zhuanlan.zhihu.com/p/35890660

首先这是卷积神经网络最后一层全连接层的构造,W是神经元的权值,K是要分类的类别数,X是上一层的输出平铺(Flatten)后的结果
计算机视觉 - 07 Softmax、微调、resnet、信息熵_第1张图片
计算机视觉 - 07 Softmax、微调、resnet、信息熵_第2张图片
首先我们先来看Softmax Function公式本身,非常好理解
(1)当输入为X, 预测类别为j 的概率为P2.
(2)所有预测类别概率和为1
特征表示值的用途不大, 我们更希望得到具有统计意义的概率

Softmax 是怎么实现的
计算机视觉 - 07 Softmax、微调、resnet、信息熵_第3张图片
然后我们把上面的Softmax物理意义图拆分一下, 变成如下图
计算机视觉 - 07 Softmax、微调、resnet、信息熵_第4张图片
预测结果与输入特征之间存在明显相关性
并且,Softmax 具有更好的解释性,包含属于猫的这一类的特征越多,输出为猫的概率就越大
(插播一句,这里所谓的概率,是相对概率,而不是绝对概率,假设上图P输出的概率为0.75,物理含义是,当输入为X时,预测为猫的概率是预测不是猫的概率的3倍))

上面的情况是假设不同特征是相互独立的然而,这可能在许多情况下不成立,因为特征之间可能存在协同作用或冗余
这种协同或者作用会直接影响输出概率,比如猫前脚和猫后脚

为了解决这种情况,我们可以:(来自我们Lab办公室的李博士建议)1)去除有协同作用或冗余的特征,如x3 =X1⋅x2x3=x1⋅x2(但是如果我们不知道哪些特征值是相关的,我们可能会引入更多无用的特征!2)当两个特征经常一起被激活时,训练过程将学习较小的权重W1和W2,使得它们的联合效果更接近真实效果

2、微调见PPT
https://github.com/jiangzhubo/What-is-Fine-tuning

3、准确率、置信度
置信度越高,说明模型对输出的结果越肯定

4、残差网络(Resnet)
https://zhuanlan.zhihu.com/p/33613512

5、信息熵
在一个随机事件中,某个事件发生的不确定度越大,熵也就越大,那我们要搞清楚所需要的信息量越大。
在我们生活中,信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大
越大概率的事情发生了产生的信息量越小

  1. 当一个事件发生的概率p(x)为1并且它发生了,那我们等到的信息量是h(x) = 0。
  2. 当一个事件发生的概率p(x) 为0 并且它发生了,那我们得到的信息可能是无限大。
  3. H(x)随p(x)单调递增。
  4. p(x,y) = p(x)p(y)。
  5. h(x,y) = h(x) + h(y)。
  6. 信息量h(x) 反比于p(x) 。
  7. 信息量是非负的。

你可能感兴趣的:(深度学习)