(三)深度学习入门之one_hot编码、Logistic回归、softmax函数与交叉熵

1.onehot编码
one-hot的基本思想:将离散型特征的每一种取值都看成一种状态,若你的这一特征中有N个不相同的取值,那么我们就可以将该特征抽象成N种不同的状态,one-hot编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。举个例子,假设我们以学历为例,我们想要研究的类别为小学、中学、大学、硕士、博士五种类别,我们使用one-hot对其编码就会得到:
(三)深度学习入门之one_hot编码、Logistic回归、softmax函数与交叉熵_第1张图片
2.Logistic多分类
1、二分类模型
逻辑斯蒂回归本来是用于多分类,改变其概率模型函数则可将其拓展到多分类(class num>2)问题。原始逻辑斯蒂回归模型如下:
(三)深度学习入门之one_hot编码、Logistic回归、softmax函数与交叉熵_第2张图片
其中,
在这里插入图片描述
2. 多分类模型
(三)深度学习入门之one_hot编码、Logistic回归、softmax函数与交叉熵_第3张图片
3.softmax函数
softmax函数是堆logistic多分类模型的改进,其每个分量的函数算式如下
在这里插入图片描述
4.信息熵
热力学中的热熵是表示分子状态混乱程度的物理量,而且还有一个所谓『熵增原理』,即:宇宙中的熵总是增加的,换句话说,分子状态总是从有序变成无序,热量总是从高温部分向低温部分传递。 香农借用了这个概念,用信息熵来描述信源的不确定度。

简单点说,一个信息源越不确定,里面蕴含的信息量越大。举个例子:吴京《战狼2》大获成功后,说要续拍《战狼3》,但是没说谁当女主角,于是就有各种猜测,各种可能性,即:信息量很大。但是没过多久,吴京宣布女主角确定后,大家就不用再猜测女主角了,信息量相比就没这么大了。

这个例子中,每种猜测的可能性其实就是概率,而信息量如何衡量,可以用下面的公式来量化计算,算出来的值即信息熵:
(三)深度学习入门之one_hot编码、Logistic回归、softmax函数与交叉熵_第4张图片
5 交叉熵
(三)深度学习入门之one_hot编码、Logistic回归、softmax函数与交叉熵_第5张图片
这是公式定义,x、y都是表示概率分布(注:也有很多文章喜欢用p、q来表示),这个东西能干嘛呢?

假设x是正确的概率分布,而y是我们预测出来的概率分布,这个公式算出来的结果,表示y与正确答案x之间的错误程度(即:y错得有多离谱),结果值越小,表示y越准确,与x越接近。

来源文章:
https://www.cnblogs.com/lianyingteng/p/7792693.html
https://www.cnblogs.com/yjmyzz/p/7822990.html
https://blog.csdn.net/ouyangfushu/article/details/84797493

你可能感兴趣的:(深度学习)