本来说直接看BP算法的代码的,但是看书的时候又确实遇到了这两个东西,所以就先记上这么一个学习笔记。
虽然这种纯数学的东西放在神经网络的学习笔记中好像也不太对,但是确实是学习神经网络的时候遇到的,所以就勉强记录在内。
无论是期望还是算数平均数,从大的概念来说都是求的一个均值,不过建立在的不同的基础上。
我们来看一个样本数为100的样本集合 { ( x 1 , p 1 ) , ( x 2 , p 2 ) , ⋅ ⋅ ⋅ , ( x 100 , p 100 ) } \{(x_1,p_1),(x_2,p_2),···,(x_{100},p_{100})\} { (x1,p1),(x2,p2),⋅⋅⋅,(x100,p100)}, x i x_i xi表示第 i i i个样本, p i p_i pi代表第 i i i个样本出现的概率。
期望就是指我们像现在这样,能够一眼就看穿整个样本集合(即站在了高维一样,主要是我不喜欢上帝视角这个名词,所以不如说我们站在了高维[doge]),我们对整个集合一览无余,那么我们就能很方便的求出这个集合的均值,即 ∑ i = 1 100 x i p i \sum_{i=1}^{100}x_ip_i ∑i=1100xipi。
但是假设我们遭受了降维打击,也就是我们并不知道每个样本出现的概率,我们只能在实验中大胆假设,小心求证的时候,这就是算术平均值。比如我们实验了5次,得到的数据为 { x 1 , x 25 , x 1 , x 86 , x 23 } \{x_1,x_{25},x_1,x_{86},x_{23}\} { x1,x25,x1,x86,x23},那么我们在这五个结果中的算术平均值为 x 1 + x 25 + x 1 + x 86 + x 23 5 \frac{x_1+x_{25}+x_1+x_{86}+x_{23}}{5} 5x1+x25+x1+x86+x23。只有当我们实验多次的时候,算术平均值才会与期望值相等。
所以总的来说,期望就是指我们知道整个数据集合,站在全局角度上的一个均值,而算术平均值是我们只有一撮数据,针对这一撮数据的均值。
我们还是沿用上一个100的样本集合,只不过这里将这个二元组扩充到三元组: { ( x 1 , y 1 , p 1 ) , ( x 2 , y 2 , p 2 ) , ⋅ ⋅ ⋅ , ( x 100 , y 100 , p 100 ) } \{(x_1,y_1,p_1),(x_2,y_2,p_2),···,(x_{100},y_{100},p_{100})\} { (x1,y1,p1),(x2,y2,p2),⋅⋅⋅,(x100,y100,p100)}, x i x_i xi代表着第 i i i个样本的样本值, y i y_i yi代表着第 i i i个样本的真实值。
我们假设我们已经求出了这100个样本值 x \boldsymbol x x的期望 μ \mu μ,方差的公式如下: σ 2 = 1 100 ∑ i = 1 100 ( x i − μ ) 2 \sigma^2=\frac{1}{100}\sum_{i=1}^{100}(x_i-\mu)^2 σ2=1001i=1∑100(xi−μ)2
对应的,均方误差的公式如下:
M S E = 1 100 ∑ i = 1 100 ( x i − y i ) 2 MSE=\frac{1}{100}\sum_{i=1}^{100}(x_i-y_i)^2 MSE=1001i=1∑100(xi−yi)2
注:放在N个样本中,那么对应的100的位置改为N就行了
那么我们看到上面这两个公式好像基本差别不大对吧,反正至少长得一样,都差点认为是失散多年的好兄妹或者好姐弟了对吧,但是其实有如下两个差别:
所以总的来说,这两者的区别如下:方差衡量的是数据与中心的偏离程度,均方误差衡量的是样本数据与真实数据(输出数据)的偏离程度。