标题(绿色字体)
公式(红色字体)
公式推导(蓝色字体)
重要部分(紫色字体)
名词解释(黄色字体)
在概率论和统计学中,数学期望 (mean)(或 均值,亦简称期望)是试验中每次可能结果的 概率 乘以其结果的总和,是最基本的数学特征之一。它反映随机变量 平均取值 的大小。
需要注意的是,期望值并不一定等同于常识中的“期望”——“期望值”也许与每一个结果都不相等。期望值是该变量输出值的 平均数 。期望值并不一定包含于变量的输出值集合里。
大数定律 规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值
离散型随机变量的一切可能的取值 X i X_i Xi 与对应的概率 p ( X i ) p(X_i) p(Xi) 乘积之和称为该离散型随机变量的数学期望(若该求和绝对收敛),则记为 E ( X ) E(X) E(X)。
若离散型随机变量 X X X 的取值为 X 1 X_1 X1 , X 2 X_2 X2 , X 3 X_3 X3 , … \ldots … , X i X_i Xi , … \ldots … ; p ( X 1 ) p(X_1) p(X1) , p ( X 2 ) p(X_2) p(X2) , p ( X 3 ) p(X_3) p(X3) , … \ldots … , p ( X i ) p(X_i) p(Xi) , … \ldots … 则为 X X X 对应取值的概率。
E ( X ) = X 1 ∗ p ( X 1 ) + X 2 ∗ p ( X 2 ) + X 3 ∗ p ( X 3 ) + … + X i ∗ p ( X i ) E(X) = X_1*p(X_1)+X_2*p(X_2)+X_3*p(X_3)+\ldots+X_i*p(X_i) E(X)=X1∗p(X1)+X2∗p(X2)+X3∗p(X3)+…+Xi∗p(Xi)
E ( X ) = ∑ i = 1 ∞ X i ∗ p ( X i ) \color{red}{E(X) = \sum_{i=1}^\infty X_i*p(X_i)} E(X)=i=1∑∞Xi∗p(Xi)
设连续性随机变量X的概率密度函数为 f ( x ) f(x) f(x),若积分绝对收敛,则称积分的值 ∫ − ∞ ∞ x f ( x ) d x \int_{-\infty}^{\infty} {xf(x)} \,{\rm d}x ∫−∞∞xf(x)dx 为随机变量的数学期望,记为 E ( X ) E(X) E(X)。
E ( X ) = ∫ − ∞ ∞ x f ( x ) d x \color{red}{E(X) = \int_{-\infty}^{\infty} {xf(x)} \,{\rm d}x} E(X)=∫−∞∞xf(x)dx
若随机变量 X 的分布函数 F ( x ) F(x) F(x) 可表示成一个非负可积函数 f ( x ) f(x) f(x) 的积分,则称 X 为连续性随机变量, f ( x ) f(x) f(x) 称为 X 的概率密度函数 (分布密度函数)。
参考百度百科:https://baike.baidu.com/item/%E6%95%B0%E5%AD%A6%E6%9C%9F%E6%9C%9B
这里介绍了下基本概念,过多的性质这里就不介绍了,大家感兴趣的话,可以自己去查资料或者看课本,接下来才是重点。
概率论中方差用来度量随机变量和其数学期望(均值)之间的偏离程度。
统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。
V a r ( X ) = E [ X − E ( X ) ] 2 = E [ X 2 − 2 X E ( X ) + ( E X ) 2 ] = E ( X 2 ) − 2 ( E X ) 2 + ( E X ) 2 = E ( X 2 ) − ( E X ) 2 \color{blue} \begin{aligned} Var(X) &= E[X-E(X)]^2 \\ &= E[X^2-2XE(X)+(EX)^2] \\ &= E(X^2)-2(EX)^2+(EX)^2 \\ &= E(X^2)-(EX)^2 \end{aligned} Var(X)=E[X−E(X)]2=E[X2−2XE(X)+(EX)2]=E(X2)−2(EX)2+(EX)2=E(X2)−(EX)2
σ 2 = ∑ i = 1 N ( X i − μ ) 2 N \color{red}\sigma^2 = \frac{\sum_{i=1}^N(X_i-\mu)^2}{N} σ2=N∑i=1N(Xi−μ)2
σ 2 \sigma^2 σ2 为总体方差, N N N 为总体的个数, X i X_i Xi为变量, μ \mu μ 为总体均值。
我们中学其实就已经学到了这个标准定义的方差,除数为总体样例的个数 n n n。
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 \color{red}{S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2} S2=n−11i=1∑n(Xi−X)2
S 2 S^2 S2 为样本方差, n ( n < < N ) n(n<
同理总体均值 μ \mu μ 也很难得到,所以只能使用样本均值 X ‾ \overline{X} X 代替,但是这样肯定就会有误差,那么误差是大还是小?又差多少呢 ?这就是下面的问题了。
简单的来说, X ‾ \overline{X} X 是用 n n n 个样本所求到的平均数,因此样本平均数 X ‾ \overline{X} X 一旦确定下来,就只有 n − 1 n-1 n−1 个数不受约束,第 n n n 个数已经可以被均值和前面 n − 1 n-1 n−1 个数确定下来了,所以第 n n n 个数也就没有啥信息量了,没用了(自由度由 n n n 变成了 n − 1 n-1 n−1)
首先我们并不知道样本方差与总体方差之间的差值, 所以样本方差为
S 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 = 1 n ∑ i = 1 n [ ( X i − μ ) − ( X ‾ − μ ) ] 2 = 1 n ∑ i = 1 n [ ( X i − μ ) 2 − 2 ( X i − μ ) ( X ‾ − μ ) + ( X ‾ − μ ) 2 ] = 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 n ( X ‾ − μ ) ∑ i = 1 n ( X i − μ ) + 1 n ∑ i = 1 n ( X ‾ − μ ) 2 (2) \color{blue} \begin{aligned} S^2 & =\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2 \\ & = \frac{1}{n}\sum_{i=1}^n[(X_i-\mu)-(\overline{X}-\mu)]^2 \\ & = \frac{1}{n}\sum_{i=1}^n[(X_i-\mu)^2-2(X_i-\mu)(\overline{X}-\mu)+(\overline{X}-\mu)^2] \\ & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-\frac{2}{n}(\overline{X}-\mu)\sum_{i=1}^n(X_i-\mu)+\frac{1}{n}\sum_{i=1}^n(\overline{X}-\mu)^2 \tag{2} \end{aligned} S2=n1i=1∑n(Xi−X)2=n1i=1∑n[(Xi−μ)−(X−μ)]2=n1i=1∑n[(Xi−μ)2−2(Xi−μ)(X−μ)+(X−μ)2]=n1i=1∑n(Xi−μ)2−n2(X−μ)i=1∑n(Xi−μ)+n1i=1∑n(X−μ)2(2)
( X ‾ − μ ) (\overline{X}-\mu) (X−μ) 为常数,并且
( X ‾ − μ ) = 1 n ∑ i = 1 n X i − μ = 1 n ∑ i = 1 n X i − 1 n ∑ i = 1 n μ = 1 n ∑ i = 1 n ( X i − μ ) (3) \color{blue}(\overline{X}-\mu) = \frac{1}{n}\sum_{i=1}^nX_i-\mu = \frac{1}{n}\sum_{i=1}^nX_i-\frac{1}{n}\sum_{i=1}^n\mu = \frac{1}{n}\sum_{i=1}^n(X_i-\mu) \tag{3} (X−μ)=n1i=1∑nXi−μ=n1i=1∑nXi−n1i=1∑nμ=n1i=1∑n(Xi−μ)(3)
所以
S 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 ( X ‾ − μ ) 2 + 1 n ( X ‾ − μ ) 2 ∑ i = 1 n 1 = 1 n ∑ i = 1 n ( X i − μ ) 2 − 2 ( X ‾ − μ ) 2 + ( X ‾ − μ ) 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 − ( X ‾ − μ ) 2 (4) \color{blue} \begin{aligned} S^2 & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-2(\overline{X}-\mu)^2+\frac{1}{n}(\overline{X}-\mu)^2\sum_{i=1}^n1 \\ & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-2(\overline{X}-\mu)^2+(\overline{X}-\mu)^2 \\ & = \frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-(\overline{X}-\mu)^2 \tag{4} \end{aligned} S2=n1i=1∑n(Xi−μ)2−2(X−μ)2+n1(X−μ)2i=1∑n1=n1i=1∑n(Xi−μ)2−2(X−μ)2+(X−μ)2=n1i=1∑n(Xi−μ)2−(X−μ)2(4)
因此
E ( S 2 ) = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − ( X ‾ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] − E [ ( X ‾ − μ ) 2 ] = σ 2 − E [ ( X ‾ − μ ) 2 ] \color{blue} \begin{aligned} E(S^2) & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-(\overline{X}-\mu)^2] \\ & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]-E[(\overline{X}-\mu)^2] \\ & = \sigma^2-E[(\overline{X}-\mu)^2] \end{aligned} E(S2)=E[n1i=1∑n(Xi−μ)2−(X−μ)2]=E[n1i=1∑n(Xi−μ)2]−E[(X−μ)2]=σ2−E[(X−μ)2]
最终可推出
E ( S 2 ) = E [ 1 n ∑ i = 1 n ( X i − X ‾ ) 2 ] < = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] = σ 2 \color{blue} \begin{aligned} E(S^2) & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2]<=E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]=\sigma^2 \end{aligned} E(S2)=E[n1i=1∑n(Xi−X)2]<=E[n1i=1∑n(Xi−μ)2]=σ2
E ( S 2 ) = E [ 1 n ∑ i = 1 n ( X i − X ‾ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 − ( X ‾ − μ ) 2 ] = E [ 1 n ∑ i = 1 n ( X i − μ ) 2 ] − E [ ( X ‾ − μ ) 2 ] = σ 2 − E [ ( X ‾ − μ ) 2 ] (由(2)(3)(4)式可得) \color{blue} \begin{aligned} E(S^2) & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2] \tag{由(2)(3)(4)式可得} \\ & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-(\overline{X}-\mu)^2] \\ & = E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]-E[(\overline{X}-\mu)^2] \\ & = \sigma^2-E[(\overline{X}-\mu)^2] \end{aligned} E(S2)=E[n1i=1∑n(Xi−X)2]=E[n1i=1∑n(Xi−μ)2−(X−μ)2]=E[n1i=1∑n(Xi−μ)2]−E[(X−μ)2]=σ2−E[(X−μ)2](由(2)(3)(4)式可得)
E [ ( X ‾ − μ ) 2 = E [ ( X ‾ − E ( X ‾ ) ) 2 = V a r ( X ‾ ) = V a r [ 1 n ∑ i = 1 n X i ] = 1 n 2 V a r [ ∑ i = 1 n X i ] = 1 n 2 ∑ i = 1 n V a r ( X i ) = n σ n 2 = σ n (由(1)式可得) \color{blue} \begin{aligned} E[(\overline{X}-\mu)^2 & = E[(\overline{X}-E(\overline{X}))^2 \\ & = Var(\overline{X}) \\ & = Var[\frac{1}{n}\sum_{i=1}^nX_i] \\ & = \frac{1}{n^2}Var[\sum_{i=1}^nX_i] \\ & = \frac{1}{n^2}\sum_{i=1}^nVar(X_i) \\ & = \frac{n\sigma}{n^2} \\ & = \frac{\sigma}{n} \tag{由(1)式可得} \end{aligned} E[(X−μ)2=E[(X−E(X))2=Var(X)=Var[n1i=1∑nXi]=n21Var[i=1∑nXi]=n21i=1∑nVar(Xi)=n2nσ=nσ(由(1)式可得)
最终可推出
E ( S 2 ) = σ 2 − σ n = n − 1 n σ 2 \color{blue} \begin{aligned} E(S^2) = \sigma^2-\frac{\sigma}{n} = \frac{n-1}{n}\sigma^2 \end{aligned} E(S2)=σ2−nσ=nn−1σ2
再将式子经过恒等变形
n n − 1 E ( S 2 ) = σ 2 n n − 1 ∗ 1 n ∑ i = 1 n ( X i − X ‾ ) 2 = σ 2 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 = σ 2 \color{blue} \begin{aligned} \frac{n}{n-1}E(S^2) = \sigma^2 \\ \frac{n}{n-1}*\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2 = \sigma^2 \\ \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 = \sigma^2 \end{aligned} n−1nE(S2)=σ2n−1n∗n1i=1∑n(Xi−X)2=σ2n−11i=1∑n(Xi−X)2=σ2
因此可以用以下式子对总体方差进行估算,也就是最终样本方差的除数是 n − 1 n-1 n−1 的原因
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 \color{blue} \begin{aligned} S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 \end{aligned} S2=n−11i=1∑n(Xi−X)2
参考链接:https://www.zhihu.com/question/20099757
https://blog.csdn.net/Frankgoogle/article/details/80260969
至于上面谈到的有偏估计和无偏估计怎么理解,这里就不细说了,有兴趣的同学可以看看这个链接:https://www.zhihu.com/question/22983179
随机变量 X X X 标准差定义
σ = E [ X − E ( X ) ] 2 = E ( X 2 ) − ( E X ) 2 \color{red}\sigma = \sqrt{E[X-E(X)]^2} = \sqrt{E(X^2)-(EX)^2} σ=E[X−E(X)]2=E(X2)−(EX)2
总体方差对应的标准差
σ = ∑ i = 1 N ( X i − μ ) 2 N \color{red}\sigma = \sqrt{\frac{\sum_{i=1}^N(X_i-\mu)^2}{N}} σ=N∑i=1N(Xi−μ)2
样本方差对应的标准差
S = ∑ i = 1 n ( X i − X ‾ ) 2 n − 1 \color{red}S = \sqrt{\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{n-1}} S=n−1∑i=1n(Xi−X)2
假如我们的总体容量为 N N N,我们将分成 k k k 个样本,设其中一个样本的容量为 n n n 。
我们前面讲到的样本方差是将容量为 n n n 的样本作为一个整体,样本中的第 1 , 2 , 3 , … , n 1,2,3,\ldots,n 1,2,3,…,n 个体作为变量所求的方差。
这里我们则是将一个样本的均值定义为一个变量(样本均值记为 Y ‾ \overline{Y} Y, Y ‾ \overline{Y} Y 做为一个随机变量), k k k 个样本均值作为一个整体,最后求到 Y ‾ \overline{Y} Y 的总体方差,也就是抽样方差。
抽样方差和总体方差的关系
σ Y ‾ 2 = σ 2 n \color{red}\sigma_{\overline{Y}}^2 = \frac{\sigma^2}{n} σY2=nσ2
在现实中人们更喜欢用两边的算术平方根
S D ( Y ‾ ) = σ Y ‾ = σ n \color{red}SD(\overline{Y}) = \sigma_{\overline{Y}} = \frac{\sigma}{\sqrt{n}} SD(Y)=σY=nσ
由于 σ \sigma σ 在现实中往往很难得到,所以通常用 S S S(样本的标准差)来代替
S E ( Y ‾ ) = S n \color{red}SE(\overline{Y}) = \frac{S}{\sqrt{n}} SE(Y)=nS
参考:https://zhuanlan.zhihu.com/p/106706044
https://zh.wikipedia.org/zh-hans/%E6%A0%87%E5%87%86%E8%AF%AF%E5%B7%AE
总结一下
具体怎么应用这里就不细说 … \ldots … 篇幅有限,大家有兴趣的话可以自己去去找找资料。
M S E = ∑ i = 1 n ( X i − x i ) n \color{red}MSE = \frac{\sum_{i=1}^n(X_i-x_i)}{n} MSE=n∑i=1n(Xi−xi)
均方误差在机器学习中可以当作模型的损失函数,用来预测和回归。均方误差越小,模型预测的正确率越高,反之正确率则越低。
均方误差的算术平方根
R M S E = ∑ i = 1 n ( X i − x i ) n \color{red}RMSE = \sqrt{\frac{\sum_{i=1}^n(X_i-x_i)}{n}} RMSE=n∑i=1n(Xi−xi)
维基百科定义:在概率论和统计学中,协方差(Covariance)用于衡量两个随机变量的联合变化程度。而方差是协方差的一种特殊情况,即变量与自身的协方差。
前面我们讲到了方差的表达式
V a r ( X ) = E [ X − E ( X ) ] 2 = E [ X − E ( X ) ] [ X − E ( X ) ] \color{red}Var(X)=E[X-E(X)]^2 = E[X-E(X)][X-E(X)] Var(X)=E[X−E(X)]2=E[X−E(X)][X−E(X)]
根据定义,协方差是衡量两个随机变量的联合变化程度,设两个随机变量分别为 X , Y X,Y X,Y。
协方差为
C o v ( X , Y ) = E [ X − E ( X ) ] [ Y − E ( Y ) ] \color{red}Cov(X,Y) = E[X-E(X)][Y-E(Y)] Cov(X,Y)=E[X−E(X)][Y−E(Y)]
协方差表示的是两个变量的总体的误差;当 X = Y X=Y X=Y 时,表示的就是只有一个变量总体的误差的方差,所以方差是协方差中两个随机变量相等时的一种特殊情况。
C o v ( X , Y ) = E [ X − E ( X ) ] [ Y − E ( Y ) ] = E [ X Y − X E ( Y ) − Y E ( X ) + E ( X ) E ( Y ) ] = E ( X Y ) − E ( X ) E ( Y ) − E ( X ) E ( Y ) + E ( X ) E ( Y ) = E ( X Y ) − E ( X ) E ( Y ) \color{blue} \begin{aligned} Cov(X,Y) & = E[X-E(X)][Y-E(Y)] \\ & = E[XY-XE(Y)-YE(X)+E(X)E(Y)] \\ & = E(XY)-E(X)E(Y)-E(X)E(Y)+E(X)E(Y) \\ & = E(XY)-E(X)E(Y) \end{aligned} Cov(X,Y)=E[X−E(X)][Y−E(Y)]=E[XY−XE(Y)−YE(X)+E(X)E(Y)]=E(XY)−E(X)E(Y)−E(X)E(Y)+E(X)E(Y)=E(XY)−E(X)E(Y)
一般我们都会用 E ( X Y ) − E ( X ) E ( Y ) E(XY)-E(X)E(Y) E(XY)−E(X)E(Y) 来计算协方差
对于随机变量序列 X 1 , . . . , X n X_1, ..., X_n X1,...,Xn 与 Y 1 , . . . , Y m Y_1, ..., Y_m Y1,...,Ym,有
因为当 X , Y X,Y X,Y 独立时,则有 E ( X Y ) = E ( X ) E ( Y ) E(XY) = E(X)E(Y) E(XY)=E(X)E(Y),所以 C o v ( X , Y ) = 0 Cov(X,Y) = 0 Cov(X,Y)=0。但是反过来协方差等于 0 , X , Y X,Y X,Y 并不一定独立。