一件事情有n种结果,每一种结果值为 x i x_i xi,发生的概率记为 p i p_i pi,那么该事件发生的期望为:
E = ∑ i = 1 n x i p i E=\sum_{i=1}^{n}{x_i}{p_i} E=i=1∑nxipi
定义: 描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据。
S 2 = 1 n ∑ i = 1 n ( y i − f ( x i ) ) 2 S^2=\frac{1}{n}\sum_{i=1}^{n}{(y_i-f(x_i))}^2 S2=n1i=1∑n(yi−f(xi))2
y i y_i yi 表示预测值, f ( x i ) f(x_i) f(xi) 表示真实值。 偏差描述了准确性。
定义: 描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。
σ 2 = E [ ( X − μ ) 2 ] \sigma^2=E[(X-\mu)^2] σ2=E[(X−μ)2]
其中: μ \mu μ 为全体平均数。方差描述了稳定性。
注:
上面的式子需要知道 X X X的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。
定义: 在真实世界中,除非在某些特殊情况下,找到一个总体的真实的方差是不现实的。因此,从总体中取出 n n n个样本 ,用各样本值与样本算数平均数的离差平方的平均数对 σ 2 \sigma^2 σ2进行估计。
有偏估计: 现实中往往并不清楚 X X X服从什么分布,但若知道 μ \mu μ的真值,则可对 X X X采样,并通过下式来估计 σ 2 \sigma^2 σ2:
S 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 S^2=\frac{1}{n}\sum_{i=1}^{n}{(X_i-\mu)}^2 S2=n1i=1∑n(Xi−μ)2
无偏估计: 更多的情况,我们不知道 μ \mu μ是多少的,只能计算出 X ‾ \overline{X} X。用下式子进行估计,得到的样本方差是总体方差的无偏估计。
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^{n}{(X_i-\overline{X})}^2 S2=n−11i=1∑n(Xi−X)2
推导过程参见为什么样本方差(sample variance)的分母是 n-1?
定义: 标准差为方差的算术平方根,能反映数据的离散程度。
σ = D ( X ) \sigma=\sqrt{D(X)} σ=D(X)
注:
D ( X ) D(X) D(X)为总体方差。
定义: 即样本方差的算术平方根。
有偏估计:
S = ∑ i = 1 n ( X i − X ‾ ) 2 n S=\sqrt{\frac{\sum_{i=1}^{n}{(X_i-\overline{X})}^2}{n}} S=n∑i=1n(Xi−X)2
无偏估计:
S = ∑ i = 1 n ( X i − X ‾ ) 2 n − 1 S=\sqrt{\frac{\sum_{i=1}^{n}{(X_i-\overline{X})}^2}{n-1}} S=n−1∑i=1n(Xi−X)2
定义: 协方差代表了两个变量之间的关系。如果 协方差为正值,说明两个变量呈正相关;如果协方差为负值,则两个变量呈负相关;若 协方差为0,两个变量相互独立。
期望值分别为 E ( X ) E(X) E(X) 和 E ( Y ) E(Y) E(Y) 的两个实随机变量 X X X 和 Y Y Y 之间的协方差 C o v ( X , Y ) Cov(X,Y) Cov(X,Y) 定义为:
C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y ] − 2 E [ Y ] E [ X ] + E [ X ] E [ Y ] = E [ X Y ] − E [ X ] E [ Y ] \begin{aligned} Cov(X, Y) &=E[(X-E[X]) (Y-E[Y])] \\ & =E[XY]-2E[Y]E[X]+E[X]E[Y] \\ & =E[XY]-E[X]E[Y] \end{aligned} Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[Y]E[X]+E[X]E[Y]=E[XY]−E[X]E[Y]
计算公式:
σ ( X , Y ) = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) \sigma(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n}{(X_i-\overline{X})(Y_i-\overline{Y})} σ(X,Y)=n−11i=1∑n(Xi−X)(Yi−Y)
注:
方差是一种特殊的协方差。当X=Y时: C o v ( x , y ) = D ( X ) = D ( Y ) Cov(x,y)=D(X)=D(Y) Cov(x,y)=D(X)=D(Y)
直观理解:
协方差表示的是两个变量总体误差的方差,这与只表示一个变量误差的方差不同。两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?
X X X变大,同时 Y Y Y也变大,说明两个变量是同向变化的,这时协方差就是正的。
X X X变大,同时 Y Y Y变小,说明两个变量是反向变化的,这时协方差就是负的。
从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。
概念: 设 为 n n n维随机变量 X = ( X 1 , X 2 , . . . X N ) T X=(X_1,X_2,...X_N)^T X=(X1,X2,...XN)T,称矩阵
为 n n n维随机变量 X X X的协方差矩阵(covariance matrix),也记为 D ( X ) D(X) D(X) ,其中
为 X X X的分量 X i X_i Xi和 X j X_j Xj的协方差(设它们都存在)。
注:
上述矩阵中,对角线上的元素为各个随机变量的方差,非对角线上的元素为两两随机变量之间的协方差,根据协方差的定义,我们可以认定协方差矩阵为对称矩阵(symmetric matrix),其大小为 n × n n×n n×n(即方阵)。
参考如何直观地理解「协方差矩阵」?
概念: 就是用 X X X、 Y Y Y 的协方差除以 X X X 的标准差和 Y Y Y 的标准差。
ρ x y = r ( X , Y ) = C o v ( X , Y ) σ X σ Y = ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) ∑ i = 1 n ( X i − X ‾ ) 2 ∑ i = 1 n ( Y i − Y ‾ ) 2 \begin{aligned} \rho_{xy}&=r(X,Y) \\ & =\frac{Cov(X,Y)}{\sigma_X\sigma_Y} \\ & =\frac{\sum_{i=1}{n}{(X_i-\overline{X})(Y_i-\overline{Y})}}{\sqrt{\sum_{i=1}^{n}{(X_i-\overline{X})^2}}\sqrt{\sum_{i=1}^{n}{(Y_i-\overline{Y})^2}}} \end{aligned} ρxy=r(X,Y)=σXσYCov(X,Y)=∑i=1n(Xi−X)2∑i=1n(Yi−Y)2∑i=1n(Xi−X)(Yi−Y)
性质: