2021-11-18

概率论统计学

常见数字特征

数学期望（均值）

在概率论和统计学中，数学期望(mean)（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。它反映随机变量平均取值的大小。其公式为：：表示观察到随机变量的样本的值。：表示发生的概率。

数学期望反映的是平均水平。通过它，我们能够了解一个群体的平均水平（比如说，一个班平均成绩８０）。但另外一个方面，它所包含的信息也是十分有限的，首先是个体信息被压缩了，其次如果单纯看期望的话，是看不出样本的数量。（平均成绩为８０，在１人班和１００人班的含义是不一样的），通过这个问题想说明，在刻画群体特征的时候，多个数字特征配合才能达到效果。

方差

　　方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。在许多实际问题中，研究方差即偏离程度有着重要意义。

　　方差()计算公式如下： $X：表示随机变量。 E(X)：表示X的期望。 D(X)：是每个样本值与全体样本值的平均数之差的平方的平均数。$

标准差

标准差也是用于衡量一组数据的离散程度的。公式如下，可以看出标准差(表示)于随机变量处于同一量纲下，这为以及在同一公式中计算提供了很好的支持。

标准差和均值的量纲（单位）是一致的，在描述一个波动范围时标准差比方差更方便。比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm，方差就无法做到这点。

　　再举个例子，从正态分布中抽出的一个样本落在[μ-3σ, μ+3σ]这个范围内的概率是99.7%，也可以称为“正负3个标准差”。如果没有标准差这个概念，我们使用方差来描述这个范围就略微绕了一点。万一这个分布是有实际背景的，这个范围描述还要加上一个单位，这时候为了方便，人们就自然而然地将这个量单独提取出来了。

协方差

标准差，方差一般用来描述一维的，现实中我们遇到的大多是多维的，这时候虽然可以每一维独立计算出方差，但信息单一，这就引出协方差。前面一直在探讨单个随机变量（1维），但是事实上当我们考察一个群体的时候，往往事物的属性是多方面的（多维），这里只考察2维情况，形式如：。的意思这类事物具有两个方面的属性，更进一步来说，一个样本有两方面的值，体现在数据库中，有两列。当这两个属性出现在同一类事物中的时候，我们很自然想到之间有某种关系，但是如何来刻画这种关系呢？是2维的，只考虑1维会无法从整体把握问题。而如果进行关联分析，有时候却需要对维度拆分来进行研究，这就引出了下面的协方差公式：

均值描述的是样本集合中平衡点，因为信息是有限的。

标准差描述的是样本集合中各个样本点到均值之间距离的平均值

而方差则仅仅是标准差的平方。方差是协方差的一种特殊情况，即当两个变量是相同的情况

协方差矩阵

　　前面已经说了协方差的意义，协方差在于探索随机变量之间的关系。协方差矩阵计算的是不同维度之间的协方差，不是样本之间的关联关系。协方差探索的是随机变量X，Y之间的相关性，是放在同一个样本中来进行的。举一个简单的例子，学生小明（年龄17岁，年级为高2），小红（年龄17岁，年级为高3），小明、小红就是我们所说的样本，而年龄、年级则是随机变量。计算协方差时，考虑的是小明年龄和小明年级之间的关联关系（一个样本自身属性之间的关联关系）。ps:未考虑小明、小红之间是否有关联关系（样本之间是否有关联关系）。

协方差矩阵是一个对称的矩阵，而且对角线是各个维度上的方，对于机器学习领域的PCA来说，如果遇到的矩阵不是方阵，需要计算他的协方差矩阵来进行下一步计算，因为协方差矩阵一定是方阵，而特征值分解针对的必须是方阵，SVD针对的可以是非方阵情况。协方差矩阵在主成分分析中主成分分析有关键作用。主成分分析就是把协方差矩阵做一个奇异值分解，求出最大的奇异值的特征方向。协方差矩阵计算的是不同维度之间的协方差，而不是不同样本之间的，这点要记牢了。

　　当样本含有大量维度（随机变量多）的时候，我们就需要使用矩阵来刻画各个维度之间的关联关系。（每一行代表一个样本，每一列代表一个随机变量）

某一个矩阵

协方差矩阵

三维

求解协方差矩阵的步骤

参考资料：https://www.jianshu.com/p/a6f8d992a0ab

https://blog.csdn.net/thesnowboy_2/article/details/69564226

https://blog.csdn.net/kuang_liu/article/details/16369475

2021-11-18

数学期望（均值）

方差

标准差

协方差

协方差矩阵

你可能感兴趣的:(2021-11-18)