最近在学习R语言,其中涉及涉及到关联分析时碰到的一些函数,其中有三个彼此关联的函数:

var:计算某个变量的方差

cov:计算两个变量的协方差

cor:计算两个变量的相关性

这些概念的理论学校里肯定都学过,不过现在确实是一点也想不起来了,而且更重要的是当时也不知道为什么要有这些统计概念。然后现在只得在度娘上搜了一下,共找到方差标准差协方差相关性


期望值

在概率论和统计学中,一个离散性随机变量的期望值(或数学期望、或均值,亦简称期望,物理学中称为期待值)是试验中每次可能结果的概率乘以其结果的总和。换句话说,期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。


在统计学中,当估算一个变量的期望值时,一个经常用到的方法是重复测量此变量的值,然后用所得数据的平均值来作为此变量的期望值的估计,平均数一般用μ表示。

在概率分布中,期望值和方差或标准差是一种分布的重要特征。

在经典力学中,物体重心的算法与期望值的算法十分近似。


方差

方差(Variance)又称为变异量或变异数,是应用数学中的一个概念。在概率论和统计学中,一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩二阶中心动差,恰巧也是它的二阶累积量。方差的算术平方根称为该随机变量的标准差。方差的公式简单的可描述为变量的所有观测值与其期望之差的平方的总和再除以样本数量:

\operatorname{Var}(X) = \operatorname{E}\left[(X - \mu)^2 \right]


标准差

标准差(英语:Standard Deviation),数学符号σ,在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标准差定义为方差的算术平方根,反映组内个体间的离散程度;标准差与期望值之比为标准离差率。标准差的观念是由卡尔·皮尔逊(Karl Pearson)引入到统计中。

标准差的应用

简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

例如,两组数的集合{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二个集合具有较小的标准差。

标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。

标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越小,代表回报较为稳定,风险亦较小。

正态分布的规则

在实际应用上,常考虑一组数据具有近似于正态分布的概率分布。若其假设正确,则约68%数值分布在距离平均值有1个标准差之内的范围,约95%数值分布在距离平均值有2个标准差之内的范围,以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为“68-95-99.7法则”。

方差、协方差及关联性_第1张图片

标准差与平均值之间的关系

一组数据的平均值及标准差常常同时作为参考的依据。从某种意义上说,如果用平均值来考量数值的中心的话,则标准差也就是对统计的分散度的一个“自然”的测度。


协方差

协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况


期望值分别为E(X)=\muE(Y)=\nu的两个实数随机变量X 与Y 之间的协方差定义为:

\operatorname{cov}(X, Y) = \operatorname{E}((X - \mu) (Y - \nu))

其中E是期望值。

观上来看,协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。如果X 与Y 是统计独立的,那么二者之间的协方差就是0。


相关

在概率论和统计学中,相关(Correlation,或称相关系数或关联系数),显示两个随机变量之间线性关系的强度和方向。在统计学中,相关的意义是用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下,有许多根据数据特点而定义的用来衡量数据相关的系数。

统计学上的相关

相关系数的计算过程可表示为:将每个变量都转化为标准单位,乘积的平均数即为相关系数。

两个变量的关系可以直观地用散点图表示,当其紧密地群聚于一条直线的周围时,变量间存在强相关。

一个散点图可以用五个统计量来概括。所有x值得平均数,所有x值的SD,所有y值得平均数,所有y值的SD,相关系数r.

将第一个变量记为x ,第二个变量记为y ,相关系数为r,则可以通过以下公式:

r = [(以标准单位表示的x)X(以标准单位表示的y)]的平均数