皮尔森相关系数和样本方差

数据来源百度百科

皮尔森相关系数

皮尔森相关系数的公式为:

皮尔森相关系数

样本的简单相关系数一般用r表示,其中n 为样本量, 分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r 的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若r=0,表明两个变量间不是线性相关,但有可能是其他方式的相关(比如曲线方式)

利用样本相关系数推断总体中两个变量是否相关,可以用t 统计量对总体相关系数为0的原假设进行检验。若t 检验显著,则拒绝原假设,即两个变量是线性相关的;若t 检验不显著,则不能拒绝原假设,即两个变量不是线性相关的

 

样本方差

样本方差的公式为

  

其中  为样本均值。

简介

在许多实际情况下,人口的真实差异事先是不知道的,必须以某种方式计算。 当处理非常大的人口时,不可能对人口中的每个物体进行计数,因此必须对人口样本进行计算。样本方差也可以应用于从该分布的样本的连续分布的方差的估计。 

样本方差的无偏性

我们从一个样本取n个值y1,...,yn,其中n

这里,  表示样本均值。

由于  是随机选择的,所以  和  是随机变量。 他们的预期值可以通过从群体中的大小为n的所有可能样本 的集合进行平均来评估。 对于  ,有

因此 给出了基于因子  的人口方差的估计值。  被称为偏样本方差。 纠正该偏差之后形成无偏样本方差:

估计值可以简单地称为样本方差。 同样的证明也适用于从连续概率分布中抽取的样本。

例如,n=5个样本观测值值为3,4,4,5,4,则样本均值=  , 样本方差  =  。样本方差是常用的统计量之一,是描述一组数据变异程度或分散程度大小的指标。实际上,样本方差可以理解成是对所给总体方差的一个无偏估计。E(S^2)=DX。

n-1的使用称为贝塞尔校正(Bessel's correction),也用于样本协方差和样本标准偏差(方差平方根)。 平方根是一个凹函数,因此引入负偏差(由Jensen不等式),这取决于分布,因此校正样本标准偏差(使用贝塞尔校正)有偏差。 标准偏差的无偏估计是一个技术上涉及的问题,尽管对于使用术语n-1.5的正态分布,形成无偏估计。

无偏样本方差是函数ƒ(y1,y2)=(y1-y2)2/2的U统计量,这意味着它是通过对群体的两个样本统计平均得到的。

样本方差分布

作为随机变量的函数,样本方差本身就是一个随机变量,研究其分布是很自然的。 在yi是来自正态分布的独立观察的情况下,Cochran定理表明s2服从卡方分布:

所以可求;

如果yi独立同分布,但不一定是正态分布,那么

如果大数定律的条件对于平方观测值同样适用,则s2是σ2的一致估计量。 可以看出,估计的方差趋于零。 在Kenney and Keeping(1951:164),Rose和Smith(2002:264)和Weisstein(n.d.)中给出了渐近等效的公式。

正态总体的样本均值和样本方差相互独立。

你可能感兴趣的:(机器学习)