下面是天善问答里的一个问题,
有谁可以 简单的解释下 自由度吗http://www.flybi.net/question/18247
"突然找到地方可以写一下,爽."
自由度,这个一点都不好理解,而且很抽象,所以举几个具体的例子:
第一个,有100个正态分布的随机数,计算这组随机数关于平均值的波动性;我们可以将每个数减去平均值的差的平方和除以99.
再有1000个正态分布的随机数,计算这组随机数关于平均值的波动性;我们可以将每个数减去平均值的差的平方和除以999.
再有10000个正态分布的随机数,计算这组随机数关于平均值的波动性;我们可以将每个数减去平均值的差的平方和除以9999.
就拿这三组随机数来说事,
`1.是不是可以衡量每组数据的波动性的大小?
可以,并且计算出来的波动性,表示的是该组数中每一个数据的波动性,并且每组数据中每个数据的波动性都是一样大.
`2.是不是可以通过计算出的波动性比较不同组之间波动性的大小?
可以,既然通过精确的计算,已将把每组数据的每个数据的波动性都计算出来了,自然可以相互比较.
所以,通过第一个例子,可以知道,自由度就是将一组数据的波动性转化成这组数据中每个数据的波动性,而每个数据的波动性才可以进行从相互比较.
第二个,一元正态分布里的卡方分布/T分布和F分布
卡方分布无非就是N个相互独立的标准正态分布的平方和的分布.
也就是说,有N个标准正态分布,
从每个分布里面随机取出一个数,取平方然后加在一起;
再从每个分布里随机取一个数然后加在一起;
再从每个分布里随机取一个数然后加载一起;
直到取到手软.每一次得到的平方和结果就是卡方分布.即使你只取了一次,它也是卡方分布,分布不在数的多少,而在数的性质.
卡方分布的含义就是N个相互独立的标准正态分布的平方和的波动性.
T分布是在卡方分布基础上,计算得到一个卡方分布数据的波动性,并且为了与标准正态分布统一度量衡以进行比较,所以取了正平方根.T分布就标准正态分布与卡方分布波动性比值.
F分布就是两个卡方分布波动性的比值.
所以,最关键就是衡量每个分布的波动性的大小以进行相互比较,自由度就是唯一的最关键的数据.其实,演变到后来就是计算方差未知的分布用到T分布,计算方差分析用到F分布.
第三个,多元正态分布里的Wishart分布/Hotelling T方分布和Wilks分布
Wishart分布就N个相互独立的多元正态分布的内积和,关键满足条件协差阵是正定的.衡量一个Wishart分布分布的波动性的系数就是协方差矩阵,而计算这个系数的唯一关键的数据就是自由度.
Hotelling T方分布就是多元正态分布与Wishart分布波动性的比值.
Wilks分布就是两个Hotelling T方分布波动性的比值,但是该波动性把协差阵用行列式进行衡量.
所以,即使进入到多元统计分布里面衡量一组数据波动性的唯一关键数据仍然是自由度.唯一不同的就是需要考虑的变量,也就是分布多了,但自由度一成不变.