统计学知识梳理--NO.4

本次学习包含内容:线性回归,卡方分布,,方差分析和演绎推理。

本次学习参考内容:

1.可汗学院统计学公开课 62-81集

2.《深入浅出统计学》对应知识点翻一翻

参考:https://blog.csdn.net/sm376624607/article/details/88093103

目录

知识点清单

1.线性回归

2.分布

3.方差分析

4.演绎推理与归纳推理


知识点清单

1.线性回归

定义

线性回归是利用最小平方误差对自变量和因变量之间关系进行建模的一种回归分析。在平面中存在若干点,现在想找出一条直线y=mx+b,使得这些点到这条直线上同一横坐标的竖直距离的平方和最小,从而求解出m和b的值,这条直线就是对这些点的拟合程度的一种度量。

平方误差和$\mathit{SE}_{line} = \sum_{i=1}^{n}(y_{i}-(mx_{i}+b))^{2}$

求解m和b值得公式推导

要使平方误差和最小,即推导出SE_{line}的最小值。

推导过程:

决定系数R2

决定系数R2,是指y的总波动情况中,y 的波动程度有多少百分比能被 x 的波动程度所描述。R2越大,表示直线拟合得越好。

SE_{\bar{y}}:是y的总波动,即是y的方差
​ SE_{line} 是总的波动中有多少 百分比没有被线性回归所描述
 R^{2}=1-\frac{SE_{line}}{S_{\bar{y}}}   

协方差

协方差是两随机变量离各自均值距离之积的期望值,定义是Cov(X,Y)=E[(X-E[X])·(Y-E[Y])]=E\left [ XY \right ]-E\left [ X \right ]E\left [ Y \right ]=\bar{xy}-\bar{x}\bar{y},所以回归线的斜率m=Cov(X,Y)/Var(X)。

2.\chi ^{2}分布

若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和  构成一新的随机变量,其分布分布规律称为  分布。

两种\chi ^{2}分布检验:

(1)皮尔逊卡方检验

统计学知识梳理--NO.4_第1张图片

在计算每个独立的标准正态分布时需要标准化

\chi ^{2}=\frac{\sum (y_{i}-y{j})^{2}}{n-1},n-1为自由度,因为根据n-1个点的信息可以推测出第n个点的信息。

(2)列联表卡方检验

举一个药物是否有效的实例来说明: 

  药物组1 药物组2 对照组(无任何措施) 总计
生病人数 20(120*21%=25.3) 30(140*21%=29.4) 30(120*21%=25.3) 80(80/380=21%)
健康人数 100(120*79%=94.7) 110(140*79%=110.6) 90(120*79%=94.7) 300(300/380=79%)
总计 120 140 120 380

求出卡方值,为期望值-实际值的平方,再除以期望值进行标准化,然后将这些求和得到卡方值,如果卡方超过了置信度的临界值,则可以认定药物是有效的,这里零假设是药物有效。

统计学知识梳理--NO.4_第2张图片

自由度为(行数-1)*(列数-1)

3.方差分析

方差分析是用于两个及两个以上样本均数差别的显著性检验。方差分析中,由于各种因素的影响,研究所得的数据呈现波动状,这种波动可以分为组间波动和组内波动两种情况。

总平方SST:数据点离均值的距离的平方之和,总平方和可以理解为计算方差时,不除以n的那部分。假设有m组数据,每组n条数据,则自由度为m*n-1

组内平方和SSW:就是每点同各自组内均值之间距离的平方之和,自由度为m*(n-1),因为在一组内知道n-1个点的信息就可以知道第n个点的信息,每组n个数据的自由度就是n-1,共m组,所以自由度为m*(n-1)

组间平方和SSB:总波动中有多少是因为均值之间的波动,波动就是其所在组的均值减去总均值的平方和,把每一个组内的点当作这个组的组内均值来计算。自由度为m-1,因为知道m-1个组的均值就可以得到第m个组的均值。

数据中的总波动,可以由每个组内的波动加上组间的波动来描述,自由度也是如此,总波动的自由度等于组内和组间的自由度之和。

F统计量假设检验:F统计量是组间平方和同除以其自由度m-1,然后除以组内平方和除以其自由度m(n-1),如果分子比分母大很多,则说明大部分波动来自于各组之间,总体均值之间存在差异。如果这个数字很小,分母更大,则意味着组内波动比组间波动在总波动中占比更多,意味着差异可能是随机产生的。

 

4.演绎推理与归纳推理

演绎推理是从一些数据或事实出发,演绎得到其它正确的事实。例如解方程。

归纳推理是运用已有的信息来对未来的趋势进行预测,结果不一定就是事实。如预测未来人口。

 

你可能感兴趣的:(统计学)