统计检验:参数估计、卡方检验、T检验、方差分析、相关分析
样本t检验、方差分析、相关分析都可以用来筛选变量。
参数估计的两种方式:点估计和参数估计,用样本来推断总体。
问题:领导让你统计一下北京9月平均房价是多少??
点估计:
事实是这样的,你不可能是统计到所有房屋的价格,所以一般会采取随机抽样的方式,抽取一些个样本,然后用样本的均值来估计总体均值,ok,这个时候大家可能会有个疑问,毕竟是随机抽样,用样本均值直接来估计总体是不是有可能不准啊,很容易受到抽样的样本影响,是的,那我们把给定一个均值区间是不是会好点,这个时候就有了区间估计,这样也有一个好处,方便大家甩锅,哈哈。举个例子你用区间估计得出北京9月平均房价有95%的概率落在(6万,9万)区间内,那么小于6万和大于9万的概率是2.5%,如果实际是10万,追责起来实力甩锅,虽然是小概率,不代表不会发生,是不,哈哈。
区间估计:
我们引入均值正态分布从而将问题描述成北京9月平均房价有多大的概率落在这个置信区间(均值的标准误)内,这就是区间估计(请注意这里是均值的标准误,每次抽取一组样本,都会产生一个均值,这些均值重新组合成一个集合,这个集合的标准差就是均值的标准误,因为计算它需要抽取很多组的数据,所以使用下面的公式来计算)。
区间估计实际上是假设样本均值满足正态分布,样本均值满足正态分布的理论基础就是中心极限定理,只要样本抽的足够多(N>30以上),样本均值将有很大可能会服从正态分布,如果样本均值满足正态分布就可以用置信区间和置信水平来进行度量)。
样本均值满足正态分布:如果样本是正态分布,那么样本均值就是正态分布;如果样本不是正态分布,那么根据中心极限定理,继续抽更多的样本之后(N>30),样本均值就会满足正态分布。
也可以参考知乎回答:https://www.zhihu.com/question/21871331
正态分布检验方法:
连续变量用概率密度函数,或者是QQ图
卡方检验
检验分类变量之间是否存在差异,对于小样本量(小于10000)而言,根据p值来看显著性。
T检验
假设前提:样本是正态或接近正态分布,对于多组变量而言,还需要进行方差齐性levene检验,方差齐不齐最后检验的方法是不一致的。
T检验包括3种:单样本T检验、独立样本T检验(比如男女性别之间的语文成绩是否存在差异),配对样本T检验(比如患者在使用某药物前后某指标的变化是否存在显著性差异)。
还是上面那个例子,领导说北京9月平均房价会大于10%吗???或者说大于10%的概率是多大???这个时候可以用到单样本T检验,随机抽取一些样本,看样本均值与10%差距有多大。
原假设H0:u = 0.1
备择假设H1:u ≠ 0.1
这里有一个小概率事件的理论,意思就是本来不该在一次试验中发生的小概率事件却发生了,就拒绝原假设,从而接受备择假设。
在这里我们需要用到下面这张图,其中白色部分是接受域,蓝色部分是拒绝域,如果0.1落在了白色区域(实际上就是给定一个置信区间)内,我们就接受原假设,反之拒绝原假设,接受备择假设。
在实际做的时候,直接用spss或者python得出样本均值与给定均值的P值,如果 P < α,拒绝原假设;反之接受原假设。
显著度水平α怎么取:
样本小于100,10%
样本100-500 , 5%
样本500-1000, 1%
样本2000左右, 0.1%
什么情况下P会失效?
如果样本量上万,这个是没有太大意义的,为什么这么说呢,因为随着样本数量的不断增加,就越有可能发生小概率事件,从而越容易拒绝原假设,接受备择假设,所以如果样本量很大的情况下要用这些统计检验,那就对数据多进行几次抽样,然后看P值。
方差分析:
假设前提:各样本相互独立,且方差齐。
一个连续变量,一个分类变量(3种类别以上),实际上也能用两样本T检验,两两组合进行检验,不过比较麻烦。假设各组均值全部相等。
相关分析:
两个连续变量之间的关系,先看散点图。
pearson相关系数:描述线性变量之间的关系
Sperman相关系数:描述指数关系,没有拐点
kendall相关系数:描述拐点的变量之间的相关性,如抛物线
相关分析和回归分析的区别:
相关分析是检验变量之间相关性有多强,变量之间是对等的的;回归分析是将变量之间的关系用形如y=f(x)的关系表达出来,需要划分解释变量和被解释变量,在线性回归中,β0是无法解释的,比如我们要探讨身高x和体重y之间的关系,建立了一个回归方程:y = β0 + β1 * x,但在实际中x=0根本就不可能发生,而且我们在解释的时候也是这样的,身高没增加1cm,体重增加多少。