假设检验之z-检验,t-检验,卡方检验

假设检验:

  • 什么是假设:对总体参数(均值,比例等)的具体数值所作的陈述。比如,我认为新的配方的药效要比原来的更好。

  • 什么是假设检验:先对总体的参数提出某种假设,然后利用样本的信息判断假设是否成立的过程。比如,上面的假设我是要接受还是拒绝呢。

假设检验的应用:

  • 推广新的教育方案后,教学效果是否有所提高

  • 醉驾判定为刑事犯罪后是否会使得交通事故减少

  • 男生和女生在选文理科时是否存在性别因素影响

假设检验的基本思想:

显著性水平:

  • 一个概率值,原假设为真时,拒绝原假设的概率,表示为 alpha 常用取值为0.01, 0.05, 0.10

  • 一个公司要来招聘了,本来实际有200个人准备混一混,但是公司希望只有5%的人是浑水摸鱼进来的,所以可能会有200*0.05=4个人混进来,所谓显著性水平α,就是你允许最多有多大比例浑水摸鱼的通过你的测试。

假设检验的步骤:

  • 提出假设
  • 确定适当的检验统计量
  • 规定显著性水平
  • 计算检验统计量的值
  • 做出统计决策

原假设与备择建设:

  • 待检验的假设又叫原假设,也可以叫零假设,表示为H0。(零假设其实就是表示原假设一般都是说没有差异,没有改变。。。)
  • 与原假设对比的假设叫做备择假设,表示为H1
  • 一般在比较的时候,主要有等于,大于,小于

检验统计量:

  • 计算检验的统计量
  • 根据给定的显著性水平,查表得出相应的临界值
  • 将检验统计量的值与显著性水平的临界值进行比较
  • 得出拒绝或不拒绝原假设的结论

检验中常说的小概率:

  • 在一次试验中,一个几乎不可能发生的事件发生的概率
  • 在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设
  • 小概率由我们事先确定

P值:

  • 是一个概率值
  • 如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率
  • 左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积
  • 右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积

左侧检验与右侧检验

  • 当关键词有不得少于/低于的时候用左侧,比如灯泡的使用寿命不得少于/低于700小时时

  • 当关键词有不得多于/高于的时候用右侧,比如次品率不得多于/高于5%时

双侧检验

  • 单侧检验指按分布的一侧计算显著性水平概率的检验。用于检验大于、小于、高于、低于、优于、劣于等有确定性大小关系的假设检验问题。这类问题的确定是有一定的理论依据的。假设检验写作:μ1<μ2或μ1>μ2。

  • 双侧检验指按分布两端计算显著性水平概率的检验, 应用于理论上不能确定两个总体一个一定比另一个大或小的假设检验。一般假设检验写作H1:μ1≠μ2。

例如,某种零件的尺寸,要求其平均长度为10cm,大于或小于10cm均属于不合格我们想要证明(检验)大于或小于这两种可能性中的任何一种是否成立 建立的原假设与备择假设应为:

H0: μ = 10 H1: μ ≠ 10

检验结果:

单侧检验

  • 若p值 > α,不拒绝 H0
  • 若p值 < α, 拒绝 H0

双侧检验

  • 若p-值 > α/2, 不拒绝 H0
  • 若p-值 < α/2, 拒绝 H0

总体均值检验



假设检验之z-检验,t-检验,卡方检验_第1张图片



假设检验之z-检验,t-检验,卡方检验_第2张图片



假设检验之z-检验,t-检验,卡方检验_第3张图片

卡方检验(Chi-square test)

用于检验两个(或多个)率或构成比之间差别是否有统计学意义,配对卡方检验检验配对计数资料的差异是否有统计学意义。

基本思想:

检验实际频数(A)和理论频数(T)的差别是否由抽样误差所引起的。也就是由样本率(或样本构成比)来推断总体率或构成比。

实例:

两种药物治疗胃溃疡有效率的比较

理论频数与实际频数的差别:

ARC是位于R行C列交叉处的实际频数, TRC是位于R行C列交叉处的理论频数。 ( ARC - TRC )反映实际频数与理论频数的差距,除以TRC 为的是考虑相对差距。所以,χ^2 值反映了实际频数与理论频数的吻合程度, χ^2 值大,说明实际频数与理论频数的差距大。 χ^2 值的大小除了与实际频数和理论频数的差的大小有关外,还与它们的行、列数有关。即自由度的大小。

理论频数根据假设来计算的:

无效假设是A药组与B药组的总体有效率相等,均等于合计的阳性率66.67%(110/165)。那么理论上,A药组的85例中阳性人数应为85(110/165)=56.67,阴性人数为85(55/165)=28.33;同理,B药组的80例中阳性人数应为80(110/165)=53.33,阴性人数为80(55/165)=26.67。

一般的四格表:

若检验假设H0:π1=π2成立,四个格子的实际频数A 与理论频数T 相差不应该很大,即统计量χ2 不应该很大。如果χ2 值很大,即相对应的P 值很小,若 P≤α,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即π1≠π2 。

实例:

某药品检验所随机抽取574名成年人,研究抗生素的耐药性(资料如表8-11)。问两种人群的耐药率是否一致?

(1)建立假设并确定检验水准

  • H0:两种人群对该抗生素的耐药率相同,即π1 = π2; (两总体率相等)
  • H1:两种人群对该抗生素的耐药率不同,即π1≠π2 ;(两总体不相等)
  • a=0.05

(2)计算检验统计量

(3)得出结果

查表确定P值, P>0.05,得出结论。按0.05水准,不拒绝H0,可以认为两组人群对该抗生素的耐药率的差异无统计学意义。


最后来个小总结:Z检验使用于知道总体的标准差,且样本数量大。而t检验是不知道总体的标准差,而是用样本的标准差来代替,适用于样本小的情况,这是它跟z检验的差别,能使用z检验的一定可以用t检验,但是适用t检验的不一定适用z检验。卡分检验一般用来检测两组样本的差异是否有统计意义。















你可能感兴趣的:(python数据分析)