方差分析ANOVA、T检验、卡方检验的区别

T检验和ANOVA都是用来看样本之间均值是否相等,但是两者又有什么区别呢?
卡方检验是用来看分类变量之间有没有相关性。

自变量X类型 自变量X组数 因变量Y类型 分析方法
离散(类别) 仅仅2组 连续(均值) t检验
离散(类别) 2组及以上 连续(均值) ANOVA
离散(类别) 2组及以上 离散(类别) 卡方检验

进一步细分
方差分析ANOVA、T检验、卡方检验的区别_第1张图片

方差分析

从理论上讲,方差分析有两个前提条件,一是因变量Y需要满足正态性要求,二是满足方差齐检验。
方差不齐时可使用‘非参数检验’,同时还可使用welch 方差,或者Brown-Forsythe方差,非参数检验是避开方差齐问题

单因素方差分析

用于研究分类变量和连续变量之间的关系,同时只有一个影响因素,例如 不同学历水平对客服满意度的影响
分为:本科学历组,本科以下学历组,本科以上学历组
在这里插入图片描述
F值是计算P值的中间值。
P值小于α,则认为有影响

学历共有三组,分别是本科以下,本科和本科以上;而且p 值小于0.05,具体是那两个组别之间的差异导致学历有差异呢?如果想知道此信息,可使用事后多重比较分析方法进行研究。

需要注意的一点是,样本大小要大于30,不然没有意义,可选择舍弃该样本或者和另外一个合并进行分析

双因素方差分析

顾名思义,研究两个因素和连续变量之间的关系。
例如研究人员性别,学历对于网购满意度的差异性。

多因素方差分析

分类变量有两个以上。
比如研究者测试某新药对于胆固醇水平是否有疗效;研究者共招募72名被试,男女分别为36名,以及男女分别再细分使用新药和普通药物;同时高血压患者对于新药可能有干扰,因而研究者将被试是否患高血压也纳入考虑范畴中。因而最终,X共分为三个,分别是药物(旧药和新药)、性别,是否患高血压;Y为胆固醇水平。因而需要进行三因素方差分析即多因素方差分析。

t检验

独立样本t检验

独立样本T检验和单因素方差分析功能上基本一致,但是独立样本T检验只能比较两组选项的差异,比如男性和女性。相对来讲,独立样本T检验在实验比较时使用频率更高,尤其是生物、医学相关领域。针对问卷研究,如果比较的类别为两组,独立样本T检验和单因素方差分析均可实现,研究者自行选择使用即可。建议**样本较少(低于100时)**使用t 检验,反之使用方差分析。

配对样本t检验

配对t 检验,用于配对定量数据之间的差异对比关系.例如在两种背景情况下(有广告和无广告);样本的购买意愿是否有着明显的差异性;配对t 检验通常用于实验研究中。
独立样本T检验和配对样本T检验功能上都是比较差异,而且均是比较两个组别差异。但二者有着实质性区别,如果是比较不同性别,婚姻状况(已婚和未婚)样本对某变量的差异时,应该使用独立样本T检验。如果比较组别之间有配对关系时,只能使用配对样本T检验,配对关系是指类似实验组和对照组的这类关系。另外独立样本T检验两组样本个数可以不相等,而配对样本T检验的两组样本量需要完全相等。

单样本t检验

单样本t 检验用于分析定量数据是否与某个数字有着显著的差异性,比如五级量表,3分代表中立态度,可以使用单样本t 检验分析样本的态度是否明显不为中立状态;系统默认以0分进行对比。也就是样本μ=?30(特定值)
比如问卷某题项选项表示为1分代表非常不满意,2分代表比较不满意,3分代表一般,4分代表比较满意,5分代表非常满意,当想分析样本对此题项的态度是否有明显的倾向,比如明显高于3分或者明显低于3分时,即可以使用单样本T检验。单样本T检验是比较某个题项的平均得分是否与某数字(例子是与3进行对比)有着明显的差异,如果呈现出显著性差异,即说明明显该题项平均打分明显不等于3分。此分析方法在问卷研究中较少使用,平均得分是否明显不为3分可以很直观的看出,而不需要单独进行检验分析。

卡方检验

卡方检验用于分析定类数据与定类数据之间的关系情况。例如研究人员想知道两组学生对于手机品牌的偏好差异情况,则应该使用卡方分析。卡方是通过分析不同类别数据的相对选择频数和占比情况,进而进行差异判断,单选题或多选题均可以使用卡方分析进行对比差异分析。

手机品牌1 手机品牌2
大学生组 40 30
中学生组 20 50

你可能感兴趣的:(机器学习基础,数据分析,统计学)