R 回归 虚拟变量na_统计学基础笔记/单章:虚拟变量回归

2020.10.27 注解:本文为旧版本的读书笔记(仅限于对名义变量的虚拟变量行为,并未对此进行解读),实际等候更细致的更新来解释虚拟变量。

PS 我点开以后才发现有人问我虚拟变量的问题,但是时间过久我就不再回复了(之前没看到),并且我对HLM等操作也不是非常熟悉……

2020年10月27日/新增(源自R章节部分摘录)

R/Q2:正交对比与非正交对比:简单介绍

注:本文为直接翻译,实际的编码章节待定写作中。

III型平方和被称为边缘或正交的(marginal or orthogonal),其原因在于其计算方法导致(见上参考)。这也就意味着,在对数据进行方差分析时,你的虚拟编码必须是正交的,否则会导致计算错误;而我们经常见到的常规虚拟编码则是非正交的。

因此,在使用III型平方和时,必须先制定自己的对比编码,或是使用其他函数对数据进行正交对比的重编码(例如Helmert contrast):

contrasts(Data$variable)<-contr.helmert(3)

更多数学拓展与参考请见:

AhaDad:通过线性模型详解方差分析中“对比”(Contrasts)的数理原理​zhuanlan.zhihu.com
AhaDad:不是那么学术的解释:方差分析中正交对比​zhuanlan.zhihu.com

R/C11.3Q2 extend:虚拟编码中interaction的编码问题

当我们将带有有序变量的分析转换成OLS回归时,常规的虚拟编码方式无法很好地反应交互项的分类,如下图所示。此时需要改变编码方式使其变得具有区分度。或者,心理学中常见的做法是将该部分分析单独提取出来,即我们所熟悉的主效应/交互效应分析。见

陈曦:统计学基础笔记:初级统计技术​zhuanlan.zhihu.com
87715b404379072f3522a718cc7dd97e.png

R 回归 虚拟变量na_统计学基础笔记/单章:虚拟变量回归_第1张图片

编码方式(预留坑,见书12.5.6)

2019年5月1日旧版本

实际经验结合读书笔记:定量研究系列 虚拟变量回归。Mellissa A. Hardy著。

虚拟变量/哑变量(dummy code)一般在变量涉及到分类变量,并进行回归分析时会涉及到。对于平均数差异检验,请参见t检验/ANOVA/Factorial ANOVA。

正常的OLS回归接受任何有序(你可以视为连续,也可以视为分类,这个取决于研究者的态度)、连续变量和二分变量。对于分类变量,必须进行哑变量/虚拟变量化。

Logistic回归可以使用Multinominal Logistic回归来手动完成分类变量,因此不需要虚拟变量化。

虚拟变量的个数需要是类别-1。其原理如下:

R 回归 虚拟变量na_统计学基础笔记/单章:虚拟变量回归_第2张图片
传统的OLS回归无法接受类别变量(虽然你依然可以扔进去,但是却无法解释),但却接受二分变量。正因如此,你可以将单个变量拆成多道题,共同检验某个变量,如上。

R 回归 虚拟变量na_统计学基础笔记/单章:虚拟变量回归_第3张图片
具体coding方法,基本可以理解成将原来的编码拆成了二进制。需要注意的是,虚拟变量需要同进同出,否则同样无法解释。

Break:Orthogonal contrast coding 正交比较编码与Classic dummy coding 传统虚拟编码

上面展示的是传统的dummy coding。还有另一种dummy coding的方法叫contrast coding,要求其在正交层面上,任何相加值都为0。具体案例如下:

R 回归 虚拟变量na_统计学基础笔记/单章:虚拟变量回归_第4张图片
cont1与cont2,甚至包括二者相乘的product的sum都为0。这能保证他们在回归方程中的B为0。

在一般OLS回归中,使用传统的虚拟编码问题不大,因为其展示的是不同群组的比较;在特殊场景下(例如:方差分析的正交对比与III型平方和问题,见R长章11 ANCOVA)

Q:如何解读虚拟变量(二分变量)之间相关性的强弱?(与卡方相连接)

R 回归 虚拟变量na_统计学基础笔记/单章:虚拟变量回归_第5张图片

R 回归 虚拟变量na_统计学基础笔记/单章:虚拟变量回归_第6张图片

Q:控制组偏相关的解读?

R 回归 虚拟变量na_统计学基础笔记/单章:虚拟变量回归_第7张图片

R 回归 虚拟变量na_统计学基础笔记/单章:虚拟变量回归_第8张图片

Q:虚拟变量的回归解读?

R 回归 虚拟变量na_统计学基础笔记/单章:虚拟变量回归_第9张图片

Q:复杂数据的实验控制检验方法?

R 回归 虚拟变量na_统计学基础笔记/单章:虚拟变量回归_第10张图片

Q:虚拟变量的交互效应?

在普通的OLS回归中,我们假定各变量之间是线性独立的。在交互效应存在时,我们需要加入AxB的交互效应项来计算它的交互效应大小。对于虚拟变量,我们需要对每个虚拟变量分别进行乘积计算。这也就意味着,如果某个变量被转换成3个虚拟变量,我们就得加入3个交互效应虚拟变量项。

你可能感兴趣的:(R,回归,虚拟变量na)