自变量是分类变量的线性拟合+哑变量

哑变量 dummy variable(也相当于对数据分类)

何时引入哑变量

顺序变量如(高,中,低)可按比例引入值(如1,3,5)
而分类变量,或连续变量的划分:(如:1-10,11-20,21-30……)则可引入哑变量
引 入 哑 变 量 后 , 可 以 降 低 D e , 拟 合 效 果 较 好 引入哑变量后,可以降低D_e,拟合效果较好 De,

( 男 , 女 ) ⇒ ( 0 , 1 ) (男,女)\Rightarrow (0,1) ()(0,1)
( 春 , 夏 , 秋 , 冬 ) 以 冬 天 为 参 照 D 1 = { 1 春 0 其他 D 2 = { 1 夏 0 其他 D 3 = { 1 秋 0 其他 (春,夏,秋,冬) 以冬天为参照\\D_1= \begin{cases} 1& \text{春}\\ 0& \text{其他} \end{cases} D_2= \begin{cases} 1& \text{夏}\\ 0& \text{其他} \end{cases} D_3= \begin{cases} 1& \text{秋}\\ 0& \text{其他} \end{cases} (,,,)D1={10其他D2={10其他D3={10其他
一 般 用 n − 1 个 变 量 描 述 n 个 属 性 一般用n-1个变量描述n个属性 n1n
Y = β 0 + β 1 x + ε ↓ Y = β 0 + β 1 x + β 2 D + ε 则 E ( Y ∣ D = 0 ) = β 0 + β 1 x E ( Y ∣ D = 1 ) = β 0 + β 1 x + β 2 Y=β_0+β_1x+ε\\ \downarrow \\ Y=β_0+β_1x+β_2D+ε \\ 则E(Y|D=0)=β_0+β_1x \quad E(Y|D=1)=β_0+β_1x+β_2\\ Y=β0+β1x+εY=β0+β1x+β2D+εE(YD=0)=β0+β1xE(YD=1)=β0+β1x+β2

多个

Y = β 0 + β 1 x + ε ↓ Y = β 0 + β 1 x + β 2 D 1 + β 3 D 2 + ε Y=β_0+β_1x+ε\\ \downarrow \\ Y=β_0+β_1x+β_2D_1+β_3D_2+ε \\ Y=β0+β1x+εY=β0+β1x+β2D1+β3D2+ε

结 果 描 述 : 原 来 : 在 其 他 情 况 不 变 的 条 件 下 , x 增 加 1 , Y 增 加 β 1 现 在 : 其 他 条 件 不 变 时 , X = 1 与 X 全 等 于 零 ( 参 照 ) 相 比 , 所 引 起 Y 的 平 均 变 化 多 β 2 结果描述:\\原来:在其他情况不变的条件下,x增加1,Y增加β_1 \\ 现在:其他条件不变时,X=1与X全等于零(参照)相比,\\ 所引起Y的平均变化多β_2 x1Yβ1X=1XYβ2

共线性问题

X1与D有相关性吗?

描述
计算
比较出结论

检验
Y = β 0 + β 1 x + β 2 D + β 3 x D + ε Y = β 0 + ( β 1 + β 3 D ) x + β 2 D + ε Y=β_0+β_1x+β_2D+β_3xD+ε \\ Y=β_0+(β_1+β_3D)x+β_2D+ε Y=β0+β1x+β2D+β3xD+εY=β0+(β1+β3D)x+β2D+ε
计 算 β 3 , β 3 应 该 为 零 计算β_3,β_3应该为零 β3β3

你可能感兴趣的:(数据分析)