【计量】回归背后的微操作——论文自救记录(进行中)

【计量】回归背后的微操作

1. 变量的选择 与 模型的设定

https://zhuanlan.zhihu.com/p/50577508?yidian_s=mb

2. 变量的处理

2.1 常用的处理——中心化、标准化、归一化

目的:统一量纲(Scale)—— 可以理解成 100分制下,1 2分的扰动不算什么,但是这在5分制下会是很大的灾难,为了便于比较(或许是回归结果不太好呢,who knows,反正说是为了便于比较),所以需要统一量纲处理,核心目的就是为了保证系数可比性

  • 定义:
    • 中心化(Zero-centered or Mean-subtraction
      • 公式: c e t e r ( x ) = X − m e a n ( X ) ceter(x) = X-mean(X) ceter(x)=Xmean(X),也表示为 c _ x c\_x c_x
    • 标准化(Standardization
      • 公式: z s c o r e ( X ) = ( X − m e a n ( X ) ) / s t d ( X ) zscore(X) = (X-mean(X))/std(X) zscore(X)=(Xmean(X))/std(X)
      • 能够去除量纲(相对均值水平差了多少标准差),很多都有要求用到标准化 N(0,1) 分布特征(见 变量标准差为1即在计算距离时重要程度相同)
      • 适合现代嘈杂大数据场景:大部分 data-driven method都会考虑到标准化
    • 归一化(Normalization
      • 公式: m i n m a x ( X ) = ( X − m i n ( X ) ) / ( m a x ( X ) − m i n ( X ) ) minmax(X) = (X-min(X))/(max(X)-min(X)) minmax(X)=(Xmin(X))/(max(X)min(X))
      • 重点在于消除量纲的影响,使不同变量具有可比性(最适用于绩效开发)
      • 适合传统精确小数据场景:最大值与最小值非常容易受异常点影响,鲁棒性较差
  • Tips:
    • 虚拟变量一般不需要处理(0/1有独特内涵)
    • 各种处理一般不会影响相关性分析结果(指Pearson相关系数)
    • 中介效应过小时,使用SPSS中标准化中介值,或者先标准化再检验(这一条没有check过
    • 调节效应交互项系数过小但是显著,导致分解图斜率不明显时,可以考虑先标准化再调节效应检验
    • 多重共线性——不一定是x之间,平方项(U shape or inverted-U shape)甚至是交乘项(Motivative effect)都有可能
      • 对于平方项,通过变量的标准化/归一化/中心化处理,一般有可能缓解共线性的影响(仅是 x x x x 2 x^2 x2之间的)
        • 详情见经管之家讨论:处理平方项共线:y = x + ( x-c_x )^2;黄河泉老师认为不需要关心共线性;连玉君老师认为先做模型设定检验,并补充VIF检验(方差膨胀会导致不显著),判断二次项模型是否有必要
      • 对于交乘项,也有类似的处理 y = x + m + c _ x ∗ c _ m y = x + m + c\_x*c\_m y=x+m+c_xc_m,具体可见 连玉君老师专栏-交叉项的中心化问题
    • 补充,SPSSAU提供了一个12个量纲处理的方案,比较全面,简图如下:
      • 【计量】回归背后的微操作——论文自救记录(进行中)_第1张图片

2.2 偏态的纠正——对数化处理

目的:将不满足正态性假设的解释变量“纠正”到正态的位置上。有时候对数化也用来处理极端数据,即某些离群值格外大/小,需要把这个difference缩小。

  • 正偏/右偏(指长尾在右,峰顶偏左):众数<中位数<均值,skewness > 0
    • l o g ( c + x ) log(c+x) log(c+x)
  • 负偏/左偏(指长尾在左,峰顶偏右):均值<中位数<众数,skewness < 0
    • − l o g ( c − x ) -log(c-x) log(cx)
  • 偏度(skewness):描述非对称分布程度(偏斜方向和程度)
    • 概率分布密度曲线相对于平均值不对称程度的特征数,由三阶中心距计算。
    • 直观看就是密度函数曲线尾部的相对长度。

2.3 趋势的猜想——幂指处理

目的:一般不会乱加,考虑到 inverted-U 或 U 或 其它趋势才应用这个模型,一般需要理论支撑,具体的连玉君老师的专栏有很多介绍。To be honest,其实学术圈据说在卷三重幂的模型了hhh

你可能感兴趣的:(回归,机器学习,人工智能,数据分析)