衡量预测变量/自变量重要性

注:预测变量=自变量;响应变量=因变量

一、响应变量为数值型,预测变量为数值型

1.1 Pearson相关系数

衡量线性关系

计算公式

1.2 Spearman相关系数 

变量之间近线性或者曲线相关

不适用于变量间的复杂关系

1.3 loess局部加权回归

非线性关系

采取一系列多项式回归分别对一系列的小区域建模

 

二、响应变量为数值型,预测变量为分类型

2.1 标准t统计量

比较两组均值,本质为信号与噪音的比例(均值差除以两组方差的函数)

假设数据正态分布

P值检验统计显著性(低P值表明显著性强)

2.2 Wilconxon秩和分析

数据不符合正态分布

2.3 方差分析

预测变量的类多于2个

方差分析探索预测变量的统计显著性,探索哪里不同可以将分类变量转化为几个0-1变量然后用t统计量检验,或者使用多重比较

方差分析需要满足正态分布与方差齐

 

三、响应变量为分类型,预测变量为数值型

3.1 ROC曲线下的面积

完美分离则面积为1,完全不相关则面积为0.5

当响应变量类数大于2,可以使用roc的推广,或者用一对多的方法

3.2 t统计量

 

四、响应变量为分类型,预测变量为分类型

4.1 优势比

二分类预测变量与二分类响应变量

4.2 Fisher确切检验

响应变量超过2类或者预测变量有2个以上层级 

4.2 C4.5中的增益比

响应变量超过2类或者预测变量有2个以上层级 


本文为总结,具体操作可见《应用预测建模》第18章 【衡量预测变量重要性】

Applied Predictive Modeling (2013) by Max Kuhn and Kjell Johnson,林荟等译

你可能感兴趣的:(机器学习,机器学习,数据分析,数据挖掘)