数据思维笔记

数据思维笔记

数据介绍:

通过数据说明表进行表述,表格格式如下:

表1-1

变量类型

变量名

详细说明

取值范围

备注

因变量

综合成绩

 

 

 

自变量

平时表现评分

 

 

 

考试评分

 

 

 

实践活动评分

 

 

 

获奖评分

 

 

 

一般会增加一段文字说明,例如:本案例所用数据来源于牛客网,共2000条观测值,包含14个变量,每条观测值代表一个数据分析岗位的信息,按照xxxx标准,将变量归纳为两大组等等

数据可视化的探索

即考察变量的变动情况。

除了统计图形要准确以为,主要的点在于对于图标信息的描述,如何组织语言很重要,往往可以往以下几个思路进行:

  • 什么值最常见,为什么?
  • 分布情况,特征值,如均值,中位数。
  • 什么值最罕见?为什么?符合我预期的结果么?
  • 其中有什么模式么?

其中,多与业务实际联系。

对于探索性的结果,我们一般从两方面总结:

  • 直观表达
  • 建议

建模的三个步骤:

建模前的准备、模型的选择、模型的解读以及评价。

建模前的准备:缺失值处理、数据标准化、异常值排查等

模型选择:根据是否有因变量将统计学习分成无监督学习和有监督学习

对于有监督学习来说,因变量累数据类型不同导致不一样的方法。

模型的解读与评价:主要考察模型的预测精度以及解读能力两方面进行评价。

因变量为定量型:常用均方误差、绝对误差、相对误差。本质都是考察预测值与真实值之间的差距。如果是定性变量:常用错判率、AUC等准则。

防止过拟合的方法:拆分样本,考虑外样本的预测准确率。

接下来介绍什么是错判率以及怎么求AUC、ROC曲线  

混淆矩阵:

 

预测值

总计

0

1

真实值

0

68

14

82

1

45

166

211

总计

113

180

293

                                                                                                                        

错分率:即预测值与真实值不一致的比例,如上表数据可得错判率:(45+14)/293

当样本中去零的数值很少时,该错分率的作用很小,例如:样本总数1000,其中有20个0

那么就算全部把0预测为1,错分率:20/1000=0.02.

TPR(true positive rate):TPR=TP/P,直观意思就是:能准确预测1的个数占总额的比率

FPR(false positive rate):FPR=FP/N,同理,该为,不能准确预测0的个数占1总额的比率。

 

ROC曲线的解读:

横纵坐标的含义:横坐标为FRP,意为特异度,纵坐标为TPR,以为灵敏度

对于阀值得选取,ROC曲线下面的面积反映的是该模型的预测能力。

即AUC的取值越大,预测能力越大。

那怎么求AUC呢?就是ROC曲线下方的面积值。

你可能感兴趣的:(R)