R语言|数据预处理

数据探索性分析需要遵循3个步骤:第一步,要查看单个变量的分布情况,这样做事为了了解每一个变量值的分布情况并找出缺失值和离群点,以便确定变量是否需要进行转换或者是否应该用于建模。第二步,要查看因变量与自变量之间的关系,这可以用于特征选择。第三步,查看自变量之间的关系,以便删除冗余变量。

 

1、自变量为数值类型和分类类型,并分别求自变量与因变量的相关性

 

2、因变量为数值型时,对因变量进行分类:把因变量转化为分类类型

 

3、获取列联表的数据:

>table(train$y)

0     1
69984  4881
> as.numeric(table(train$y))[1]
[1] 69984
> totalgood <-as.numeric(table(train$y))[1]
> totalbad <- as.numeric(table(train$y))[2]

你可能感兴趣的:(R语言,数据清洗)