R语言-数据预处理

数据预处理的常见做法

写完论文,闲来无事,想写写博客!
这是我写的第一篇文章,请多多支持!谢谢!

data<-read.csv("data.csv")#读入数据

dim(data)#看数据中有多少行,多少列

str(data)#看数据中变量类型

summary(iris)#数值型的变量给出最大,最小,中位数,均值,上下四分位数;分类型的给出变量类型以及个数

**通过上面三个函数基本可以了解数据集中变量的个数以及类型**

data$label<-factor(data$label)#把label变量转变为因子型

which(complete.cases(data) == F)#看哪行有缺失值

data_new<-data[!is.na(data$age),]#去掉age变量中的缺失值

data_new<-data_new[order(salary,decreasing=F),]#salary变量升序排列


把数据中的所有因子型变量转换成哑变量

  1. 筛选出数据中的所有因子型变量
  2. 把这些因子型变量粘贴到formula的右边
  3. 转换为哑变量
    代码如下:
facots<-names(data)[sapply(data, class) == 'factor']
formula<-as.formula(paste('~',paste(facots,collapse = '+')))
dummy<-dummyVars(formula = formula, data = data)
pred<-predict(dummy, newdata = data)
head(pred)

你可能感兴趣的:(数据预处理)