R studio 导入数据与处理

  • 设置常用工作目录:

R studio 导入数据与处理_第1张图片R studio 导入数据与处理_第2张图片 R studio 导入数据与处理_第3张图片

  • 导入数据,先查看工作目录,再把数据文件放到工作目录内

> getwd() 

> setwd("/Users/yuki/desktop/machine learning"

> credit=read.table("german.data.txt",header=F,sep=" ",stringsAsFactors=F)

###如何知道header设置 --先查看数据前几行

> credit=read.table("german.data.txt",nrows=3,header=F,sep=" ",stringsAsFactors=F)
> credit


  • 查看数据类型
    str(credit)
    dim(credit)

  • 更改数据标题
    colnames(credit) = c(‘a’,'b'....)

  • 从缩写到真实意义的映射变量

mapping = list('A11'='... < 0 DM',
 'A12'='0 <= ... < 200 DM',
 'A13'='... >= 200 DM / salary assignments for at least 1 year',
 'A14'='no checking account',
   ...
)
for(i in 1:(dim(credit))[2]) {
  if(class(credit[,i])=='character') {
      credit[,i] = as.factor(as.character(mapping[credit[,i]]))
  }
}
看起来有点复杂,首先我们建立了一个从缩写到真实意义的映射变量`mapping`,接下来对应每个为字符的列(这里你就明白了为什么前面读入数据我们用了stringsAsFactors=F),我们对列的值进行一个映射。映射的规则就是mapping。

  • 将处理的变量0,1factor类型附上名字

> str(credit$V21)
$ V21: int  1 2 1 1 2 1 1 1 1 2 ...
> credit$V21 = ifelse(credit$Good.Loan==1,'GoodLoan','BadLoan')  ## (1=GOOD, 2=BAD)
> str(credit$V21)
 chr [1:1000] "Goodloan" "Badloan" "Goodloan" "Goodloan" ...     ##  这里是字符型,方便处理要改成factor型
> credit$V21=as.factor(credit$V21)
> str(credit$V21)
 Factor w/ 2 levels "Badloan","Goodloan": 2 1 2 2 1 2 2 2 2 1 ...
 
  

你可能感兴趣的:(R studio 导入数据与处理)