《Learning R》笔记 Chapter 12 Retrieve data

来自R本身的data

data()可以列举出R本体和已载入package中带的数据集。
data(package = .packages(all.available = TRUE))则能列出所有package中自带的数据集(会有很多)。
如果要读入某未载入的package中的数据,使用以下命令:

> data('solder', package = 'rpart')
> View(solder)

TXT类型的data

使用read.table()或read.csv()读入。read.csv是read.table的wrapper.
在read.table中参数 header 默认是FALSE,而在csv中默认是TRUE;
在read.table中参数 fill 默认是!blank.lines.skip,需要时得手动改成TRUE;在csv中默认是TRUE。

read.table中 sep 参数用来指定分隔数据的字符(‘ ’ ‘,’等),nrow指定读入多少行,skip指定省略多少行。二者同时存在时,永远是先skip再读入指定的行数。如果要更特定地指定读入文件某部分,应使用colbycol包或sqldf包。

从其他数据软件文件读入时,还应注意na.strings参数。例如对SQL源文件来说,na.strings=‘NULL’.
在写出txt类型数据时,最好在write.csv()等函数加上参数fileEncoding = 'utf8

对unstructured text files,可以使用readLines()先读入,将源文件储存为按行分割的长string。

xml,html,json略。

你可能感兴趣的:(《Learning R》笔记 Chapter 12 Retrieve data)