R语言--数据接口(五)

1. CSV文件
  • 获取和设置工作目录
# 获取和设置工作目录
print(getwd())
# 设置当前工作目录
setwd("E:/R")
print(getwd())

打印结果:


3110861-ba61746f49b87cf8.png
图1.png
  • 输入为CSV文件
    csv文件是一个文本文件,其中列中的值由逗号分隔。
id,name,salary,start_date,dept
1,Rick,623.3,2012-01-01,IT
2,Dan,515.2,2013-09-23,Operations
3,Michelle,611,2014-11-15,IT
4,Ryan,729,2014-05-11,HR
 ,Gary,843.25,2015-03-27,Finance
6,Nina,578,2013-05-21,IT
7,Simon,632.8,2013-07-30,Operations
8,Guru,722.5,2014-06-17,Finance
  • 读取csv文件
# 读取csv文件
data <- read.csv("input.csv")
print(data)

效果:


R语言--数据接口(五)_第1张图片
图2.png
  • 分析csv文件
# 分析csv文件
data <- read.csv("input.csv")

print(is.data.frame(data))
print(ncol(data))
print(nrow(data))

效果:


3110861-a294a580046a72d0.png
图3.png
  • 获得最高工资
# 获得最高工资
data <- read.csv("input.csv")
sal <- max(data$salary)
print(sal)

打印结果:


3110861-cb469bf3ae4f2e4f.png
图4.png
  • 获取具有最高工资的人的详细信息
# 获取具有最高工资的人的详细信息
data <- read.csv("input.csv")
# 获取最大工资
sal <- max(data$salary)
# 获取信息
retval <- subset(data, salary == max(salary))
print(retval)

打印结果:


3110861-424517fccfdee49d.png
图5.png
  • 获取所有的IT部门员工信息
# 获取所有的IT部门员工的信息
data <- read.csv("input.csv")
retval <- subset(data, dept == "IT")
print(retval)

打印结果:


3110861-d66a04f391dfb7e4.png
图6.png
  • 获得工资大于600的IT部门的人员
# 获得工资大于600的IT部门的人员
data <- read.csv("input.csv")
info <- subset(data, salary > 600 & dept == "IT")
print(info)

打印结果:


3110861-f61da9dff4339106.png
图7.png
  • 获得2014年或之后加入的人
# 获得2014年或之后加入的人
data <- read.csv("input.csv")
retval <- subset(data, as.Date(start_date) > as.Date("2014-01-01"))
print(retval)

打印结果:


R语言--数据接口(五)_第2张图片
图8.png
  • 写入csv
# 写入csv文件
data <- read.csv("input.csv")
retval <- subset(data, as.Date(start_date) > as.Date("2014-01-01"))
# 写入
# write.csv(retval, "output.csv")
# 写入并删除附加参数
write.csv(retval, "output.csv", row.names = FALSE)
newData <- read.csv("output.csv")
print(newData)

打印结果:


R语言--数据接口(五)_第3张图片
图9.png
2. Excel文件
  • 安装xlsx软件包
# 安装包
install.packages("xlsx", repos="https://cran.cnr.berkeley.edu/")
  • 验证并加载包
# 验证包是否安装
any(grepl("xlsx",installed.packages()))
# 加载包
library("xlsx")

打印结果:


3110861-0d22577f4755e5f8.png
图10.png
  • 读取Excel文件
# 读取Excel文件
library("xlsx")
data <- read.xlsx("input.xlsx", sheetIndex = 1)
print(data)

打印结果:


R语言--数据接口(五)_第4张图片
图11.png
3. 二进制文件
  • 语法

writeBin(object, con)
readBin(con, what, n )

以下是所使用的参数的描述 -
-- con是读取或写入二进制文件的连接对象。
-- object是要写入的二进制文件。
-- what是模式,如字符,整数等表示要读取的字节。
-- n是从二进制文件读取的字节数。

  • 写入二进制文件
# # 写入二进制文件
# 将mtcars数据写入mtcars.csv
write.table(mtcars, file = "mtcars.csv", row.names = FALSE, na = "", col.names = TRUE, sep = ",")
# 读取文件
new.mtcars <- read.table("mtcars.csv", sep = ",", header = TRUE, nrows = 5)
# 写入文件名
write.filename = file("E:/R/data/binmtcars.dat", "wb")
# 写为二进制文件
writeBin(c("cyl", "am", "gear"), write.filename)
# 写入记录
writeBin(c(new.mtcars$cyl, new.mtcars$am, new.mtcars$gear), write.filename)
# 关闭文件
close(write.filename)
  • 读取二进制文件
# 读取二进制文件
read.filename <- file("E:/R/data/binmtcars.dat", "rb")
# 读取列
column.names <- readBin(read.filename, character(), n = 3)
# 读取文件名
read.filename <- file("E:/R/data/binmtcars.dat", "rb")
bindata <- readBin(read.filename, integer(), n = 18)
# 打印
print(bindata)
# 读取cyl,第4-8个字节
cyldata = bindata[4:8]
print(cyldata)
# 读取am,第9-13字节
amdata = bindata[9:13]
print(amdata)
# 读取gear
geardata = bindata[14:18]
print(geardata)
# 绑定数据
finaldata = cbind(cyldata, amdata, geardata)
colnames(finaldata) = column.names
print(finaldata)

打印结果:


R语言--数据接口(五)_第5张图片
图12.png
4. XML文件
  • 安装
# 安装包
install.packages("XML", repos="https://cran.cnr.berkeley.edu/")
  • 读取XML
# 读取XML文件
library("XML")
library("methods")
# 读取文件
result <- xmlParse(file = "input.xml")
print(result)

打印结果:

E:\R\data>Rscript dataInterface.R


  
    1
    Rick
    623.3
    1/1/2012
    IT
  
  
    2
    Dan
    515.2
    9/23/2013
    Operations
  
  
    3
    Michelle
    611
    11/15/2014IT
  
  
    4
    Ryan
    729
    5/11/2014
    HR
  
  
    5
    Gary
    843.25
    3/27/2015
    Finance
  
  
    6
    Nina
    578
    5/21/2013
    IT
  
  
    7
    Simon
    632.8
    7/30/2013
    Operations
  
  
    8
    Guru
    722.5
    6/17/2014
    Finance
  

  • 获取XML文件中存在的节点数
# 获取XML文件中存在的节点数
library("XML")
library("methods")
# 读取文件
result <- xmlParse(file = "input.xml")
# 获取根节点
rootnode <- xmlRoot(result)
# 获取节点数
rootsize <- xmlSize(rootnode)
print(rootsize)

打印结果:


3110861-d92a862b9f8e747b.png
图13.png
  • 第一个节点的详细信息
# 获取第一个结点的详细信息
library("XML")
library("methods")
# 读取文件
result <- xmlParse(file = "input.xml")
# 获取根节点
rootnode <- xmlRoot(result)
# 打印第一个结点详细信息
print(rootnode[1])

打印结果:


R语言--数据接口(五)_第6张图片
图14.png
  • 获取节点的不同元素
# 获取结点的不同元素
library("XML")
library("methods")
# 读取文件
result <- xmlParse(file = "input.xml")
# 获取根节点
rootnode <- xmlRoot(result)
# 打印第一个结点的第一个元素
print(rootnode[[1]][[1]])
# 打印第一个结点的第五个元素
print(rootnode[[1]][[5]])
# 打印第三个几点的第二个元素
print(rootnode[[3]][[2]])

打印结果:


3110861-09477b594f30c34e.png
图15.png
  • XML到数据帧
# XML到数据帧
library("XML")
library("methods")
# 转换XML到数据帧
xmldataframe <- xmlToDataFrame("input.xml")
print(xmldataframe)

打印结果:


R语言--数据接口(五)_第7张图片
图16.png
5. JSON文件
  • 安装包
# 安装包
install.packages("rjson", repos="https://cran.cnr.berkeley.edu/")
  • 读取JSON文件
# 读取JSON文件
# 加载库
library("rjson")
# 读取JSON文件
result <- fromJSON(file = "input.json")
print(result)

打印结果:


R语言--数据接口(五)_第8张图片
图17.png
  • JSON转换为数据帧
# JSON转换数据帧
# 加载库
library("rjson")
# 读取JSON文件
result <- fromJSON(file = "input.json")
# 转换为数据帧
json_data_frame <- as.data.frame(result)
print(json_data_frame)

打印结果:


R语言--数据接口(五)_第9张图片
图18.png
6. Web数据
  • 安装包
# 安装R语言包
install.packages("RCurl", repos="https://cran.cnr.berkeley.edu/")
install.packages("XML", repos="https://cran.cnr.berkeley.edu/")
install.packages("stringr", repos="https://cran.cnr.berkeley.edu/")
install.packages("plyr", repos="https://cran.cnr.berkeley.edu/")
  • 获取数据
# 下载文件
library("RCurl")
library("XML")
library("stringr")
library("plyr")
# 设置url
url <- "http://www.geos.ed.ac.uk/~weather/jcmb_ws/"
# 获取网页链接数据
links <- getHTMLLinks(url)
# 获取包含JCMB_2015的文件名
filenames <- links[str_detect(links, "JCMB_2015")]
# 将文件名转换为列表
filenames_list <- as.list(filenames)
# 下载文件
downloadcsv <- function(mainurl, filename) {
    filedetails <- str_c(mainurl, filename)
    download.file(filedetails, filename)
}
# 应用l_ply函数保存文件
l_ply(filenames, downloadcsv, mainurl = "http://www.geos.ed.ac.uk/~weather/jcmb_ws/")

代码下载

你可能感兴趣的:(R语言--数据接口(五))