R Getting and Cleaning Data获取和清理数据

—————————-基础包—————————————
myedit(“showXY.R”) ##打开本地R脚本
source(pathtofile(“plot1.R”),local=TRUE) ##运行本地R文件

unique() #去重
n() #数量
n_distinct() #去重数量
quantile() #百分比对应条件值
url()
readlines()
close()
nchar() #统计每行数量
download.file()
cut()
merge() #类似于sql 的inner join
strsplit() #分裂
sub() #替换
gsub() #替换支持正则
grep() #搜索
grepl() #统计搜索情况 支持正则
substr()
paste() #&
str_trim #去空格
make.names() #强制转换目标数据为表头格式
make.unique, names, character, data.frame
intersect(a,b) #保留ab都有的innerjoin

====组合=======
read.table(“x.txt”,comment.char=”#”,header=TRUE,sep=”|”,na.strings=”“) #读取txt等文件
subset(x, subset, select, drop = FALSE, …) #从原数据框中选择列和行
table(data$zip %in% c("1","2")) #可增加多个匹配条件
a[which()] #可去除NA
mean(is.na(x$1)) #计算缺失值占比

————–jsonlite 读写JSON——————————-
fromJSON()
toJSON()
fromJSON()

——————–data.table 替代data.frame——————————
data.table()
DT()
tables()
setkey()
write.table(data.frame,file=tempfile())

——————dplyr 处理data.frame类似sql操作 ——————————
tbl_df() #读数据
select() #列操作
filter() #行操作
arrange() #row order
mutate(,list(1*(a>80),levels=c(1,2,3))) #创建新变量
summarize() #group计算
group_by()
bind_rows() #两表合并
rename()

—————–plyr 功能类似dplyr——————————–
join()
join_all()
参考文献plyr.had.com.nz

———————tidyr———————-
gather() #列传行
separate() #分列 strsplit
spread() #行转列

——————readr—————————
parse_number() #只保留数字等单一字符类型

——————lubridate 日期时间处理包 ———————-
wday()
ymd() mdy()
ymd_hms()
update() #类似于dataadd
now(“America/New_York”)
now()+days(2) #类似update
with_tz()
interval()
stopwatch()

——————–RMySQL———————-
dbConnect() #连接
dbGetQuery();dbDisconnect() #查询
dbListTables() #表
dbListFields #表头
dbReadTable() #表内容
dbSendQuery()+fetch() #查询+获取数据
dbClearResult()

—————-biolite(“rhfd5”)———————-
h5createFile() #创建rhdf5文件包
h5createGroup()
h5ls() #show
h5write() #把矩阵等写入h5

—————-XML———————-
htmlTreeParse()
XPathSApply()

—————httr—————————
GET(url) #登录
contnet() #内容
htmlParse() #整个信息
XPathSApply() #按类型取部分信息

—————-api访问————————–
oauth_app() #启动应用的认证过程
sign_oauth1.0() #登录
GET()
jsonline

—————–sqldf————
sql #查询r

你可能感兴趣的:(课程笔记,R)