R:数据处理常用包

dplyr data.table
dplyr data.table对比
dplyr参考
数据处理经常用到的包
dplyr,data.table,Base R,tidyverse
数据处理一般的流程:
1.数据过滤(去重)
2.选择
3.比对,匹配
4.分组
5.排序
6.抽样
在excel中也可以完成上述操作,但是当数量达到十万以上级别后,excel速度慢如蜗牛。

dplyr用法示例

数据去重

distinct(df,V1,V2) 根据V1和V2两个条件来进行去重

新增列

mutate(df,vnew1=v1-v2,vnew2=vnew1+v3) 支持在创建的新列的基础上,再新建列。

过滤函数

filter(df,cond1,cond2,…) 用逗号,隔开表示条件是and的关系
filter(df,cond1|cond2|…) 用竖线|隔开表示条件是or的关系
slice(df,80:100) 选取索引80到100的数据

排序

arrange(df,V1,desc(V2),V3)V1,V3升序,V2降序
arranage(df,V1) 升序排列V1
arrange(df,desc(V3))降序排列V3

选择

select(df,V1,V2,V3)选择V1,V2,V3这三列
select(df,V1:V3) 选择V1到V3列之间的所有列
select(df,-c(v1,V3))选择除V1,V3之外的所有列

分组

group_by(df,V1,V2)df根据V1,V2进行分组

计算统计数据

summarise(df,mean(V1),sum(V4))

随机抽取

sample_n(df,1000)随机抽取1000个数据
sample_frac(df,0.7) 随机抽取70%的数据

你可能感兴趣的:(R:数据处理常用包)