dplyr data.table
dplyr data.table对比
dplyr参考
数据处理经常用到的包
dplyr
,data.table
,Base R
,tidyverse
数据处理一般的流程:
1.数据过滤(去重)
2.选择
3.比对,匹配
4.分组
5.排序
6.抽样
在excel中也可以完成上述操作,但是当数量达到十万以上级别后,excel速度慢如蜗牛。
dplyr用法示例
数据去重
distinct(df,V1,V2)
根据V1和V2两个条件来进行去重
新增列
mutate(df,vnew1=v1-v2,vnew2=vnew1+v3)
支持在创建的新列的基础上,再新建列。
过滤函数
filter(df,cond1,cond2,…)
用逗号,隔开表示条件是and的关系
filter(df,cond1|cond2|…)
用竖线|隔开表示条件是or的关系
slice(df,80:100)
选取索引80到100的数据
排序
arrange(df,V1,desc(V2),V3)
V1,V3升序,V2降序
arranage(df,V1)
升序排列V1
arrange(df,desc(V3))
降序排列V3
选择
select(df,V1,V2,V3)
选择V1,V2,V3这三列
select(df,V1:V3)
选择V1到V3列之间的所有列
select(df,-c(v1,V3))
选择除V1,V3之外的所有列
分组
group_by(df,V1,V2)
df根据V1,V2进行分组
计算统计数据
summarise(df,mean(V1),sum(V4))
随机抽取
sample_n(df,1000)
随机抽取1000个数据
sample_frac(df,0.7)
随机抽取70%的数据