R语言dplyr包:高效数据处理函数case_when、inner_join、semi_join、anti_join、right_join、left_join

R语言高效数据处理包

本篇为dplyr包实用函数的连载,主要为SQL数据库中类似功能的实现。

1、case_when函数,有一些SQL基础(case when)的都猜得到这个函数的功能

可实现多条件判断并可以添加标签的函数,这在我们对数据进行分类整理中十分的实用,这个函数中的参数可以这样分:一部分是判断条件,另一部分是所要做的标签

iris%>%select(Sepal.Length,Species)%>%mutate(sl_size=case_when(Sepal.Length<=5~"s",
                                Sepal.Length>=6~"l",
                                Sepal.Length>=5&Sepal.Length<=6~"m"))

R语言dplyr包:高效数据处理函数case_when、inner_join、semi_join、anti_join、right_join、left_join_第1张图片

2、一系列xxx_join函数,这可是解决了不少问题,不用在数据库中捣来捣去(这一系列函数的参数都是一样的,分别为:xxx_join(df1,df2,by=c(“x1”,“x2”)或者by=c(“x1”=“x2”)或者省略,但是省略后函数会使用两个数据集中公有的变量作匹配))

     2.1 inner_join 函数所得结果为df1、df2数据的交集;

     2.2semi_join函数所得结果为与inner_join类似,同样是求两个数据集的交集,但semi_join只保留/返回

     前者与后者相匹配的函数;

     2.3  anti_join函数返回的结果就与前面的函数反着了,它返回的是前者数据中与后者不匹配的数据;

     2.4  right_join和left_join想必都不用多说了,返回前者与后者相匹配的数据集及后者其本身、前者与后者相匹配的数据集及前      者其本身。

这次也只写这么点哦,dplyr包常用的函数已经讲解的差不多了,希望大家都可以熟练运用。

这个函数还需要演示代码的话,想得美

下一篇文章是关于R语言data.table包的函数

这个包同样是一个非常强大的数据处理包,相比dplyr有时候效果更好。

 

另外,可能有不少小伙伴同时也在学习python,小编也是,但以小编的看法,两者的语法有些不同,而有些函数、符号、包都是类似的,所以学好其一,想学其他的就会很快上手的。

 

你可能感兴趣的:(R语言数据分析包,dplyr包,数据处理,数据匹配,数据标签,R语言)