R语言stringr包字符串、文本数据处理函数(数据清洗、正则表达式)

最近一直在忙于数据清理、整理,分析、可视化都不多,想来把数据处理中的一些方法分享给大家!

本篇是对你接到一个烫手山芋时,如何将它们一并拿下!

 

stringr包函数处理脏数据可谓是屡试不爽,例如:网络爬取的数据、平台反馈数据、用户数据、医疗数据

由于时间比较赶,下面写到的都是常用的数据处理函数

1、最基础的就是字符串拼接函数:str_c、str_join

2、数据匹配函数:inner_join、right_join、left_join、semi_join、anti_join等,其实这个就和sql中的一样。在你匹配数据的时候经常出现匹配误差很大,而实际上很多数据本身是匹配的,那么你赶紧用用str_trim去除数据中的空格,还有数据的格式,这个就很容易从报错中知道。

3、字符串的计数str_count: 字符串计数、str_length: 字符串长度,至于怎么用今天就不写了,太晚了。

4、数据拆分函数:str_split、str_split_fixed,两者的 区别在于输出数据格式不同、参数可选不同

5、匹配、筛选、清理对应格式数据,str_replace、str_replace_all,两者主要在于前者只有匹配第一个与之相对应格式的数据,而后者会处理所有,函数中均有三个参数:数据列column或者文本数据等,匹配模式pattern(可根据需求使用固定格式的匹配方式、还可用正则表达式编写相应的通用pattern),替换的值

6、定位相应格式数据的位置:str_locate、str_locate,这个就比较方便,可以定位到你想要知道的数据具体位置进而去做处理

7、检查匹配字符串的字符函数:str_detect,这个函数会判断相应pattern的字符,它并不是判断两个值是否相等,而是去具体的值中搜索是否存在相应模式的值,然后返回TRUE/FALSE

8、从字符串中提取匹配组:str_match、str_match_all,这个函数就与前面的str_replace不同,它是匹配你想要的pattern值返回给你,str_replace是清除。其实从字符串中提取匹配字符函数str_extract与它有点类似

 

 

不写了不写了,下次继续,这里面的函数基本都可以使用正则表达式去处理疑难数据,至于语法了,就不介绍了,后面专门写一篇语法。

 

欢迎下次来看哈!小编等你

:

你可能感兴趣的:(R语言,实用随笔,R语言,stringr包,正则表达式,字符串,文本处理)