正则表达式即使用一个字符串来描述、匹配一系列某个语法规则的字符串。通过特定的字母、数字及特殊符号的灵活组合即可完成对任意字符串的匹配,从而达到提取相应文本信息的目的。R语言中有两种风格的正则表达式可实现,一种是在基本正则表达式基础上进行扩展,这和相应的R字符串处理函数相关,另一种就是Perl正则表达式,这种风格的正则在R中一般不常用。R默认的正则表达式风格包括基础文本处理函数和stringr包中的文本处理函数。在R中二者都支持正则表达式也都具备基本的文本处理能力,但基础函数的一致性要弱很多,在函数命名和参数定义上很难让人印象深刻。stringr包是Hadley Wickham开发了一款专门进行文本处理的R包,它对基础的文本处理函数进行了扩展和整合,在一致性和易于理解性上都要优于基础函数。如果要在正则表达式中表示元字符本身,比如在文本中查找问号?,那么就要使用引用符号(或换码符号),一般是反斜杠'\'。需要注意的是在R语言中得用两个反斜杠即\\,如要匹配括号就要写成'\\(\\)'
实际应用中正则表达式的一个比较经典使用场景是识别电子邮箱地址。一个正常的电子邮箱账户应该由下面几部分构成:任意字符、数字和符号组成的用户名+@+.+com/net等域名。根据正则表达式的语法规则,就可以由这几部分写出邮箱账户的正则表达式:
[A-Za-z0-9\\._+]+@[A-Za-z0-9]+\.(com|org|edu|net)
#[A-Za-z0-9\\._+]+:A-Z表示匹配任意A-Z大写字母,所有可能组合放在中括号里表示可以匹配其中的任一个,加号表示任意字符可以出现1次或者多次,\表示转义
grepl('[A-Za-z0-9\\._+]','\\') #TRUE
@:邮箱必须的一个符号
[A-Za-z0-9]:同前面一样,@符号后面必须有一个包含运营商信息的字符串
\.:邮箱地址中必须要有的一个点号
(com|org|edu|net):列出邮箱地址可能的域名系统,括号内表示分组处理,|符号表示或
#圆括号是组,应用在限制多选结构的范围/分组/捕获文本/环视/特殊模式处理
#圆括号里面的内容表示一个子表达式,()本身并不匹配任何东西
(\\s+) #表示连续空白字符的字符串
(abc|bcd|cde) #表示出现三者之一(顺序必须一致)
a(?=bbb) #表示a后面必须紧跟3个连续的b
#\1表示重复第一个括号里面的内容,\2表示重复第二个括号里面的内容
#\1、\2必须和()配合使用
x=c('abbbbccccaaba')
m <-regexpr("(a).*?\\1", x) #?非贪婪匹配失效
regmatches(x, m) #"abbbbccccaaba"
x=c('aaaaaaaaabbbbcccc')
m <-regexpr("(a)\\1+?", x)
m <-regexpr("(a)\\1+", x) #与上式等价,用\1或\2时不能识别非贪婪匹配
x=c('aaaaaaaaabbbbcccc')
m <-regexpr("(\\w)\\1+", x)
regmatches(x, m) #'aaaaaaaaa'
x=c('abbbbcccc')
m <-regexpr("(\\w)\\1+", x)
regmatches(x, m) #'bbbb'
stringr包一共提供30个字符串处理函数,其中大部分均可支持正则表达式应用,包内所有以str_开头函数,后面单词用来说明该函数含义,相较于基础文本处理函数,stringr包函数更易理解
example_text2 <- "1. A small sentence. - 2. Another tiny sentence."
library(stringr)
#提取small特征字符
str_extract(example_text2, "small")
[1] "small"
#提取包含sentence特征的全部字符串
unlist(str_extract_all(example_text2, "sentence"))
[1] "sentence" "sentence"
#提取以1开始的字符串
str_extract(example_text2, "^1")
[1] "1"
#提取以句号结尾的字符
unlist(str_extract_all(example_text2, ".$"))
[1] "."
#提取包含tiny或者sentence特征的字符串
unlist(str_extract_all(example_text2, "tiny|sentence"))
[1] "sentence" "tiny" "sentence"
#点号进行模糊匹配
str_extract(example_text2, "sm.ll")
[1] "small"
#中括号内表示可选字符串
str_extract(example_text2, "sm[abc]ll")
[1] "small"
str_extract(example_text2, "sm[a-p]ll")
[1] "small"
对于特定字符可以手动指定,比如[a-zA-Z]表示a-z和A-Z之间的所有字母,但R预先定义了一些字符集
str_extract(example_text2, "([[:alpha:]]).+?\\1")
[1] "A small sentence. - 2. A"
R中正则表达式的应用还有若干简化的形式,它被分配给几个特定的字符类,如下表所示:
#提取全部单词字符
unlist(str_extract_all(example_text2, "\\w+"))
[1] "1" "A" "small" "sentence" "2" "Another" "tiny"
[8] "sentence"
圆括号括起来的表达式最优先,然后是表示重复次数的操作(即:*+{}),接下来是连接运算(其实就是几个字符放在一起,如abc),最后是表示可选项的运算(|)。所以 'foot|bar'可以匹配'foot'或者'bar'
"\b"匹配单词边界,不匹配任何字符(只是一个位置),这个位置的一侧是构成单词的字符,另一侧是非单词字符、字符串开始或结束位置."\b"是零宽度的
--正则表达式中的单词指"\w"定义的字符所组成的子串
---------
"\w"范围:
在支持ASCII码的语言中,如JavaScript,"\w"等价于[a-zA-Z0-9_]
在支持Unicode的语言中,如.NET,默认情况下,除可以匹配[a-zA-Z0-9_]外,还可以匹配一些Unicode字符集,如汉字,全角数字等
--------
"\b"在正则中,通常都是表示单词边界,但在字符组中,表示退格键,如[a-z\b]