正则表达式(regular expression)描述了一种文本字符串匹配的模式(pattern),包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等,是使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。
正则表达式是繁琐的,但它是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。
要匹配变长的字符,在正则表达式中使用限定符来表示,限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种;{n}
表示n个字符,{n,m}
表示n-m个字符{ 为标记限定符表达式的开始。要匹配 {,请使用 \{
? 通配符匹配文件名中的 0 个或 1 个字符(0次、或1次)
* 通配符匹配零个或多个字符(0次、或1次、或多次)
+ 号代表前面的字符必须至少出现一次(1次或多次)
*、+ 限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。
. 匹配除换行符(\n、\r)之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用像"(.|\n)"的模式。
正则表达式的使用,可以通过简单的办法来实现强大的功能。下面先给出一个简单的示例:
^[0-9]+abc$
\d
表示必须以数字开头。\d
$表示必须以数字结束。定位符用来描述字符串或单词的边界,^ 和 $ 分别指字符串的开始与结束,\b 描述单词的前或后边界,\B 表示非单词边界。
注意:不能将限定符与定位符一起使用。由于在紧靠换行或者单词边界的前面或后面不能有一个以上位置,因此不允许诸如 ^* 之类的表达式。
^ 和 [^指定字符串] 之间的区别:
^ 指的是匹配字符串开始的位置
[^指定字符串] 指的是除指定字符串以外的其他字符串
(^[0-9])+ //匹配有一至多个数字的字符串组合
[^[0-9]]+ // 匹配有一至多个不含数字的字符串组合
注:
( ) 标记一个子表达式的开始和结束位置, 子表达式可以获取供以后使用
[ ] 标记一个中括号表达式的开始和结束位置,要做更精确地匹配,可以用[ ]
表示范围。
[AaEeIiOoUu]
字符集合。匹配所包含的任意一个字符,这个模式与任何元音字符匹配,但只能表示一个字符。用连字号可以表示一个字符的范围,如:
[a-z] //匹配所有的小写字母
[A-Z] //匹配所有的大写字母
[a-zA-Z] //匹配所有的字母
[0-9] //匹配所有的数字
[0-9\.\-] //匹配所有的数字,句号和减号
[ \f\r\t\n] //匹配所有的白字符
选择
除了简单地判断是否匹配之外,正则表达式还有提取子串的强大功能。用()
表示的就是要提取的分组(Group),比如:
^(\d{3})-(\d{3,8})$
分别定义了两个组,可以直接从匹配的字符串中提取出区号(\d{3}
)和本地号码(\d{3,8}
),如果正则表达式中定义了组,就可以在Match
对象上用group()
方法提取出子串来。
A|B
可以匹配A或B,所以(P|p)ython
可以匹配'Python'
或者'python'
。
用圆括号将所有选择项括起来,相邻的选择项之间用|分隔。但用圆括号会有一个副作用,使相关的匹配会被缓存,此时可用?:放在第一个选项前来消除这种副作用。
其中 ?: 是非捕获元之一,还有两个非捕获元是 ?= 和 ?!,这两个还有更多的含义,前者为正向预查,在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串,后者为负向预查,在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。
(pattern) |
匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,在VBScript 中使用 SubMatches 集合,在JScript 中则使用 $0…$9 属性。要匹配圆括号字符,请使用 '\(' 或 '\)'。 |
(?:pattern) |
匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。 |
(?=pattern) |
正向肯定预查(look ahead positive assert),在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,"Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的"Windows",但不能匹配"Windows3.1"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。 |
(?!pattern) |
正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows",但不能匹配"Windows2000"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。 |
(?<=pattern) |
反向(look behind)肯定预查,与正向肯定预查类似,只是方向相反。例如,"(?<=95|98|NT|2000)Windows"能匹配"2000Windows"中的"Windows",但不能匹配"3.1Windows"中的"Windows"。 |
(? |
反向否定预查,与正向否定预查类似,只是方向相反。例如"(?"能匹配"3.1Windows"中的"Windows",但不能匹配"2000Windows"中的"Windows"。 |
对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中,所捕获的每个子匹配都按照在正则表达式模式中从左到右出现的顺序存储。缓冲区编号从 1 开始,最多可存储 99 个捕获的子表达式。每个缓冲区都可以使用 \n 访问,其中 n 为一个标识特定缓冲区的一位或两位十进制数。
可以使用非捕获元字符 ?:、?= 或 ?! 来重写捕获,忽略对相关匹配的保存。
?=、?!、?<= ? 用于限定它前后的表达式,不能单独使用,本身没有作用。
描述 ?=、?!、?<= ? 的 “Positive/Negative lookahead/lookbehind assest” 的现行翻译“正先行断言”“正向肯定预查”之类,都不易理解或者说不准确甚至错误。lookaround 指前后看而不是“预查”,意为作用于前后表达式,即 lookahead(指向前看而不是“先行”)和 lookbehind(指向后看而不是“后发”)的合称;assert 指判断而不是“断言”;Positive 和 Negative 指肯否定而不是正负。