PCRE的模式修饰符
(2012-05-24 14:09:35)
转载▼
标签: pcre perl风格兼容 正则表达式 模式修正符 |
分类:正则表达式 |
PCRE(Perl-Compatible RegularExpressions),兼容Perl风格的正则表达式,这篇文章仅记录一下常见模式修正符的用法。
i(PCRE-CASELESS)模式中的字母会进行大小写不敏感匹配
m(PCRE-MULTILINE)
默认情况下, PCRE认为目标字符串是由单行字符组成的(然而实际上它可能会包含多行),"行首"元字符(^)仅匹配字符串的开始位置, 而"行末"元字符($)仅匹配字符串末尾,或者最后的换行符(除非设置了D修饰符). 这个行为和perl相同.
当这个修饰符设置之后, "行首"和"行末"就会匹配目标字符串中任意换行符之前或之后,另外, 还分别匹配目标字符串的最开始和最末尾位置. 这等同于perl的/m修饰符. 如果目标字符串 中没有"\n"字符,或者模式中没有出现^或$, 设置这个修饰符不产生任何影响.
例子: 字符串 :"this is a example ofpcre-multiline pcre\nthis is Perl-Compatible Regular Expressionspcre" 模式:/^this/m
结果:有修饰符m,将能匹配两行开头的this,没有m,就把整个字串当成一个目标来匹配,只能匹配到一个this
s(PCRE-DOTALL)
如果设置了这个修饰符, 模式中的点号元字符匹配所有字符, 包含换行符. 如果没有这个 修饰符, 点号不匹配换行符.这个修饰符等同于perl中的/s修饰符. 一个取反字符类比如 [^a]总是匹配换行符, 而不依赖于这个修饰符的设置.
例子:字符串同上,模式:/.*/s
结果:没有修饰符s,由于元字符.不能匹配换行符,故结果为this is a example ofpcre-multiline pcre,有了修饰符,则结果为字符串全部。
x(PCRE-EXTENDED)
如果设置了这个修饰符, 模式中的没有经过转义的或不在字符类中的空白数据字符总会被忽略,并且位于一个未转义的字符类外部的#字符和下一个换行符之间的字符也被忽略. 这个修饰符 等同于perl中的/x修饰符,使被编译模式中可以包含注释. 注意: 这仅用于数据字符. 空白字符 还是不能在模式的特殊字符序列中出现,比如序列(?(引入了一个条件子组(译注: 这种语法定义的 特殊字符序列中如果出现空白字符会导致编译错误. 比如(?(就会导致错误.).
例子:字符串同上,模式:/pc re/x
结果:没有模式的话,没有匹配结果,有模式就可以匹配到pcre,这样在模式中就可以增加必要的空格和注释,增强模式代码的可读性。
e(PCRE-REPLACE-EVAL)
如果这个修饰符设置了,preg_replace()在进行了对替换字符串的后向引用替换之后, 将替换后的字符串作为php代码评估执行(eval函数方式), 并使用执行结果 作为实际参与替换的字符串. 单引号,双引号, 反斜线(\)和NULL字符在 后向引用替换时会被用反斜线转义.
请确保
replacement参数由合法php代码字符串组成,否则php将会 在
preg_replace()调用的行上产生一个解释错误.
仅
preg_replace()使用此修饰符,其他PCRE函数忽略此修饰符.
u(PCRE8)
此修正符打开一个与perl不兼容的附加功能.模式字符串被认为是utf-8的.比如在模式中出现了双字节字符,为了保证解析不会混乱,这时应加上u修饰符,在解析时把模式当作utf-8的编码来解释。
D(PCRE-DOLLAR-ENDONLY)
如果这个修饰符被设置,模式中的元字符美元符号仅仅匹配目标字符串的末尾. 如果这个修饰符 没有设置, 当字符串以一个换行符结尾时,美元符号还会匹配该换行符(但不会匹配之前的任何换行符). 如果设置了修饰符m,这个修饰符被忽略. 在perl中没有与此修饰符等同的修饰符.
例子:字符串:"this is Perl-Compatible Regular Expressions pcre\n"模式:/pcre$/D
结果:没有模式修饰符D,能匹配到结尾的pcre,有修饰符之后,$只匹配串尾,故不能匹配,要想匹配,模式得修改为/pcre\\n$/D
U(PCRE-UNGREEDY)
这个修饰符逆转了量词的"贪婪"模式.使量词默认为非贪婪的, 通过量词后紧跟? 的方式可以使其成为非贪婪的. 这和perl是不兼容的. 它同样可以使用模式内修饰符设置 (?U)进行设置,或者在量词后以问号标记其非贪婪.