在《Dive into Python》(深入python)中,第七章介绍正則表達式,开篇非常好的引出了正則表達式,以下借用一下:我们都知道python中字符串也有比較简单的方法,比方能够进行搜索(index,find和count),替换(replace)和解析(split),这在本系列前篇数据结构篇中有所涉及,可是有种种限制。比方要进行大写和小写不敏感的搜索时,可能就须要先对字符串进行str.lower()或str.upper()将字符串先统一转换成小写或者大写在进行搜索。
那么,本篇的主角正則表達式呢?正則表達式本身是一种小型的、高度专业化的编程语言,它内嵌在Python中,并通过 re 模块实现。使用这个小型语言,你能够为想要匹配的对应字符串集指定规则;该字符串集可能包括英文语句、e-mail地址、TeX命令或不论什么你想搞定的东西。
以下借用《Dive into Python》中的样例比較一下正則表達式和字符串方法:
>>> str = "1000 NORTH MAIN ROAD" >>> str.replace("ROAD","RD.") -- 通常使用时可能会使用RD.取代ROAD '1000 NORTH MAIN RD.' >>> str = "1000 NORTH BROAD ROAD" -- 对于BROAD中的ROAD也进行了替换,这并非我们想要的 >>> str.replace("ROAD","RD.") '1000 NORTH BRD. RD.' >>> str[:-4]+str[-4:].replace("ROAD","RD.") -- 通过切片仅仅对最后四个字符的ROAD进行替换 '1000 NORTH BROAD RD.' >>> import re >>> re.sub('ROAD$',"RD.",str) -- 使用正則表達式re中的sub函数对str中的"ROAD$"使用"RD."进行替换,而$在正則表達式中表示行末,所以此句仅仅对最后的ROAD进行了替换,使用起来比上面使用字符串切片再匹配要简单的多 '1000 NORTH BROAD RD.'
注: 正則表達式之所以复杂难懂,除了它有上面如此多的元字符外,这些元字符之间的组合模式使得RE变得很难懂。比方: \S 匹配非空白字符,而加上 + 后 \S+ 则表示不包括空白字符的字符串!
此外, ^ 字符在上面图片中解释为字符串開始,事实上并不完好,在[ a ] 这种匹配中,^ 表示 “非” ,比方 [ a ]匹配字符 a,而[ ^a ] 则匹配除 a 以外的随意字符。
当正則表達式中包括能接受反复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。比如: a.*b ,它将会匹配 最长的以 a 開始,以 b 结束的字符串 。假设用它来搜索 aabab 的话,它会匹配整个字符串 aabab 。这被称为 贪婪 匹配。
有时,我们更须要 懒惰 匹配,也就是匹配尽可能少的字符。前面给出的限定符都能够被转化为懒惰匹配模式,仅仅要在它后面加上一个问号 ? 。这样 .*? 就意味着 匹配随意数量的反复, 可是在能使整个匹配成功的前提下使用最少的反复 。比方前面提到的 a.*b ,它的懒惰版为: a.*?b 匹配 最短的,以 a 開始,以 b 结束的字符串 。假设把它应用于 aabab 的话,它会匹配 aab (第一到第三个字符)和 ab (第四到第五个字符)。
>>> str = "aabab" >>> pattern = "a.*b" >>> print re.match(pattern,str).group(0) aabab >>> pattern = "a.*?b" >>> print re.match(pattern,str).group(0)
——The match that begins earliest wins。
在此我们能够使用本系列前篇 -- Python自省中的apihelper模块来查看一下python的 re 模块中有哪些方法:
>>> import re
>>> import apihelper as ah
>>> ah.info(re)
所以,我们能够大概知道,RE模块主要包含,compile, escape, findall, ...等方法,而详细怎样使用,我们能够使用 “ >>> help(re.match) ” 这样查看每一个方法的帮助文档。
前文以及提及,Python通过 re 模块提供对正則表達式的支持。使用 re 的一般步骤是先将正則表達式的字符串形式编译为Pattern实例,然后使用Pattern实例处理文
>>> import re >>> pattern = re.compile(r'hello') # 将正則表達式编译成Pattern对象 >>> match = pattern.match('hello world!') # 使用Pattern匹配文本,获得匹配结果,无法匹配时将返回None >>> if match: ... print match.group() # 假设匹配,打印匹配信息 ... hello
另外,你也能够在regex字符串中指定模式,比方re.compile('pattern', re.I | re.M)与re.compile('(?im)pattern')是等价的。
对于flag 可选值有:
名称 | 修饰符 | 说明 |
IGNORECASE(忽略大写和小写) | re.I re.IGNORECASE |
忽略大写和小写,使匹配对大写和小写不敏感 |
MULTILINE (多行模式) | re.M re.MULTILINE |
多行模式,改变'^'和'$'的行为 |
DOTALL(点随意匹配模式) | re.S re.DOTALL |
点随意匹配模式,改变'.'的行为,使 '.' 匹配包含换行在内的全部字符;没有这个标志, "." 匹配除了换行外的不论什么字符。 |
LOCALE(使预定字符类) | re.L re.LOCALE |
做本地化识别(locale-aware)匹配,使预定字符类 \w \W \b \B \s \S 取决于当前区域设定。locales 是 C 语言库中的一项功能,是用来为须要考虑不同语言的编程提供帮助的。举个样例,假设你正在处理法文文本,你想用 "w+ 来匹配文字,但 "w 仅仅匹配字符类 [A-Za-z];它并不能匹配 "é" 或 "?"。假设你的系统配置适当且本地化设置为法语,那么内部的 C 函数将告诉程序 "é" 也应该被觉得是一个字母。 |
UNICODE(Unicode模式) | re.U re.UNICODE |
依据Unicode字符集解析字符,使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性 |
VERBOSE(具体模式) | re.X re.VERBOSE |
这个模式下正則表達式能够是多行,忽略空白字符,并能够增加凝视。详见4.1 松散正則表達式 |
re 模块还提供了一些其它方法能够不用先编译pattern实例,直接用法匹配文本,如上面这个样例能够简写为:(使用compile 编译的优点是可重用)
m = re.match(r'hello', 'hello world!') print m.group()
>>> re.escape('.') '\\.' >>> re.escape('+') '\\+' >>> re.escape('?') '\\?'
对于 re 的match 方法,首先我们使用help 查看其介绍:
match(pattern, string, flags=0)
Try to apply the pattern at the start of the string, returning a match object, or None if no match was found.
解释: match()函数仅仅检測RE是不是在string的開始位置匹配, 也就是说match()仅仅有在0位置匹配成功的话才有返回,假设不是開始位置匹配成功的话,match()就返回none。
>>> print re.match(r'hello', 'hello world!').group() hello >>> print re.match(r'hello', 'My name is zhou, hello world!').group() Traceback (most recent call last): File "<stdin>", line 1, in <module> AttributeError: 'NoneType' object has no attribute 'group'
string: 匹配时使用的文本。
re: 匹配时使用的Pattern对象。
pos: 文本中正則表達式開始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名參数同样。
endpos: 文本中正則表達式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名參数同样。
lastindex: 最后一个被捕获的分组在文本中的索引。假设没有被捕获的分组,将为None。
lastgroup: 最后一个被捕获的分组的别名。假设这个分组没有别名或者没有被捕获的分组,将为None。
group([group1, …]):
返回(start(group), end(group))。
>>> match = re.match(r'hello', 'hello world!') >>> print match.string -- 打印匹配使用的文本 hello world! >>> print match.re -- 匹配使用的Pattern对象 <_sre.SRE_Pattern object at 0xb7522520> >>> print match.pos -- 文本中正則表達式開始搜索的索引 0 >>> print match.endpos -- 文本中正則表達式结束搜索的索引,一般与len(string)相等 12 >>> print match.lastindex None >>> print match.lastgroup None >>> print match.groups() () >>> print match.group() -- 不带參数,默觉得group(0),打印整个匹配的子串 hello >>> print match.groupdict() {} >>> print match.start() -- 匹配到的字符串在string中的起始索引 0 >>> print match.end() -- 匹配到的字符串在string中的结束索引 5 >>> print match.span() -- 打印(start,end) (0, 5)
相同,我们首先使用help 查看其介绍:
从上面两小节的介绍中我们也能够知道 re.match 从字符串的開始处開始匹配,假设字符串開始不符合正則表達式,则匹配失败,函数返回None;而re.search 查找整个字符串,直到找到一个匹配;若无匹配返回None。
>>> match = re.match(r'hello', 'my name is zhou, hello world!') >>> search = re.search(r'hello', 'my name is zhou, hello world!') >>> match.group() Traceback (most recent call last): File "<stdin>", line 1, in <module> AttributeError: 'NoneType' object has no attribute 'group' >>> search.group() 'hello' >>> search.start() 17 >>> search.end() 22
sub(pattern, repl, string, count=0, flags=0)
Return the string obtained by replacing the leftmost non-overlapping occurrences of the pattern in string by the replacement repl. repl can be either a string or a callable; if a string, backslash escapes in it are processed. If it is a callable, it's passed the match object and must return a replacement string to be used.
>>> import re >>> p = re.compile(r'(\w+) (\w+)') -- 匹配p为以空格连接的两个单词 >>> s = 'i say, hello world!' >>> print p.sub(r'\2 \1', s) -- 以\id引用分组,将每一个匹配中的两个单词掉转位置 say i, world hello! >>> def func(m): -- 一个函数,将匹配单词的首字母改为大写 ... return m.group(1).title() + ' ' + m.group(2).title() ... >>> print p.sub(func, s) -- 使用sub调用func 函数 I Say, Hello World!
subn(pattern, repl, string, count=0, flags=0)
Return a 2-tuple containing (new_string, number).
new_string is the string obtained by replacing the leftmost non-overlapping occurrences of the pattern in the source string by the replacement repl. number is the number of substitutions that were made. repl can be either a string or a callable; if a string, backslash escapes in it are processed. If it is a callable, it's passed the match object and must return a replacement string to be used.
解释: 此函数的參数与 sub 函数全然一致,仅仅只是其返回值是包含两个元素的元组:(new_string, number);第一个返回值 new_string 为sub 函数的结果,第二个 number 为匹配及替换的次数。
样例我们能够直接在上面 sub 的样例上測试:
>>> import re >>> p = re.compile(r'(\w+) (\w+)') >>> s = 'i say, hello world!' >>> print p.subn(r'\2 \1', s) ('say i, world hello!', 2) >>> def func(m): ... return m.group(1).title() + ' ' + m.group(2).title() ... >>> print p.subn(func, s) ('I Say, Hello World!', 2)
findall(pattern, string, flags=0)
Return a list of all non-overlapping matches in the string.
If one or more groups are present in the pattern, return a list of groups; this will be a list of tuples if the pattern has more than one group.
Empty matches are included in the result.
解释: 搜索string,以列表形式返回所有能匹配的子串。返回值格式为一个列表
>>> re.findall(r'\d','one1two2three3four4') ['1', '2', '3', '4'] >>> re.findall(r'one','one1two2three3four4') ['one'] >>> re.findall(r'one2','one1two2three3four4') []
finditer(pattern, string, flags=0)
Return an iterator over all non-overlapping matches in the string. For each match, the iterator returns a match object.
Empty matches are included in the result.
>>> re.finditer(r'\d','one1two2three3four4').group() -- python的迭代器并不能像findall那样直接打印全部匹配 Traceback (most recent call last): File "<stdin>", line 1, in <module> AttributeError: 'callable-iterator' object has no attribute 'group' <callable-iterator object at 0xb744496c> -- 迭代器仅仅能一个接着一个的打印 >>> for m in re.finditer(r'\d','one1two2three3four4'): ... print m.group() ... 1 2 3 4
Clear the regular expression cache
>>> p = re.compile(r'(\w+) (\w+)') >>> p.search("hello world 123 zhou write").group() -- 匹配字符串中的两个单词正常 'hello world' >>> p = re.purge() -- 清空RE缓存 >>> p.search("hello world 123 zhou write").group() -- 再次使用search,报错!此时p 变成了'NoneType'对象,而不是Pattern对象 Traceback (most recent call last): File "<stdin>", line 1, in <module> AttributeError: 'NoneType' object has no attribute 'search'
split(pattern, string, maxsplit=0, flags=0)解释:依照可以匹配的子串将string切割后返回列表。maxsplit用于指定最大切割次数,不指定使用默认值0将所有切割。如设定好切割次数后,最后未切割部分将作为列表中的一个元素返回。
>>> re.split(r'\d','one1two2three3four4') ['one', 'two', 'three', 'four', ''] >>> re.split(r'\d','one1two2three3four4',2) ['one', 'two', 'three3four4'] >>> re.split(r'\d','one1two2three3four4',0) ['one', 'two', 'three', 'four', '']
对于一个正則表達式,可能过一段时间你就须要又一次分析这个表达式的实际意思,由于它本身就是由多个元字符组成,可能你还须要比較着上面的元字符的意思再分析你的表达式文本,那么有什么好的方法可以解决问题?比方说以下这个表达式:(dive into python ,P129)
pattern = "^M{0,3}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,3})$"
>>> import re
>>> pattern = """
# 本正則表達式为匹配一个罗马数字,而罗马数字中MDCCCLXXXVIII表示1888,所以须要找到其规律写成对应的匹配文本,使用该表达式匹配通过的为罗马数字,否则不是!
# 罗马数字中: I = 1; V = 5; X = 10; L = 50; C = 100; D = 500; M = 1000
# 罗马数字的规则:
# 1. 字符是叠加的,如I表示1,而II表示2,III表示3
# 2. 含十字符(I,X,C,M)至多能够反复三次,而应该利用下一个最大的含五字符进行减操作,如:对于4不能使用IIII而应该是IV,40不是XXXX而是XL,41为XLI,而44为XLIV
# 3. 相同,对于9须要使用下一个十字符减操作,如9表示为IX,90为XC,900为CM
# 4. 含五字符(V,L,D)不能反复,如:10不应该表示为VV而是X
# 5. 罗马数字从高位到低位书写,从左到右阅读,因此不同顺序的字符意义不同,如,DC为600而CD为400.CI 表示101 而IC 为不合法的罗马数字
^ # 字符串开头
M{0,3} # 千位,支持0到3个M
(CM|CD|D?C{0,3}) # 百位,900(CM),400(CD),0~300(0~3个C),500~800(D后接0~3个C)
(XC|XL|L?X{0,3}) # 十位,90(XC),40(XL),0~30(0~3个X),50~80(L后接0~3个X)
(IX|IV|V?I{0,3}) # 个位,9(IX),4(IV),0~3(0~3个I),5~8(V后接0~3个I)
$ # 字符串结尾
>>> re.search(pattern,"M",re.VERBOSE) -- 匹配M成功。注:使用松散正則表達式必须加入re.VERBOSE(或者re.X)作为其第三个參数flag。
<_sre.SRE_Match object at 0xb7557e30>
>>> re.match(pattern,"M",re.VERBOSE).group() -- 打印匹配文本
>>> re.match(pattern,"MMMDD",re.VERBOSE).group() -- 五字符D反复2次,不符合罗马数字规范,不匹配
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'
>>> re.match(pattern,"MMMDCCCLXXXVIII",re.VERBOSE).group() -- MMMDCCCLXXXVIII匹配成功
