正则表达式(RE)是一种小型的、高度专业化的编程语言,在python中,它内嵌在python中,并通过re模块实现。
字符匹配:
普通字符,大多数字母和字符一般都会和自身匹配,比如正则表达式test会和字符串"test"完全匹配
元字符, . ^ $ + ? {} [] \ | ()
.,表任意字符
*?, +?, ?? 符合条件的情况下,匹配的尽可能少//限制*,+,?匹配的贪婪性
[],常用来指定一个字符集:[abc]; [a-z];元字符在字符集中不起作用:[akm$];补集匹配不在区间范围内的字符:[^5]
^,匹配行首
$,匹配行尾
#!/usr/bin/python import re s = r"abc" re.findall(s,"abcsssssabcss")//返回['abc','abc']
\,转义字符,用于取消所有的元字符
/d [0-9]
/D 非 /d,任何十进制数
/s 表示空白字符,[\t\n\r\f\v]
/S 非空白字符,[^\t\n\r\f\v]
/w [a-zA-Z0-9_],任何字母数字
/W 非 /w
*,表示匹配0次或更多次
+,表示匹配一次或更多次
?,表示匹配零次或一次,即可选
{m,n},m和n为十进制数,表示至少重复m次,至多重复n次。忽略m则下界为0,忽略上界为无穷大
{0,}等同*;{1,}等同+;{0,1}等同?。{m} 表示重复m次
dir(模块名) 列出该模块的方法和属性。再利用help(方法名或属性)查看具体含义。
一、RE的方法:
re.match 尝试从字符串的开始位置匹配一个模式,没有匹配到返回None,成功匹配返回一个MatchObject,使用group()方法将MathOject转换为匹配的字符串。如:下面的例子匹配第一个单词。
#!/usr/bin/python import re text = "JGood is a handsome boy, he is cool, clever, and so on..." m = re.match(r"(\w+)\s", text) if m: print m.group(0), '\n', m.group(1) else: print 'not match'
re.match的函数原型为:re.match(pattern, string, flags)
第一个参数是正则表达式,这里为"(\w+)\s",如果匹配成功,则返回一个Match,否则返回一个None;
第二个参数表示要匹配的字符串;
第三个参数是标致位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
re.search函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回,如果字符串没有匹配,则返回None。
import re text = "JGood is a handsome boy, he is cool, clever, and so on..." m = re.search(r'\shan(ds)ome\s', text) if m: print m.group(0), m.group(1) else: print 'not search'
re.search的函数原型为: re.search(pattern, string, flags)
每个参数的含意与re.match一样。
re.match与re.search的区别:re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。
re.sub用于替换字符串中的匹配项。下面一个例子将字符串中的空格 ' ' 替换成 '-' :
import re text = "JGood is a handsome boy, he is cool, clever, and so on..." print re.sub(r'\s+', '-', text)
re.sub的函数原型为:re.sub(pattern, repl, string, count)
其中第二个函数是替换后的字符串;本例中为'-'
第四个参数指替换个数。默认为0,表示每个匹配项都替换。
re.sub还允许使用函数对匹配项的替换进行复杂的处理。如:re.sub(r'\s', lambda m: '[' + m.group(0) + ']', text, 0);将字符串中的空格' '替换为'[ ]'。
可以使用re.split来分割字符串,如:re.split(r'\s+', text);将字符串按空格分割成一个单词列表。
re.findall可以获取字符串中所有匹配的字符串。如:re.findall(r'\w*oo\w*', text);获取字符串中,包含'oo'的所有单词。
re.finditer可以获取字符串中所有匹配的字符串,并将匹配结果
一个迭代器
作为返回。显示匹配使用iter.next()
compile(pattern, [flags])
可以把正则表达式编译成一个正则表达式对象。可以把那些经常使用的正则表达式编译成正则表达式对象,这样可以提高一定的效率。
根据正则表达式字符串 pattern 和可选的flags 生成正则表达式 对象,其中flags有下面的定义:
I 表示大小写忽略
其中S比较常用, 应用形式如下:
import reimport re text = "JGood is a handsome boy, he is cool, clever, and so on..." regex = re.compile(r'\w*oo\w*') print regex.findall(text) #查找所有包含'oo'的单词 print regex.sub(lambda m: '[' + m.group(0) + ']', text) #将字符串中含有'oo'的单词用[]括起来。
二、正则表达式对象 (Regular Expression Objects )
产生方式:通过 re.compile(pattern,[flags])回
match( string[, pos[, endpos]]) ;返回string[pos,endpos]匹配
pattern的MatchObject(见三)
split( string[, maxsplit = 0])
findall( string[, pos[, endpos]])
sub( repl, string[, count = 0])
这几个函数和re模块内的相同,只不过是调用形式有点差别
re.几个函数和 正则表达式对象的几个函数,功能相同,但同一程序如果
多次用的这些函数功能,正则表达式对象的几个函数效率高些
三、matchobject
通过 re.match(……) 和 re.compile(……).match返回
该对象有如下方法和属性:
方法:
group( [group1, ...])
groups( [default])
groupdict( [default])
start( [group])
end( [group])
说明这几个函数的最好方法,就是举个例子
matchObj = re.compile(r"(?P<int>/d+)/.(/d*)") m = matchObj.match('3.14sss') #m = re.match(r"(?P<int>/d+)/.(/d*)", '3.14sss') print m.group() print m.group(0) print m.group(1) print m.group(2) print m.group(1,2) print m.group(0,1,2) print m.groups() print m.groupdict() print m.start(2) print m.string