第十三章：正则表达式

正则表达式

正则表达式通常都包含反斜杠'\'，所以用r'\t'来来表示正则表达式字符串，r'a string'是强制不进行转义，类似c#的@"a string"。

模式意义

^ 匹配字符串的开头

$ 匹配字符串的末尾

. 匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配换行符

[...] 用来表示一组字符，单独列出：[abc]匹配'a','b',或'c'

[^...] 匹配不在[]中的字符；

re* 匹配0个或多个的表达式；

re+ 匹配1个或多个的表达式；

re？匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式；

re{n,} 精确匹配n个前面表达式

re{n,m} 匹配n到m次由前面的正则表达式定义的片段，贪婪方式；

a|b 匹配a或b

(re) 匹配括号内的表达式；

(?imx) 正则表达式包含三种可选标志：i，m或x。只影响括号内的区域；

(?-imx) 正则表达式关闭i，m，x可选标志。只影响括号内的区域；

(?#...) 注释；

\w 匹配字母数字，等价于[A-Za-z0-9]

\W 匹配非字母数字，等价于[^A-Za-z0-9]

\s 匹配任意空白字符，等价于[\t\n\r\f]；

\S 匹配任意非空白字符；

\d 匹配任意数字，等价于[0-9]

\D 匹配任意非数字

\A 匹配字符串开始

\Z 匹配字符串结束，如果存在换行，只匹配到换行前的结束字符串

\z 匹配字符串结束

\G 匹配最后匹配完成的位置；

\b 匹配一个单词边界，eg。'er\b'可以匹配'never'的‘er’，但是不能匹配'verb'的‘er’；

\B 匹配非单词边界，意义与\b相反；

\n,\t等匹配换行符，制表符等

\1...\9 匹配第n个分组的内容；

\10 匹配第10个分组的内容，如果它匹配，否则值的是八进制字符吗的表达式

Python正则表达式模块

python正则表达式模块为re，import re，即可进行正则操作。

re.match函数

re.match(pattern, string, flag=0)

pattern 正则表达式

string 要匹配的字符串

flag 标志位，用于控制正则表达式的匹配方式。如：re.I匹配大小写不敏感；re.M多行匹配。

re.match函数匹配成功返回匹配对象，否则返回None。

import re

line = "Cats are smarter than dogs"

matchObj = re.match(r'(.*) are (.*?) .*', line, re.M|re.I)

print(matchObj.group())

print(matchObj.group(0))

print(matchObj.group(1))

print(matchObj.group(2))

输出：

Cats are smarter than dogs

Cats are smarter than dogs

Cats

smarter

正则表达式对象

re.RegexObject

re.complie()返回RegexObject对象。

re.MatchObject

它的几个方法：

start()返回匹配开始的位置

end()返回匹配结束的位置

span()返回一个元组包含匹配（开始，结束）的位置

re.search方法

re.search(pattern, string, flag=0)

search和match的区别：

match匹配字符串的开始，如果开始不符合正则表达式，则匹配失败。search匹配整个字符串，知道找到一个匹配。

import re

line = "Cats are smarter than dogs"

matchobj1 = re.match(r'dogs', line, re.M|re.I)

if matchobj1:

print("match --> matchobj.group():", matchobj1.group())

else:

print("no match")

matchObj2 = re.search(r'dogs', line, re.M|re.I)

if matchObj2:

print("search --> matchobj2.group():", matchObj2.group())

else:

print("No match!!")

re.sub(pattern, repl, string, count=0)

pattern: 正则表达式

repl：替换的字符串，也可以是一个函数

string 要被查找替换的原始字符串

模式匹配后替换的最大次数，默认为0表示替换所有的匹配。

phone ="2004-959-559 # 这是一个电话号码"

num = re.sub(r'#.*$', "", phone)

print(num)

num2 = re.sub(r'\D', "", phone)

print(num2)

def double(matched):

value =int(matched.group('value'))

return str(value*2)

s ="ss12de4gh78"

print(re.sub(r'(?P\d+)', double, s))

re.finditer

re.finditer(pattern, string, flags=0)

it = re.finditer(r'\d+', "123a45b67c78def9")

for matchin it:

print(match.group())

第十三章：正则表达式

你可能感兴趣的:(第十三章：正则表达式)