Python3正则匹配re.split,re.serach,re.sub,re.finditer及re.findall函数用法详解

re.split re.finditer re.findall re.sub,re.search

@(python3)

官方 re 模块说明文档     https://www.ibm.com/developerworks/cn/opensource/os-cn-pythonre/

re.compile() 函数

编译正则表达式模式,返回一个对象。可以把常用的正则表达式编译成正则表达式对象,方便后续调用及提高效率。

re 模块最离不开的就是 re.compile 函数。其他函数都依赖于 compile 创建的 正则表达式对象

re.compile(pattern, flags=0)

  • pattern 指定编译时的表达式字符串
  • flags 编译标志位,控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等

flags 标志位参数

re.I(re.IGNORECASE)
使匹配对大小写不敏感

re.L(re.LOCAL)
做本地化识别(locale-aware)匹配

re.M(re.MULTILINE)
多行匹配,影响 ^ 和 $

re.S(re.DOTALL)
使 . 匹配包括换行在内的所有字符

re.U(re.UNICODE)
根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.

re.X(re.VERBOSE)
该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

示例:

1

2

3

4

5

6

7

import re

content = 'Citizen wang , always fall in love with neighbour,WANG'

rr = re.compile(r'wan\w', re.I) # 不区分大小写

print(type(rr))

a = rr.findall(content)

print(type(a))

print(a)

findall 返回的是一个 list 对象



['wang', 'WANG']

 re.S的作用

import re
a = """sdfkhellolsdlfsdfiooefo:
877898989worldafdsf"""
b = re.findall('hello(.*?)world',a)
c = re.findall('hello(.*?)world',a,re.S)
print ('b is ' , b)
print ('c is ' , c)
 
# 输出结果:
# b is  []
# c is  ['lsdlfsdfiooefo:\n877898989']

 

re.split 函数

按照指定的 pattern 格式,分割 string 字符串,返回一个分割后的列表。

re.split(pattern, string, maxsplit=0, flags=0)

  • pattern compile 生成的正则表达式对象,或者自定义也可
  • string 要匹配的字符串
  • maxsplit 指定最大分割次数,不指定将全部分割

?

1

2

3

4

5

6

7

8

9

import re

str = 'say hello world! hello python'

str_nm = 'one1two2three3four4'

pattern = re.compile(r'(?P\s)') # 创建一个匹配空格的正则表达式对象

pattern_nm = re.compile(r'(?P\d+)') # 创建一个匹配空格的正则表达式对象

match = re.split(pattern, str)

match_nm = re.split(pattern_nm, str_nm, maxsplit=1)

print(match)

print(match_nm)

结果:

['say', ' ', 'hello', ' ', 'world!', ' ', 'hello', ' ', 'python']
['one', '1', 'two2three3four4']

re.findall() 方法

返回一个包含所有匹配到的字符串的列表。

  • pattern 匹配模式,由 re.compile 获得
  • string 需要匹配的字符串

?

1

2

3

4

5

import re

str = 'say hello world! hello python'

pattern = re.compile(r'(?Ph\w)(?Pl+)(?Po\s)') # 分组,0 组是整个 world!, 1组 or,2组 ld!

match = re.findall(pattern, str)

print(match)

结果

[('he', 'll', 'o '), ('he', 'll', 'o ')]

re.sub

  • 将字符串中的匹配项替换为其他
  • 函数原型
def sub(pattern, repl, string, count=0, flags=0)
  • 1
  • 参数说明
    • pattern:正则表达式,匹配被替换的项
    • repl:替换为该项
    • string:要匹配的字符串
    • count:替换的个数,默认为0时表示全部替换

re.finditer 、re.findall

re.finditer(pattern, string[, flags=0])
re.findall(pattern, string[, flags=0])

  • pattern compile 生成的正则表达式对象,或者自定义也可
  • string 要匹配的字符串

findall 返回一个包含所有匹配到的字符的列表,列表类以元组的形式存在。

finditer 返回一个可迭代对象。

示例一:

?

1

2

3

4

5

6

7

8

9

10

11

pattern = re.compile(r'\d+@\w+.com') #通过 re.compile 获得一个正则表达式对象

result_finditer = re.finditer(pattern, content)

print(type(result_finditer))

print(result_finditer) # finditer 得到的结果是个可迭代对象

for i in result_finditer: # i 本身也是可迭代对象,所以下面要使用 i.group()

 print(i.group())

result_findall = re.findall(pattern, content)

print(type(result_findall)) # findall 得到的是一个列表

print(result_findall)

for p in result_finditer:

 print(p)

输出结果:



[email protected]
[email protected]
[email protected]

['[email protected]', '[email protected]', '[email protected]']

由结果可知:finditer 得到的是可迭代对象,finfdall 得到的是一个列表。

示例二:

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

import re

content = '''email:[email protected]

email:[email protected]

email:[email protected]

'''

pattern = re.compile(r'(?P\d+)@(?P\w+).com')

result_finditer = re.finditer(pattern, content)

print(type(result_finditer))

print(result_finditer)

iter_dict = {} # 把最后得到的结果

for i in result_finditer:

 print('邮箱号码是:', i.group(1),'邮箱类型是:',i.group(2))

 number = i.group(1)

 mail_type = i.group(2)

 iter_dict.setdefault(number, mail_type) # 使用 dict.setdefault 创建了一个字典

print(iter_dict)

print('+++++++++++++++++++++++++++++++')

result_findall = re.findall(pattern, content)

print(result_findall)

print(type(result_findall))

输出结果:



邮箱号码是: 123456 邮箱类型是: 163
邮箱号码是: 234567 邮箱类型是: 163
邮箱号码是: 345678 邮箱类型是: 163
{'123456': '163', '234567': '163', '345678': '163'}
+++++++++++++++++++++++++++++++
[('123456', '163'), ('234567', '163'), ('345678', '163')]

finditer 得到的可迭代对象 i,也可以使用 lastindex,lastgroup 方法。

print('lastgroup 最后一个被捕获的分组的名字',i.lastgroup)

findall 当正则没有分组,返回就是正则匹配。

?

1

2

re.findall(r"\d+@\w+.com", content)

['[email protected]', '[email protected]', '[email protected]']

有一个分组返回的是分组的匹配

?

1

2

re.findall(r"(\d+)@\w+.com", content)

['2345678', '2345678', '345678']

多个分组时,将结果作为 元组,一并存入到 列表中。

?

1

2

re.findall(r"(\d+)@(\w+).com", content)

[('2345678', '163'), ('2345678', '163'), ('345678', '163')]

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg

你可能感兴趣的:(Python)