整理自此博客与菜鸟教程

re

01 字符含义

普通字符和11个元字符

1.png

python中默认采用的是贪婪匹配，会输出最长的子串，添加？可以变成非贪婪匹配，输出最短子串

a = re.match('<(.*)>','<11><22><33>').group()
print(a)
b = re.match('<(.*?)>','<11><22><33>').group()
print(b)
c=re.match('A.*C','AbCbbbCbbbC').group()
print(c)
d=re.match('A.*?C','AbCbbbCbbbC').group()
print(d)


'''
<11><22><33>
<11>
AbCbbbCbbbC
AbC
'''

预定义字符集（可以写在字符集[...]中）

2.png

特殊分组用法

3.png

02 常用函数

compile(pattern,flags=0)
编译正则表达式模式，返回一个对象的模式。（可以把常用的正则表达式编译成正则表达式对象，提高效率）

pattern: 编译时用的表达式字符串。

flags 编译标志位，用于修改正则表达式的匹配方式，如：是否区分大小写，多行匹配等。常用的flags有：

4.png

match(pattern, string,flags=0)
尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，就返回None
span表示只返回结果中的span元组，表示起始位置和结束位置，从0开始计数

import re

# match用于匹配字符串是否在开头的位置
print(re.match('www','www.baidu.com').span())  # 只返回位置元组信息
print(re.match('www$','www.baidu.com'))  # $表示完全匹配
print(re.match('baidu','www.baidu.com'))  #不在起始位置，返回None


'''
(0, 3)
None
None
'''

search(pattern, string,flags=0)
re.search函数会在整个字符串内查找模式匹配,只要找到第一个匹配然后返回，如果字符串没有匹配，则返回None。
```
print(re.match('baidu','www.baidu.com'))
print(re.search('baidu','www.baidu.com').span())
print(re.search('bili+','www.bilibili.com'))

'''
None
(4, 9)

'''
```
注：match和search一旦匹配成功，就是一个match object对象，而match object对象有以下方法：
- group() 返回被 RE 匹配的字符串
- start() 返回匹配开始的位置
- end() 返回匹配结束的位置
- span() 返回一个元组包含匹配 (开始,结束) 的位置
- group() 返回re整体匹配的字符串，可以一次输入多个组号，对应组号匹配的字符串

findall(pattern, string.flags=0)
可以获取字符串中所有匹配的字符串，返回一个列表

print(re.search('\w*oo\w*','cool,good,wow'))
print(re.findall('\w*oo\w*','cool,good,wow'))

'''

['cool', 'good']
'''

finditer(pattern, string, flags=0)
搜索string，返回一个顺序访问每一个匹配结果（Match对象）的迭代器。找到 RE 匹配的所有子串，并把它们作为一个迭代器返回。
```
iter=re.finditer('\d+','10,9,8,7...')
for i in iter:
    print(i)
    print(i.group())
    print(i.span())
    
'''

10
(0, 2)

9
(3, 4)

8
(5, 6)

7
(7, 8)
'''
```
split(pattern, string[, maxsplit])

按照能够匹配的子串将string分割后返回列表。

可以使用re.split来分割字符串，如：re.split(r'\s+', text)；将字符串按空格分割成一个单词列表。
maxsplit用于指定最大分割次数，不指定将全部分割。
```
print(re.split('\s','hello my friend!'))


#['hello', 'my', 'friend!']
```
sub(pattern, repl, string, count)
使用repl替换string中每一个匹配的子串后返回替换后的字符串。

count表示最大替换个数，默认为0 ，每个匹配项都替换
```
print(re.sub('\d','0','123456789'))
print(re.sub('\d','0','123456789',3))

'''
000000000
000456789
'''
```
subn(pattern, repl, string, count=0, flags=0)
返回替换后字符串和替换次数的元组
```
print(re.sub('\d','0','123456789'))      
print(re.subn('\d','0','123456789'))


'''
000000000
('000000000', 9)
'''
```

Python re 正则表达式的基本使用

re

01 字符含义

02 常用函数

你可能感兴趣的:(Python re 正则表达式的基本使用)