01 re 库的应用

re 库是 Python 中处理正则表达式的标准库，本篇博客介绍 re 库的同时，会简单介绍一下正则表达式语法，如果想深入学习正则表达式，还需要好好下一番功夫。

1.1 正则表达式语法

正则表达式语法由字符和操作符构成，初期阶段掌握下述这些内容即可。

image.png

以上表示仅仅为正则表达最基础部分内容，如果希望深入研究正则表达式，建议寻找更加全面的资料进行学习，本文只做药引。

1.2 re 库基本用法

re 库主要函数如下：

基础函数：compile；
功能函数：search、match、findall、split、finditer、sub。

在正式学习之前，先了解一下原生字符串。

在 Python 中，表示原生字符串，需要在字符串前面加上 r。

例如 my_str = 'i'am xiangpica' 在程序中会直接报错，如果希望字符串中 ' 可以正常运行，需要加上转移字符 \，修改为 my_str = 'i'am xiangpica'。

但这样结合上文正则表达式中的操作符，就会出现问题，因为 \ 在正则表达式中是有真实含义的，如果你使用 re 库去匹配字符串中的 \，那需要使用 4 个反斜杠，为了避免这种情况出现，引入了原生字符串概念。

# 不使用原生字符串的正则表达式  "\\\\"
# 使用原生字符串的正则表达式 r"\\"

在后文会有实际的应用。

接下来在学习一个案例，例如下述代码：

my_str='C:\number'
print(my_str)

C:
umber

本段代码的输出效果如下，\n 被解析成了换行，如果想要屏蔽这种现象，使用 r 即可：

my_str=r'C:\number'
print(my_str)

输出 C:\number。

02 re 库相关函数说明

2.1 re.search 函数

该函数用于，在字符串中搜索正则表达式匹配到的第一个位置的值，返回 match 对象。

函数原型如下：

re.search(pattern,string,flags=0)

需求：在字符串梦想橡皮擦 good good 中匹配橡皮擦。

import re
my_str='梦想橡皮擦 good good'
pattern = r'橡皮擦'
ret = re.search(pattern,my_str)
print(ret)

返回结果：。

search 函数的第三个参数 flags 表示正则表达式使用时的控制标记。

re.I，re.IGNORECASE：忽略正则表达式的大小写；
re.M，re.MULTILINE：正则表达式中的 ^ 操作符能够将给定字符串的每行当做匹配的开始；
re.S，re.DOTALL：正则表达式中的 . 操作符能够匹配所有字符。

最后将匹配到的字符串进行输出，使用下述代码即可实现。

import re
my_str = '梦想橡皮擦 good good'
pattern = r'橡皮擦'
ret = re.search(pattern, my_str)
if ret:
    print(ret.group(0))

2.2 re.match 函数

该函数用于在目标字符串开始位置去匹配正则表达式，返回 match 对象，未匹配成功返回 None，函数原型如下：

re.match(pattern,string,flags=0)

一定要注意是目标字符串开始位置。

import re
my_str = '梦想橡皮擦 good good'
pattern = r'梦' # 匹配到数据
pattern = r'good' # 匹配不到数据
ret = re.match(pattern, my_str)
if ret:
    print(ret.group(0))

re.match 和 re.search 方法都是一次最多返回一个匹配对象，如果希望返回多个值，可以通过在 pattern 里加括号构造匹配组返回多个字符串。

2.3 re.findall 函数

该函数用于搜索字符串，以列表格式返回全部匹配到的字符串，函数原型如下：

re.findall(pattern,string,flags=0)

测试代码如下：

import re
my_str = '梦想橡皮擦 good good'
pattern = r'good'
ret = re.findall(pattern, my_str)
print(ret)

2.4 re.split 函数

该函数将一个字符串按照正则表达式匹配结果进行分割，返回一个列表。

函数原型如下：

re.split(pattern, string, maxsplit=0, flags=0)

re.split 函数进行分割的时候，如果正则表达式匹配到的字符恰好在字符串开头或者结尾，返回分割后的字符串列表首尾都多了空格，需要手动去除，例如下述代码：

import re
my_str = '1梦想橡皮擦1good1good1'
pattern = r'\d'
ret = re.split(pattern, my_str)
print(ret)

运行结果：

['', '梦想橡皮擦', 'good', 'good', '']

切换为中间的内容，则能正确的分割字符串。

import re
my_str = '1梦想橡皮擦1good1good1'
pattern = r'good'
ret = re.split(pattern, my_str)
print(ret)

如果在 pattern 中捕获到括号，那括号中匹配到的结果也会在返回的列表中。

import re
my_str = '1梦想橡皮擦1good1good1'
pattern = r'(good)'
ret = re.split(pattern, my_str)
print(ret)

运行结果，你可以对比带括号和不带括号的区别进行学习：

['1梦想橡皮擦1', 'good', '1', 'good', '1']

maxsplit 参数表示最多进行分割次数，剩下的字符全部返回到列表的最后一个元素，例如设置匹配 1 次，得到的结果是 ['1梦想橡皮擦1', '1good1']。

13.2.5 re.finditer 函数

搜索字符串，并返回一个匹配结果的迭代器，每个迭代元素都是 match 对象。函数原型如下：

re.finditer(pattern,string,flags=0)

测试代码如下：

import re
my_str = '1梦想橡皮擦1good1good1'
pattern = r'good'
# ret = re.split(pattern, my_str,maxsplit=1)
ret =re.finditer(pattern, my_str)
print(ret)

2.6 re.sub 函数

在一个字符串中替换被正则表达式匹配到的字符串，返回替换后的字符串，函数原型如下：

re.sub(pattern,repl,string,count=0,flags=0)

其中 repl 参数是替换匹配字符串的字符串，count 参数是匹配的最大替换次数。

import re
my_str = '1梦想橡皮擦1good1good1'
pattern = r'good'
ret = re.sub(pattern, "nice", my_str)
print(ret)

运行之后，得到替换之后的字符串：

1梦想橡皮擦1nice1nice1

2.7 re 库其它函数

其它比较常见的函数有：re.fullmatch()，re.subn()，re.escape()，更多内容可以查阅官方文档，获取一手资料。

03 re 库的面向对象写法

上文都是函数式写法，re 库可以采用面向对象的写法，将正则表达式进行编译之后，多次操作。核心用到的函数是 re.compile。

该函数原型如下：

regex = re.compile(pattern,flags=0)

其中 pattern 是正则表达式字符串或者原生字符串。

测试代码如下：

import re
my_str = '1梦想橡皮擦1good1good1'
# 正则对象
regex = re.compile(pattern = r'good')
ret = regex.sub("nice", my_str)
print(ret)

上述代码将正则表达式编译为一个正则对象，后面在 regex.sub 函数中就不需要在写正则表达式了，使用时，只需要将编译好的 regex 对象替换所有的 re 对象，再去调用对应的方法。

04 re 库的 match 对象

使用 re 库匹配字符串之后，会返回 match 对象，该对象具备以下属性和方法。

4.1 match 对象的属性

.string：待匹配的文本；
.re：匹配时使用的 pattern 对象；
.pos：正则表达式搜索文本的开始位置；
.endpos：正则表达式搜索文本的结束位置。

测试代码如下：

import re
my_str = '1梦想橡皮擦1good1good1'
regex = re.compile(pattern = r'g\w+d')
ret = regex.search(my_str)
print(ret)
print(ret.string)
print(ret.re)
print(ret.pos)
print(ret.endpos)

结果输出：


1梦想橡皮擦1good1good1
re.compile('g\\w+d')

4.2 match 对象的方法

.group(0)：获取匹配后的字符串；
.start()：匹配字符串在原始字符串的开始位置；
.end()：匹配字符串在原始字符串的结尾位置；
.span()：返回(.start(),.end())

因为内容比较简单，具体代码不再展示。

image.png

05 这篇文章的总结

本篇文章学习了 Python 中 re 库的知识点，重点在 re 库中的各个函数，对正则表达式未做过多说明，希望对你有所帮助。

作者：梦想橡皮擦
原文链接：https://blog.csdn.net/hihell/article/details/114648366

Python内置模块之re库，一文搞定正则表达式的初阶用法！

01 re 库的应用

1.1 正则表达式语法

1.2 re 库基本用法

02 re 库相关函数说明

2.1 re.search 函数

2.2 re.match 函数

2.3 re.findall 函数

2.4 re.split 函数

2.6 re.sub 函数

2.7 re 库其它函数

03 re 库的面向对象写法

04 re 库的 match 对象

4.1 match 对象的属性

4.2 match 对象的方法

05 这篇文章的总结

你可能感兴趣的:(Python内置模块之re库，一文搞定正则表达式的初阶用法！)