正则表达式的目的
正则的使用
正则的优缺点:
re模块就是python中自带的正则模块,可以用于从文本中匹配需要的文本内容。这个是python的标准库,无需自己安装。
想看更多详情请关注:
官方文档
- 从字符串头查找匹配项;
- 接收一个正则表达式和字符串,从字符串的第一个字符开始匹配,并返回发现的第一个能够匹配的内容;
- 如果字符串从开头就不符合正则表达式,则匹配失败,re.match返回None.
ret = re.match(r"ame","psg.lgd.ame maybe chalice fy xnova")
print(ret)
'''
输出结果为 None
因为match匹配的话要求字符串从开头就要是预备匹配的字符
'''
ret = re.match(r"ame","ame maybe chalice fy xnova")
print(ret)
'''
输出结果为:
span : 是匹配到的字符串索引值的区域 下标索引是 0,1,2
如果想要输出匹配到的字符串则是下面语句
'''
print(ret.group())
'''
输出结果为 ame
group 是由于正则表达式可以分拆为多个匹配到的子组
0 是group的默认参数,表示匹配的整个串,n表示第n个分组
然后还有一个和 group 对应的 groups 函数,表示输出从1到所含的小组号
'''
print(ret.groups())
"""
这里输出的结果为: ()
因为match只会匹配到一个需要的文本内容就会退出,所以下标值只有0,没有超过1的内容
"""
此外 match 还有 start() 和 end() 函数,其返回的结果就是匹配到字符串的起始下标和结束下标。
- 查找匹配项;
- 接收一个正则表达式和字符串,并返回匹配到的第一个值;
- 如果整个字符串都没有能够匹配到的内容,re.search返回None.
'''
search 的用法与 match 基本一致
只不过需要注意的是
match 是必须从字符串首个字符开始匹配
search 是从前到后匹配字符串中第一个能匹配上的字符段
'''
ret = re.search(r"ame","psg.lgd.ame maybe chalice fy xnova")
print(ret)
print(ret.group())
"""
输出内容为:
ame
"""
- 接收两个参数,第一个参数是正则表达式,第二个是字符串,会查询字符串内所有能匹配上的内容,并返回一个列表。
ret = re.findall(r"python", "Python3 python3 mpython fython typython")
print(ret)
"""
输出结果为: ['python', 'python', 'python']
findall 如这个函数的名字,会找到所有能够匹配上的字符串,不管目标内容处于何种位置。
并且结果是用列表对其进行表示的,这个方法比较常用
"""
- 接收三个参数,(‘匹配正则’,‘替换内容’,‘string’);
- 会将 string 中匹配的内容替换成你设置好的替换内容。
msg = "I'm learning python!"
print(re.sub(r"learn", "LEARN", msg))
# 输出内容:I'm LEARNing python!
- 正则匹配区分大小写
import re
ret = re.findall(r'Ame',"ame amexxxx Axx Ame")
print(ret)
# 输出内容 ['Ame']
ret = re.findall(r'[Aa]me',"ame amexxxx Axx Ame")
print(ret)
# 输出内容 ['ame','ame','Ame']
- 匹配所有字母: [a-zA-Z]
- 匹配所有字母和数字: [a-zA-Z0-9]
- 匹配 cat 或者 dog
msg = "It's raining cats and dogs"
ret = re.search("cat|dog", msg)
print(ret.group())
# 输出结果 cat
ret = re.findall("cat|dog", msg)
print(ret)
# 输出结果 ['cat', 'dog']
- 匹配 a + 非小写字母 字符
ret = re.findall("a[^a-z]", "abda13kal23jla9")
print(ret)
# 输出结果 ['a1', 'a9']
- "." 表示出了\n 之外的任意字符 表示的是一定要有一个字符
ret = re.findall("p.thon", "python pathon ppthon p-thon Python pthon")
print(ret)
# 输出结果 ['python', 'pathon', 'ppthon', 'p-thon']
开始与结束:^, $
- 匹配以python开头:^python
ret = re.findall(r"^python", "python3# python python")
print(ret)
# 输出结果为 python
- 匹配以python结尾:python$
ret = re.findall(r"python$", "python3# python python")
print(ret)
# 输出结果为 python
补充一个通配符:"{n,m}"
匹配指定的字符组出现n次到m次
ret = re.findall("p{2,4}", "ppppythonppppp")
print(ret)
# 输出结果为 ['pppp', 'pppp']
这是正则匹配中比较重要的一个部分
首先解释什么是贪婪模式与非贪婪模式
- 演示一遍
msg = "sanchuang hello world 123 tongle 123"
ret = re.findall("s.*123", msg)
print(ret)
"""
这一块的输出内容为 ['sanchuang hello world 123 tongle 123']
它默认会去找到最长的一个字符串进行输出,这就是贪婪模式(默认就是贪婪模式)
"""
ret = re.findall("s.*?123", msg)
print(ret)
"""
这一块的输出内容为 ['sanchuang hello world 123']
只要匹配到相应的内容就会退出,这就是非贪婪模式
"""
ret = re.findall("p{2,4}", "ppppythonppppp")
print(ret)
"""
这一块的输出内容为 ['pppp', 'pppp']
这里匹配的内容是四个p 因为是默认的贪婪模式匹配,它会尽量匹配到多的字符串内容,所以能匹配 4 个 p 它就不会匹配 3 个 p
"""
ret = re.findall("p{2,4}?", "ppppythonppppp")
print(ret)
"""
这一块的输出内容为 ['pp', 'pp', 'pp', 'pp']
因为 ? 是非贪婪模式,当它匹配到两次 p 已经满足要求了,就会立马把结果输出,再进行下一次的内容匹配
"""
正则表达式的大部分重要内容到这里就结束了;
如果想了解更多欢迎留言。
也欢迎来访 三创 一起学习。