re.sub()中的 r'\1\2\3\数字' 还不知道是什么意思?这里有答案!!

步入正题之前,先来看一下re.sub()函数的功能演示:

import re

text = 'Jame 12 years old'
pattern = r'[A-Z]\w+\s\d{1,2}' # 正则,匹配出名字和年龄
result = re.sub(pattern,'hello',text) # 将匹配出的内容替换为hello
print(text) #打印原来的文本
print(result)  # 打印替换后的文本
>>>Jame 12 years old
>>>hello years old   

显而易见,pattern从text中匹配到的内容"Jame 12"被中间的字符串即hello替换,记住这三个参数之间的关系,下面开始步入正题。

import re

text = 'Jame 12 years old'
pattern = r'([A-Z]\w+)\s(\d{1,2})'
print(re.search(pattern, text).group(0))
print(re.search(pattern, text).group(1))
print(re.search(pattern, text).group(2))
>>>Jame 12
>>>Jame
>>>12

与文章开头的代码不同的是,这次分别对名字和年龄进行了分组:

名字:([A-Z]\w+)
年龄:(\d{1,2})

可以看到,goup(0)对应的是全部内容,goup(1)对应名字,goup(2)对应年龄,记住这个对应关系!接下来加入一段代码:

result = re.sub(pattern, r'\1 is \2', text)
print(result)
>>>Jame is 12 years old

不知道你是否已经猜到\1\2分别代表什么了呢?其实代表的就是group(1)和group(2),既然中间的参数是准备替换的字符串,那我们同样可以引用已经匹配出来的字符串,对于初学者这里可能比较晕,多练习几遍自然就懂了。

小彩蛋

那么问题来了,如果我想把匹配到的年龄加两岁该怎么做呢?

result = re.sub(pattern, r'\1 is 15', text)
print(result)
>>>Jame is 15 years old

这样写固然可以,但是你有没有想过如果text里有很多个这样的数据需要处理,并且加两岁后年龄不可能全是15岁,这样的话手动改写就太浪费时间了,而且代码量也会很大,下面来看解决方法:引入一个函数来解决这个问题。

def func(match):  # func的参数是一个match对象
    years = match.group(2)
    years = int(years) + 3
    return '%s %d' % (match.group(1), years)
    
result2 = re.sub(pattern, func, text)
print(result2)
>>>Jame 15 years old

中间的参数—func,意思是将pattern从text中匹配到的内容传给func,最后func返回我们需要的结果(字符串类型)
这里就会有人问了,func里面的参数match和下面的match.group(2)是什么意思?
不要着急,再来看一段代码:

print(re.search(pattern, text))  # 打印返回值,是一个match对象
ret= re.search(pattern,text)
print(ret.group(2))  
>>>  <_sre.SRE_Match object; span=(0, 7), match='Jame 12'>
>>>  12

可以看到,pattern匹配文本后返回的是一个match对象,match(2)就相当于re.search.group(2) ,这样子是不是就能理解了?

当给子组命名时

\g+<子组名>

同样的道理,把原来的\1\2改为如上格式即可:

result = re.sub(pattern, r'\g is \g', text)
print(result)
>>>Jame is 12 years old

!!!

觉得博主写的还不错话记得给个再走哦

你可能感兴趣的:(正则表达式)