Python 正则表达式:search()、match()和findall()分组 下

下面我们继续:
举例:不是以4、7结尾的手机号码(11位)

import re
phone1 = '12321235267'
result1 = re.match(r'1\d{9}[0-3-689]$',phone1)
print(result1)
phone2 = '12321235269'
result2 = re.match(r'1\d{9}[0-3-689]$',phone2)
print(result2)

结果

None
<re.Match object; span=(0, 11), match='12321235269'>

下面的内容与爬虫相关
提取带有区号的电话号码

import re
phone1 = '010-12345678'
result1 = re.match(r'(\d{3}|\d{4})-(\d{8})$',phone1)
print(result1)

#分别提取
print(result1.group())
#()表示分组 group(1)表示提取到第一组的内容 group(2)表示第二组的内容部分
print(result1.group(1))
print(result1.group(2))

结果

<re.Match object; span=(0, 12), match='010-12345678'>
010-12345678
010
12345678

Python 正则表达式:search()、match()和findall()分组 下_第1张图片
举例:匹配abc

import re
msg1 = 'abc'
result1 = re.match(r'<[0-9a-zA-Z]+>(.+)',msg1)
print(result1)
print(result1.group(1))

msg2 = '

hello

'
result2 = re.match(r'<[0-9a-zA-Z]+>(.+)$',msg2) print(result2) print(result2.group(1))

结果

<re.Match object; span=(0, 16), match='abc'>
abc
<re.Match object; span=(0, 14), match='

hello

'
> hello

下面我们想如果匹配的字符是这样子的

abc

msg3 = '

abc

'
result3 = re.match(r'<[0-9a-zA-Z]+>(.+)$',msg3) print(result3) print(result3.group(1))

结果

<re.Match object; span=(0, 25), match='

abc

'
> <h1>abc</h1>

分析结果:是可以匹配到最后的,因为有+,则是贪婪模式(稍后会讲述),但是如果没有
请看运行结果

msg3 = '

abc

'
result3 = re.match(r'<[0-9a-zA-Z]+>(.+)$',msg3) print(result3) print(result3.group(1))
<re.Match object; span=(0, 25), match='

abc

'
> <h1>abc</h1>

分析结果也是可以匹配到的,但是却不是完整的,不是成对的,应该是没有匹配成功的,所以要结合【number】来使用

msg3 = '

abc

'
result3 = re.match(r'<([0-9a-zA-Z]+)>(.+)$',msg3) #1表示第一组引用匹配的内容 print(result3)
None

显示结果没有匹配成功,因为是用前面()的内容来往后匹配。

msg4 = '

abc

'
result4 = re.match(r'<([0-9a-zA-Z]+)>(.+)$',msg4) #1表示第一组引用匹配的内容 print(result4) msg5 = '

abc

'
result5 = re.match(r'<([0-9a-zA-Z]+)>(.+)$',msg5) #1表示第一组引用匹配的内容 print(result5) print(result5.group(1)) print(result5.group(2))
None
<re.Match object; span=(0, 12), match='

abc

'
> h1 abc

看结果,

abc

是匹配不到的。并且print(result5.group(1)),print(result5.group(2)),是可以取到h1的和abc的。

而如果要与**

abc

**前后顺序、属性都要相对应
下面看程序:

msg6 = '

abc

'
result6 = re.match(r'<([0-9a-zA-Z]+)><([0-9a-zA-Z]+)>(.+)$',msg6) #1表示第一组引用匹配的内容 print(result6) print(result6.group(1)) print(result6.group(2)) print(result6.group(3))
<re.Match object; span=(0, 25), match='

abc

'
> html h1 abc

另外一种方式,就不需要数是第几个()的匹配了,直接以起名字的方式。
起名字的方式:(?P<名字>正则)(?P=名字)

import re
#起名字的方式
msg7 = '

abc

'
result7 = re.match(r'<(?P\w+)><(?P\w+)>(.+)',msg7) print(result7) print(result7.group(1)) print(result7.group(2)) print(result7.group(3))
<re.Match object; span=(0, 25), match='

abc

'
> html h1 abc

总结

分组:() ---->result.group(1)获取组中匹配内容
不需要去引用分组的内容

> 	result2 = re.match(r'<[0-9a-zA-Z]+>(.+)$',msg2) 
> 				print(result2) 
> 				print(result2.group(1))

引用分组匹配内容:
1.number

> 			result3 = re.match(r'<([0-9a-zA-Z]+)>(.+)$',msg3) 
> 			print(result3)  			
> print(result3.group(1))

2.?P<名字>

> msg7 = '

abc

'
> result7 =re.match(r'<(?P\w+)><(?P\w+)>(.+)',msg7) > print(result7)

re模块

match
search
findall
sub
split

**

举例:sub()

**
程序1

result = re.sub(r’\d+','1000','java:99,python:100')

结果1

java:99,python:99

程序2

def func(temp):
    num = temp.group()
    num1 = int(num)+1
    return str(num1)

result = re.sub(r'\d+',func,'java:99,python:95')
print(result)

结果2

java:100,python:96

举例:split()

程序1

result1 = re.sub(r'\d+','90','java:99,python:95')
print(result1)
result2 =re.split(r',',result1)
print(result2)

结果1

java:90,python:90
['java:90', 'python:90']

程序2

result1 = re.sub(r'\d+','90','java:99,python:95')
print(result1)
result2 =re.split(r'[,:]',result1)
print(result2)

结果2

java:90,python:90
['java', '90', 'python', '90']

分析程序2:在字符串中搜索如果遇到:或者,就分割,将分割的内容保存在列表中

你可能感兴趣的:(Python,python,正则表达式)