import re
text = '111-222-333'
result = re.match('[\d]', text) # 没有*,匹配第一个
result1 = re.match('[\d]*', text) # 有*,从起始位置开始,匹配0或者多次
result2 = re.match('[-\d]*', text) # 有*,从起始位置开始,匹配0或者多次
result3 = re.match('[-]*', text) # 有*,从起始位置开始,匹配0或者多次
print(result.group(),len(result.group()))
print(result1.group(),len(result1.group()))
print(result2.group(),len(result2.group()))
print(result3.group(),len(result3.group()))
注意:匹配不出来,只不过是空,并不会报错
text = 'Q111-222-333'
result = re.match('[Q\d]+', text)
result1 = re.match('[\d]+', text)
print(result.group(),len(result.group()))
print(result1.group(),len(result1.group()))
运行结果如下
注意:有+,对[]里的内容匹配一次或者多次(至少一次)、从起始位置开始
text = 'Q111-222-333'
result = re.match('[Q\d]?', text)
result1 = re.match('[\d]?', text)
print(result.group(),len(result.group()))
print(result1.group(),len(result1.group()))
运行结果如下
注意:从起始位置开始,和*有一点相近
text = 'Q111-222-333'
result = re.match('[Q\d]{2}', text)
result1 = re.match('[Q\d]{5}', text)
print(result.group(),len(result.group()))
print(result1.group(1),len(result1.group()))
运行结果如下
注意:从起始位置
text = '111-222-333'
text1 = '111-2^22-333'
result = re.match('[-\d]{2,8}', text)
result1 = re.match('[-\d]{2,8}', text1)
print(result.group())
print(result1.group())
注意:若内容存在不属于规则的内容,则停止,直接输出
text = '111-222-333'
result = re.match('[-0-9]*', text)
print(result.group())
运行结果如下
text = '111-222-333'
result = re.match('[^0-9]+', text)
print(result.group())
运行结果如下
注意:这里经常配合+(1次或多次),匹配1次或多次非数字字符;其实也可以配合*(0次或多次),匹配0次或多次非数字字符
text = '111-222-333'
result = re.match('[0-9a-zA-Z_]+', text)
print(result.group())
text = '111-222-333'
result = re.match('[^0-9a-zA-Z_]+', text)
print(result.group())
运行结果如下
注意:这里和之前那个有相似之处,主要是因为+,这里的+是匹配至少一次,然而一开始检索就没找到,自然报错了
text = '111-222-333'
result = re.match('[\w\W]+', text)
print(result.group())
所以说还是这个牛吧
例子如下:
text = '111-222-333'
text1 = '....111-222-333'
result = re.match('[.]+', text)
result1 = re.match('.+', text)
result2= re.match('[.]+', text1)
print(result1.group())
print('*')
print(result2.group())
print('*')
print(result.group())
运行结果如下
注意:去掉中括号后,点表示所有字符再配上+匹配所有字符,但是中括号加上点后代表的就是匹配点了,然而text1并没有,所有遵循+的规则至少一个,所以报错
感兴趣的小伙伴可以自己试着来,将手机号、邮箱、身份证号码的规则自己写出来
text = 'Hello HeWord'
result = re.search('He', text)
print(result.group())
运行结果如下
注意:search()是从左到右进行字符串遍历,找到就返回,若后续再出现,也不再返回结果
text = '[email protected]'
result = re.search('[\w]+@[a-z0-9]+[.]com$', text)
print(result.group())
运行结果如下
text = 'https://www.baidu.com'
result = re.search('[https|http]',text)
print(result.group())
text = 'https://www.baidu.com'
result = re.search('[https|http]+',text)
print(result.group())
text = 'https://www.baidu.com'
result = re.search('(https|http)',text)
print(result.group())
运行结果如下
综上所述:中括号是将里面看成一个字符串,小括号则以|为标准分层若干字符串
本节介绍了多字符匹配,其中包括星号、加号等;匹配规则的代替,例如\d可以使用[0-9]代替使用;以及特殊的匹配。下节介绍贪婪模式与非贪婪模式,曾有大佬说明,不了解贪婪模式和非贪婪模式,就无法进行爬虫
如果没看过正则表达式详解:掌握强大的文本处理工具(二)的小伙伴,可以看看,感谢支持!!!
挑战与创造都是很痛苦的,但是很充实。