python中.*?正则表达式探究

今天学习了一下python正则表达式,对于.*?,这个正则表达式有所疑问。查了一下,大部分对此解释是懒惰匹配,我不是特别理解,所以做了以下探究:

几个常见正则表达式

  1. [0-9] \d 匹配数字
  2. \w 字符
  3. {2} {n} 前面表达式出现n次
    • + 前面表达式出现 >= 1
    • ? 0 or 1
    • * >= 0

.*? 懒惰匹配模式

即匹配最短字符串,最短匹配,主要是由问号实现

import re
print(re.findall(r'(da?)', 'dads dsds sda daada')) #a出现0或1次
print(re.findall(r'(da*?)', 'dads dsds sda daada')) #a不出现
print(re.findall(r'(da+?)', 'dads dsds sda daada')) #a只出现一次
print(re.match(r'(da*?)', 'dads dsds sda daada').group())
输出结果:
['da', 'd', 'd', 'd', 'da', 'da', 'da']
['d', 'd', 'd', 'd', 'd', 'd', 'd']
['da', 'da', 'da', 'da']
d

当?跟在 *+ 后面时,其含义为最小匹配,+本来代表出现次数大于或等于1,
这里则限定为了1;* 此时表示出现0次

如果为了匹配da再加一个字符,则需要使用 .

s = 'dads dsds sda daada'
print(len(s))

#返回了20个空字符串(不是空格)
print(re.findall(r'(.*?)', 'dads dsds sda daada'))

#da匹配后再加一个字符(包括空格)
print(re.findall(r'(da.+?)', 'dads dsds sda daada'))
print(re.findall(r'(da.*?)', 'dads dsds sda daada'))

#贪婪匹配,当遇到地一个d时,匹配没有停止,一直到最后一个d,所以只返回了一个字符串
print(re.findall(r'(d.*d)', 'dads dsds sda daada')) 
#非贪婪匹配,第一次遇到d结束匹配,继续下一次查找
print(re.findall(r'(d.*?d)', 'dd dads dsds sda daada'))
#空格匹配和空字符串不一样,注意
print(re.findall(r'(\s)', 'dd dads dsds sda daada'))
19
['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']
['dad', 'da ', 'daa']
['da', 'da', 'da', 'da']
['dads dsds sda daad']
['dd', 'dad', 'dsd', 'da d']
[' ', ' ', ' ', ' ']

注意正则中的空格,空格也是匹配内容

你可能感兴趣的:(python中.*?正则表达式探究)