Python正则表达式之嵌套分组匹配

嵌套分组匹配

  1. 一般的分组匹配
target1 = '021-12345'
pattern = r'^(\d{3})-(\d{3,8})$'
m = re.match(pattern,target1)
print(m.groups()) # 返回提取的子串
print(m.group(0)) # 永远是目标字符串本身
print(m.group(1)) # 提取的第一个子串
print(m.group(2)) # 提取的第二个子串

输出:

('021', '12345')
021-12345
021
12345
  1. 嵌套分组
target = 'tree/combined 010-12345'
pattern = r'(([^/]*)(/.*)?)[\s]+((\d{3})\-(\d{3,8})$)' # [^]:匹配除了里面列出的任一字符
m = re.match(pattern,target)
print(m.groups())
print(m.group(1))   # 首先匹配最外层的()
print(m.group(2))   # 然后依次匹配里层的()
print(m.group(3))
# 这里匹配到的是 010-12345 
print(m.group(4))   # 同理,从左往右依次匹配,若()里面还有分组就递归下去匹配分组
print(m.group(5))
print(m.group(6))

输出:

('tree/combined', 'tree', '/combined', '010-12345', '010', '12345')
tree/combined
tree
/combined
010-12345
010
12345
结论

嵌套分组匹配时,从左往右依次匹配(),若()里面还有(),则递归进行分组匹配,递归匹配完之后,再继续从左往右匹配()。

你可能感兴趣的:(python)