正则表达式的重复匹配问题

两种方法

在使用正则表达式时有时我们需要对特定的表达式进行重复,一般有两种方法:
1. {N}
使用大括号表示匹配前面出现的正则表达式N次,用于连续的重复匹配,例如\d{3}可匹配567
2. \n
匹配前面出现的第n个分组的正则表达式一次,可用于不连续的重复匹配,例如(\d)[a-z]\1可匹配3a3

区别

这两种重复的方式最特别的不同是:前者是对正则表达式的简单重复,后者是对被匹配字符(串)的直接重复
实际上,如果表达式中重复的是确定的某一字符(串),则两者没有区别,但在正则表达式中碰到的更多的是重复某一范围内的任意一个字符(串),这时灵活使用这两种重复方式就显得尤为重要了。
举例来说,正则表达式[0-9]{2}([0-9])\1所能匹配的结果完全不同,前者匹配所有的两个数字,而后者只能匹配两个重复的数字。

使用

现在我们来使用正则表达式来匹配13位手机号码,假设它的记录形式有两种,一种是直接写出所有数字:13612345678;另一种是采用分隔符:136-1234-5678,任何其他分隔形式(如13-6123-4567-8或1361-2345-678)都是不可接受的。
根据以上的论述,最合理的正则表达式应该为:
\d{3}(-?)\d{4}\1\d{4}

你可能感兴趣的:(杂项)