正则表达式中的懒惰匹配与非捕获组

当正则表达式中包含能接受重复的限定符(指定数量的代码,例如*,{5,12}等)时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。

考虑这个表达式:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。

有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:

a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab和ab。



举例1:
表达式 "(.*)" 与字符串 "

aa

bb

" 匹配时,匹配的结果是:成功;匹配到的内容是 "

aa

bb

" 整个字符串, 表达式中的 "" 将与字符串中最后一个 "" 匹配。
举例2:
相比之下,表达式 "(.*?)" 匹配举例1中同样的字符串时,将只得到 "

aa

", 再次匹配下一个时,可以得到第二个 "

bb

"。

懒惰限定符
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复

这个例子供测试:
import java.util.regex.*;
public class Test{
public static void main(String[] args) {
//String s = "<

aa

bb

";//用于其它测试
String s = "aa555bbbabc";//用于{1,40},{1,}测试
//String s = "ab";//用于.??测试
//String regex="(.*)";

//String regex="(.*?)";
// String regex="(.+?)";
//String regex="(.??)";
//String regex="(.{1,40}?)";
String regex="(.{1,}?)";
Pattern pt=Pattern.compile(regex);
Matcher mt=pt.matcher(s);
while(mt.find()){
System.out.println(mt.group(1).trim());
}
}
}

非捕获组(?:Exp):匹配Exp部分正则表达式,但匹配的结果并不保存到捕获组,一般在验证规则时使用,因为保存捕获组都要占用一定的内存资源,而不需要保留匹配结果时,可以使用非捕获组来节省资源

import java.util.regex.*;

public class Test {
public static void main(String[] args) {
String str = " aaa " +
" bbb " +
"ccc " +
" ddd " +
" eee " +
"fff ";
String regex = "(?:\\s*]*>)?(.*?)(?:\\s*)?";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(str);
while(matcher.find()) {
System.out.println(matcher.group(1));
}
}
}

这个例子的运行结果是:
C:\java>java Test
aaa
bbb
ccc
ddd
eee
fff

你可能感兴趣的:(每日总结)