正则表达式的懒惰匹配和前瞻等

正则表达式的【贪婪匹配】和【懒惰匹配】

一、贪婪匹配
正则表达式通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。比如这个表达式:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。

二、懒惰匹配
懒惰匹配,也就是匹配尽可能少的字符。在能使整个匹配成功的前提下使用最少的重复,只要在它后面加上一个问号?即可。现在看看懒惰版的例子吧:
a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)
为什么第一个匹配是aab(第一到第三个字符)而不是ab(第二到第三个字符)?简单地说,因为正则表达式有一条比懒惰/贪婪规则优先级更高的规则,就是:最先开始的匹配拥有最高的优先权

【正则表达式】前瞻,后顾,负前瞻,负后顾

举个例子:
有个字符串str = “博客园 顾客 博客 客园”
我们想匹配字符串里”博客园”的”客”字而不要其他的”客”字,这时就需要用到前瞻后顾。

正则表达式如下:
(?<=博)客(?=园)

反过来,我们不想要”博客园”的”客”字,但是想要其他”客”字。这时就要用到负前瞻,负后顾

正则表达式如下:
(?

总结一下:

前瞻: exp1(?=exp2) 查找exp2前面的exp1

后顾: (?<=exp2)exp1 查找exp2后面的exp1

负前瞻: exp1(?!exp2) 查找后面不是exp2的exp1

负后顾: (?

结合前瞻和懒惰匹配的一个例子

如果要从字符串中截取第一个英文左括号之前的字符串,例如:北京市(朝阳区)(西城区)(海淀区),截取结果为:北京市,那么正则表达式怎么写?

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * Created by zhaojy on 2017/4/10.
 */
public class RegExpTest {
    public static void main(String[] args) {
        String str = "北京市(朝阳区)(西城区)(海淀区)";
        Pattern p = Pattern.compile(".*?(?=\\()");
        Matcher m = p.matcher(str);
        if(m.find()) {
            System.out.println(m.group());
        }
    }
}
.*?(?=\\()

中的

.*?(    )

是懒惰匹配以任意字符开始,以某个字符结束的所有字符最短字符串;

?=\\(

是前瞻匹配英文括号‘(’前面的所有字符;

 if(m.find()) {
            System.out.println(m.group());
        }

if(m.find())则打印第一次匹配,结果为:

北京市
 while(m.find()) {
            System.out.println(m.group());
        }

while(m.find()) 打印所有匹配,结果为:

北京市

朝阳区)

西城区)

你可能感兴趣的:(java)