记java 正则表达式-一个奇怪的问题

 

      遇到一个正则表达会的问题,暂时未找到理论上的支持,所以先在此记录,待后慢慢解决

 

public static void main(String [] ben){
   System.out.println("12345".replaceAll(".*", "a"));
}

 

     关于这行语句,大家试想下输出会是什么?我一开始分析答案可能是以下两个:

 

  • 答案一:aaaaa
  • 答案二:a

 

 

 

 

 

       因为牵涉到正则表达式的贪婪匹配和非贪婪匹配,查阅资料得知*应该是贪婪匹配,所以我在没有执行上述代码的时候,得出应该是答案二。但是执行后的结果却让人大跌眼镜,是aa.

 

      网上查阅资料无果,只有自己看源码了:

      

/**
  * String的replaceAll方法
**/  
public String replaceAll(String regex, String replacement) {
	return Pattern.compile(regex).matcher(this).replaceAll(replacement);
}


/**
 * Matcher的replaceAll方法
**/
public String replaceAll(String replacement) {
        reset();
        boolean result = find();
        if (result) {
            StringBuffer sb = new StringBuffer();
            do {
                appendReplacement(sb, replacement);
                result = find();
            } while (result);
            appendTail(sb);
            return sb.toString();
        }
        return text.toString();
}

      既然执行结果是两个a,那么我猜测是find()有两次执行结果是ture.所以模拟代码

 

	public static void main(String[] ben){
		Pattern pattern = Pattern.compile(".*", Pattern.CASE_INSENSITIVE);
		Matcher matcher = pattern.matcher("12345");
		int i=0;
		while(matcher.find()){
		    System.out.println("循环:"+i+"次");
		    i++;
			System.out.println(matcher.group());
		}
	}

    执行结果为:

 

          循环:0次

          12345

 

          循环:1次

 

       也就是说.*先最长匹配了12345,然后又匹配了一个空字符,其实没有能够仔细的分析到代码,所以现在只能猜测,也只有等有能力的时候再仔细分析代码。

 

       猜测过程应该如下:

 

  1.  首先从第一个位置开始匹配,*是最长匹配,所以一直匹配到12345成功位置
  2.  然后再从第六个位置开始匹配,发现第六个位置已经是最后个位置了,此时取出的子匹配串是空的,.*是匹配.0个到多个,也就是0个也是可以满足的,所以这里也匹配成功了
  3.   匹配结束,总共匹配两次成功!

 

        同样,.+也是贪婪匹配,但是如果使用.+的话,只会循环一次,输出12345,因为上述2过程匹配不会成功。所以我们在使用的时候,要谨慎使用*这个匹配符。

 

 

 

        在寻找答案的过程中,发现一篇好文章,虽然对于解答此文的疑问用处不大:

        来自淘宝综合业务部门的技术博客:Java正则引发的思考。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(java)