java正则表达式

在做 Crawler的时候,本来是准备用正则的,但是看jsoup很好用,就没有学,刚刚在做古诗提取的时候,又要用到正则表达式,还是学了算了。

说明:

文章重点参考的http://www.cnblogs.com/ggjucheng/p/3423731.html,加上自己有一点理解。

正则表达式的语法可以参考:

http://www.runoob.com/regexp/regexp-syntax.html

java正则表达式主要是关于java.util.regex中的两个类:

1.Pattern:正则表达式经过编译后的表现模式。

2.Matcher:一个Matcher对象是一个状态机,它依据Pattern对象做为匹配模式对字符串展开匹配检查。

两者的关系是,Matcher在Pattern给定的模式控制下进行字符串匹配工作。

 

在正式开始正则表达式学习前,先要理解捕获组的概念。

一.捕获组的概念

  捕获组就是将正则表达式中子表达式匹配的内容,保存到内存中,并以数字的编号或者显示命令的组里,方便后面的引用。主要分为两种,其语法如下:

(1)普通捕获组:(expression)

大多数语言都支持,这也是我们学习的重点。

(2)命名捕获组:(?<name>expression)

暂不分析。

要注意的是,除这两种语法外,其它的语法都不是捕获组。

捕获组的编号:从左到右计算其开括号 "(" 来进行编号,且从1开始,因为编号0是正则表达式整体。

例子:

匹配格式为yyyy-mm-dd的日期。

private static void study1(){
        String line = "2016-02-15";
        String pattern = "(\\d{4})-(\\d{2}-(\\d\\d))";
        //([0-9])=(//d)

        //pattern对象是一个正则表达式的编译表示
        Pattern r = Pattern.compile(pattern);

        //Matcher对象是对输入字符串进行解释和匹配操作的引擎。
        Matcher m = r.matcher(line);
        System.out.println("group:"+ m.groupCount());
        if (m.find()){
            System.out.println("Found value: "+ m.group(0));//all
            System.out.println("Found Value: "+ m.group(1));//(\\d{4})
            System.out.println("Found value: "+ m.group(2));//(\\d{2})
            System.out.println("Found value: "+ m.group(3));//(\\d\\d)

        }else {
            System.out.println("No match");
        }
    }

 输出结果为

group:3
Found value: 2016-02-15
Found Value: 2016
Found value: 02-15
Found value: 15

二.Pattern类的使用

  用于创建一个正则表达式,也可以说是一个匹配模式,其构造方法是私有的,但可以通过Pattern.compile(regex)简单工厂方法来创建一个正则表达式。

例子:查看regex参数

Pattern pattern = Pattern.compile("\\w+");
System.out.println(pattern.toString());
System.out.println(pattern.pattern());

 结果

\w+
\w+

返回的都是正则表达式的字符串形式。

(1)pattern.split(Charsequence input)

  用于分隔字符串,并返回一个String [ ],是否String.split(String regex) 就是通过这个实现的呢?

Pattern pattern = Pattern.compile("\\d");
        String [] strArray =pattern.split("我的QQ是:456456我的电话是:0532214我的邮箱是:[email protected]");
        for (String aftersplit: strArray){
            System.out.println(aftersplit);
        }

 结果为:

str[0]="我的QQ是:" str[1]="我的电话是:" str[2]="我的邮箱是:[email protected]"

(2) Pattern.matcher(String regex,CharSequence input)

  静态方法,用于快速匹配字符串,适用于只匹配一次,且匹配全部字符串。

例子:

Pattern.matches("\\d+","2223");//返回true 
Pattern.matches("\\d+","2223aa");//返回false,需要匹配到所有字符串才能返回true,这里aa不能匹配到 
Pattern.matches("\\d+","22bb23");//返回false,需要匹配到所有字符串才能返回true,这里bb不能匹配到 

 (3)Pattern.matcher(CharSequence input)

  Matcher出现了,这个方法返回一个Matcher,其没有公共构造方法(私有的),只能通过 Pattern.matcher得到。

上面我们看到,Pattern只能做一此简单的匹配,要得到更强大的正则匹配,则要用到Matcher,Matcher提供了对正则表达式分组与多次匹配的支持。

例子:

Pattern p = Pattern.compile("\\d+");
        Matcher m = p.matcher("22bb33");
        System.out.println(m.pattern());
        System.out.println(m.toString());

 结果为

\d+
java.util.regex.Matcher[pattern=\d+ region=0,6 lastmatch=]

可以看到,matcher.toString()会返匹配的情况。

 (4)Matcher.matches()/Matcher.lookingAt()/Matcher.find()

  Matcher类提供三个匹配操作方法,它们都返回boolean类型,匹配成功时返回 true。

matches()

对整个字符串进行匹配,只有整个字符串都匹配了才返回true。

 Pattern p = Pattern.compile("\\d+");
        Matcher m = p.matcher("22bb33");
        System.out.println(m.matches());
        Matcher m2 = p.matcher("2233");
        System.out.println(m2.matches());

 返回结果

false, true

我们可以发现,下面的两种代码等价:

Pattern.matches(String regex,CharSequence input)

Pattern.compile(regex).matcher(input).matches()

lookingAt()

对前面的字符串进行匹配,只有匹配到的字符串在最前面才返回true。

Pattern p = Pattern.compile("\\d+");
        Matcher m = p.matcher("22bb33");
        System.out.println(m.lookingAt()); //ture
        Matcher m2 = p.matcher("aa2233");
        System.out.println(m2.lookingAt());//flase

 find()

匹配到的字符串可以在任何位置。

Pattern p=Pattern.compile("\\d+"); 
Matcher m=p.matcher("22bb23"); 
m.find();//返回true 
Matcher m2=p.matcher("aa2223"); 
m2.find();//返回true 
Matcher m3=p.matcher("aa2223bb"); 
m3.find();//返回true 
Matcher m4=p.matcher("aabb"); 
m4.find();//返回false 

 (5)Matcher.start()/Matcher.end()/Matcher.group()

  在使用matches()/lookingAt(),find()执行匹配操作后,就可以利用上面的三个方法得到更详细的信息。

start():返回匹配到的子字符串在字符串中的索引的位置。

end():返回匹配到的子字符串的最后一个字符在字符串中的位置。

group():返回匹配到的子字符串。

 Pattern p = Pattern.compile("\\d+");
        Matcher m = p.matcher("aaaa2222bb");
        m.find();//
        System.out.println(m.start());//4
        System.out.println(m.end());  //8
        System.out.println(m.group());//2222

        Matcher m2 = p.matcher("2222bb");
        m2.lookingAt();
        System.out.println(m2.start());//0
        System.out.println(m2.end());  //4
        System.out.println(m2.group());//222

        Matcher m3 = p.matcher("222");
        m3.matches();
        System.out.println(m3.start());//0
        System.out.println(m3.end());  //3
        System.out.println(m3.group());//222

 下面再说说正则表达式分组的使用,start(),end(),group(),它们都有加入参数int index的重载方法,用于分组操作。

例子:

     Pattern p = Pattern.compile("([a-z]+)(\\d+)");//2 groups
        Matcher m = p.matcher("aaa2223bb444");
        System.out.println(m.groupCount());//2
        while (m.find()){
            System.out.println("====one match");
            //all
            System.out.print(m.start(0)+",");//0,
            System.out.print(m.end(0)+",");   //7
            System.out.println(m.group(0));  //aaa2223
            //group 1
            System.out.print(m.start(1)+",");//0
            System.out.print(m.end(1)+",");   //3
            System.out.println(m.group(1));  //aaa
            //goup 2
            System.out.print(m.start(2)+",");//3
            System.out.print(m.end(2)+",");  //7
            System.out.println(m.group(2));//2223
        }

 输出

2
====one match
0,7,aaa2223
0,3,aaa
3,7,2223
====one match
7,12,bb444
7,9,bb
9,12,444

源码显示,无参数时是直接调用的参数为0的值,要注意的是,只有匹配成功时才可以使用start,end,group。

最后一个例子,查找字符串中的数字:

        Pattern p = Pattern.compile("\\d+");
        Matcher m = p.matcher("我的QQ是:456456 我的电话是:0532214 我的邮箱是:[email protected]");
        while (m.find()){
            System.out.println(m.group());
        }    

 

你可能感兴趣的:(java正则表达式)