java正则表达式使用

简介

对于一些文本操作,正则表达式提供了强有力的辅助,它允许我们通过带有描述性性质的描述语言,得到我们需要的文本数据。

java正则表达式功能类简介

对于java而言,其在java.util.regex包中给我们提供了正则表达式功能,该包结构如下图所示:

java正则表达式使用_第1张图片
java.util.regex

可以看到, regex包下包含一个接口 MatchResult,两个类 Pattern,Matcher,以及一个异常类 PatternSyntaxException
其中:
MatchResult:代表匹配操作的结果,该接口提供了查询方法用来检测匹配器匹配正则表达式的结果。通过MatchResult,可以查看匹配边界,匹配组合以及组边界,但是不能进行修改。

Pattern:正则表达式的编译表现形式。指定为正则表达式的字符串必须首先被编译成此类的实例,然后,可将得到的模式用于创建Matcher对象,依照正则表达式,该对象可与任意字符序列匹配。执行匹配所涉及的所有状态都驻留在匹配器中,所以多个匹配器可以共享同一模式。

Matcher:执行由Pattern解释的字符串序列操作引擎。Matcher实现了MatchResult

PatternSyntaxException:当正则表达式解析出错时抛出该异常。

通配符简介

java正则表达式的全部通配符介绍可以在官网API中查看,下面主要介绍其中一些比较常用的:

字符类
[abc] 匹配a或者b或者c
[^abc] 除了a,b,c以外的字符都匹配
[a-zA-Z] a-z,A-Z任意一个字符都匹配
[a-d[m-p]] a-d或者m-p中任意一个字符都匹配
[a-z&&[def]] 同时满足a-z和d,e,f中的一个则匹配(并集)
[a-z&&[^bc]] a-z任意一个字符都匹配,除了b和c
预定义字符类
. 任意字符 (与行结束符可能匹配,也可能不匹配)
\d 数字 [0-9]
\D 非数字 [^0-9]
\s 空白字符 [ \t\n\x0B\f\r]
\S 非空白字符 [^\s]
\w 字符类型 [a-zA-Z_0-9]
\W 非字符类型 [^\w]
边界匹配器
^ 行开头
$ 行结尾
\b 单词边界
\B 非单词边界
Greedy 数量词
X? X,一次或一次也没有
X* X,零次或多次
X+ X,一次或多次
X{n} X,恰好n次
X{n,} X,至少n次
X{n,m} X,至少n次,但不超过m次

例子

正则表达式对文本的操作总结起来为:匹配,切割,替换,获取。

  • 匹配
    判断给定字符串是否符合QQ号码格式。
    (QQ号码格式规范:
    1.全部为数字
    2.起码6位数字以上,不超过15位数;
    3.第一个数字不能为0;)
    String str = "23453463456";
    Pattern pattern = Pattern.compile("[1-9]\\d{5,15}");
    Matcher matcher = pattern.matcher(str);
    boolean bMatch = matcher.matches();
    System.out.println("match="+bMatch);
  • 切割
    对给定字符串,按空格进行切割。
    String str="first   second   third  ";
    Pattern pattern = Pattern.compile("\\s+");//或者“ ”+
    String[] splits = pattern.split(str);
    for(int i = 0 ; i < splits.length ; ++i){
        System.out.println("splits["+i+"]="+splits[i]);
    }
  • 替换
    对给定字符串,按叠词进行替换,将叠词数量保留一位。
    String str="abb3dadadfa333aaaaaaaa";
    Pattern pattern = Pattern.compile("(.)\\1+");
    Matcher matcher = pattern.matcher(str);
    String replaceStr = matcher.replaceAll("$1");
    System.out.println("replaceStr="+replaceStr);

注: 此处使用了组概念,用符号()表示一个组,正则表达式"(.)\1+"表达的意思是:任意字符,\1表示引起第一组的结果,也就是(.)的字符,所以这句话的意思就是第一个字符是任意字符,后面一个字符跟前一个一致,有一个或一个以上。
“$1"表示引用第一个组的内容。

  • 获取
    对给定字符串,取出大括号{}内的字符串。
    String str = "users/{user}/repos/{page}/";
    Pattern pattern = Pattern.compile("\\{([a-zA-Z][a-zA-Z0-9_-]*)\\}");
    Matcher matcher = pattern.matcher(str);
    while(matcher.find()){
        String findstr = matcher.group();
        System.out.println("findstr="+findstr);
    }

最后,网上有很多可以直接对正则进行验证的在线工具,大家可以去找找看。

你可能感兴趣的:(java正则表达式使用)