正则表达式(一)

正则表达式是用于匹配字符串的模板.正则表达式就是创建一个特殊的字符串模板.支持的合法字符如表:

String类提供了对正则表达式的支持.

public void strRegexTest(){
     String strContent = "dogdcgdbg";
     //判断 strContent支付串是否匹配指定的正则表达式 dog
     strContent.matches("dog");
      //将字符串中所有匹配 dbg的子串替换成 dog
     strContent.replaceAll("dbg","dog");
     //将字符串中第一个匹配正则表达式的子串dbg替换成dog
     strContent.replaceFirst("dbg","dog");
    //String[] split(String regex)以 regex 表示的内容为分隔符,将字符串分割成多个子串.

}

正则表达式支持的合法字符表

字符 解释
x 字符 x 代表任何合法字符
\0mnn 八进制数0mnn所表示的字符
\xhh 十六进制 hh表示的字符
\uhhhh 十六进制0xhhhh 表示的 Unicode字符
\t 制表符('\u0009')
\n 换行符('\u000A')
\r 回车符('\u000D')

在定义一个正则表达式模板的时候,如果想要匹配一个一个字符串中是否有换行符 ,则正则表达式可以定义为 String regex ="\n"; 如果一个正则表达式regex ="\u0041",当使用正则表达式进行对字符串进行匹配的时候,会检查字符串中是否有 Unicode 码('\u0041')所表示的字符.

特殊字符

在 java字符串两个反斜杠(\\)相当于一个反斜杠(). 正则表达式中两个反斜杠(\)表示字符串中的一个反斜杠(),因此匹配字符串中的"\\" ,正则表达式为"\\\\".

特殊字符 说明
$ 匹配一行的结尾,要匹配$字符本身,需要使用 \$
^ 匹配一行的开头,如果需要匹配本身,需要使用\
() 标记子表达式的开始和结束
[] 匹配内容开始和结束.
{} 标记前面只表达式出现的频度
* 标记前面的子表达式可以出现零次或者多次
+ 前面的表达式何以出现一次或者多次
? 前面的表达式可以出现一次或者零次
. 匹配除了换行符之外的任何当个字符
转义字符
指定两者之间选一个

\u0041\\\\ 匹配 A
(dog)+ 能够匹配连续的多个 dog 字符串
\\?\\] 匹配?]

通配符

通过上面介绍的正则表达式,如果想利用正则表达式匹配字符串中是否有数字的正则表达式为 [0123456789]*.
如果匹配一个英文字符串则需要将每个字符都定义一下,这样未免太过笨重.这些问题可以通过正则表达式提供的通配符解决

通配符 说明
. 匹配匹配任何字符
\d 匹配任何数字
\D 匹配任何非数字
\w 匹配所有的字符,字符数字下划线_
\W 与\w 相反
\s 匹配所有的空白字符,包括空格,换行,回车符等
\S 匹配所有的非空白字符

通过通配符使用正则表达式匹配一些字符串则会比较简单.
\\d* 匹配一串数字 ,数字的长度为0或者多个
c\\wt 匹配任何 c*t 形式的字符串例如 cat c0t等

方括号表达式

在一些情况下,如果只想匹配 a~f 或者 ab 之外的小写字母,通配符就无能为力了,此时需要方括号表达式,这些需要在方括号中使用,方括号表达式有一下几种形式.

方括号表达式 说明
表示中任意一个 [123]表示123中的任意一个字符
表示范围: - [a-f]表示 a~f范围内的任意字符,[a-fx-z]表示 a~f x~z 范围内的任意字符
^表示求否 [^abc]非 abc 的任意字符,[^a-f]非 a~f 任意字符
&& [a-z&&[def]] ,求交集,表示只能匹配 d,e,f
表示并运算 a-d[e-f]即匹配范围为[a-de-f]

使用方括号表达式要灵活很多,中文字符的 Unicode 值都是连续的,所以只需要找出最小的和最大的Unicode值,就可以利用上面的形式来匹配所有的中文字符[\u0041-\u0056]就可以匹配所有的中文字符.

圆括号表达式

圆括号中可以使用圆括号表达式或运算符(|).例如((com)|(cn)|(org))用于访问字符串之一.

边界匹配符

边界匹配符 说明
^ 行的开头
$ 行的结尾
\b 单词的边界
\B 非单词的边界
\A 输入的开头
\G 前一个匹配的结尾
\Z 输入的结尾,仅用于最后的结束符
\z 输入的结尾

正则表达式支持的数量标识符的几种模式:
1.Greedy (贪婪模式):贪婪模式表达式会一直匹配下去只到无法匹配为止
2.Reluctant(勉强模式):用问号(?)后缀表示,通常只会匹配最少字符.也成为最小匹配模式.

public static void  regexGreep(){
//贪婪模式,尽量匹配最多
    String regex ="\\w+";
    String targetStr = "Hello World";
    Pattern pattern =Pattern.compile(regex);
    Matcher matcher = pattern.matcher(targetStr);
    if(matcher.find()){
      System.out.println("贪婪模式"+matcher.group(0));
    }
//勉强模式,匹配最少
    String regexGreep ="\\w+?";
    Pattern patternGreep =Pattern.compile(regexGreep);
    Matcher matcherGreep = patternGreep.matcher(targetStr);
    if(matcherGreep.find()){
        System.out.println("勉强模式:"+matcherGreep.group(0));
    }   
}
//贪婪模式Hello
//勉强模式:H

你可能感兴趣的:(正则表达式(一))