正则表达式（一）

正则表达式是用于匹配字符串的模板.正则表达式就是创建一个特殊的字符串模板.支持的合法字符如表：

String类提供了对正则表达式的支持.

public void strRegexTest(){
     String strContent = "dogdcgdbg";
     //判断 strContent支付串是否匹配指定的正则表达式 dog
     strContent.matches("dog");
      //将字符串中所有匹配 dbg的子串替换成 dog
     strContent.replaceAll("dbg","dog");
     //将字符串中第一个匹配正则表达式的子串dbg替换成dog
     strContent.replaceFirst("dbg","dog");
    //String[] split(String regex)以 regex 表示的内容为分隔符，将字符串分割成多个子串.

}

正则表达式支持的合法字符表

字符	解释
x	字符 x 代表任何合法字符
\0mnn	八进制数0mnn所表示的字符
\xhh	十六进制 hh表示的字符
\uhhhh	十六进制0xhhhh 表示的 Unicode字符
\t	制表符('\u0009')
\n	换行符('\u000A')
\r	回车符('\u000D')

在定义一个正则表达式模板的时候，如果想要匹配一个一个字符串中是否有换行符，则正则表达式可以定义为 String regex ="\n"; 如果一个正则表达式regex ="\u0041"，当使用正则表达式进行对字符串进行匹配的时候，会检查字符串中是否有 Unicode 码('\u0041')所表示的字符.

特殊字符

在 java字符串两个反斜杠(\\)相当于一个反斜杠(). 正则表达式中两个反斜杠(\)表示字符串中的一个反斜杠(),因此匹配字符串中的"\\" ,正则表达式为"\\\\".

特殊字符	说明
$	匹配一行的结尾，要匹配$字符本身，需要使用 \$
^	匹配一行的开头，如果需要匹配^{本身，需要使用\}
()	标记子表达式的开始和结束
[]	匹配内容开始和结束.
{}	标记前面只表达式出现的频度
*	标记前面的子表达式可以出现零次或者多次
+	前面的表达式何以出现一次或者多次
?	前面的表达式可以出现一次或者零次
.	匹配除了换行符之外的任何当个字符
转义字符
指定两者之间选一个

\u0041\\\\ 匹配 A
(dog)+ 能够匹配连续的多个 dog 字符串
\\?\\] 匹配?]

通配符

通过上面介绍的正则表达式，如果想利用正则表达式匹配字符串中是否有数字的正则表达式为 [0123456789]*.
如果匹配一个英文字符串则需要将每个字符都定义一下,这样未免太过笨重.这些问题可以通过正则表达式提供的通配符解决

通配符	说明
.	匹配匹配任何字符
\d	匹配任何数字
\D	匹配任何非数字
\w	匹配所有的字符，字符数字下划线_
\W	与\w 相反
\s	匹配所有的空白字符，包括空格，换行，回车符等
\S	匹配所有的非空白字符

通过通配符使用正则表达式匹配一些字符串则会比较简单.
\\d* 匹配一串数字 ,数字的长度为0或者多个
c\\wt 匹配任何 c*t 形式的字符串例如 cat c0t等

方括号表达式

在一些情况下，如果只想匹配 a~f 或者 ab 之外的小写字母，通配符就无能为力了，此时需要方括号表达式，这些需要在方括号中使用，方括号表达式有一下几种形式.

方括号表达式	说明
表示中任意一个	[123]表示123中的任意一个字符
表示范围: -	[a-f]表示 a~f范围内的任意字符，[a-fx-z]表示 a~f x~z 范围内的任意字符
^表示求否	[^abc]非 abc 的任意字符,[^a-f]非 a~f 任意字符
&&	[a-z&&[def]] ,求交集，表示只能匹配 d，e，f
表示并运算	a-d[e-f]即匹配范围为[a-de-f]

使用方括号表达式要灵活很多,中文字符的 Unicode 值都是连续的，所以只需要找出最小的和最大的Unicode值，就可以利用上面的形式来匹配所有的中文字符[\u0041-\u0056]就可以匹配所有的中文字符.

圆括号表达式

圆括号中可以使用圆括号表达式或运算符（|）.例如（(com)|(cn)|(org)）用于访问字符串之一.

边界匹配符

边界匹配符	说明
^	行的开头
$	行的结尾
\b	单词的边界
\B	非单词的边界
\A	输入的开头
\G	前一个匹配的结尾
\Z	输入的结尾，仅用于最后的结束符
\z	输入的结尾

正则表达式支持的数量标识符的几种模式：
1.Greedy (贪婪模式)：贪婪模式表达式会一直匹配下去只到无法匹配为止
2.Reluctant(勉强模式):用问号(?)后缀表示，通常只会匹配最少字符.也成为最小匹配模式.

public static void  regexGreep(){
//贪婪模式，尽量匹配最多
    String regex ="\\w+";
    String targetStr = "Hello World";
    Pattern pattern =Pattern.compile(regex);
    Matcher matcher = pattern.matcher(targetStr);
    if(matcher.find()){
      System.out.println("贪婪模式"+matcher.group(0));
    }
//勉强模式，匹配最少
    String regexGreep ="\\w+?";
    Pattern patternGreep =Pattern.compile(regexGreep);
    Matcher matcherGreep = patternGreep.matcher(targetStr);
    if(matcherGreep.find()){
        System.out.println("勉强模式："+matcherGreep.group(0));
    }   
}
//贪婪模式Hello
//勉强模式：H