JAVA高级（13）—— 正则表达式

一、概念

正则表达式(regular expression)：字符出现的次序规律，用于实现字符串匹配，查找，替换等复杂操作。所谓模式，其实就是规律。
正则表达式由元字符与运算符（可以将小的表达式结合在一起来创建更大的表达式）组成。

二、语法

^ 为匹配输入字符串的开始位置，$ 为匹配输入字符串的结束位置。
[0-9]+匹配多个数字， [0-9] 匹配单个数字，+ 匹配一个或者多个。
abc$匹配abc结尾。

普通字符

普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。包括所有字母、数字、标点符号和一些其他符号。

字符	描述
\r	匹配一个回车符
\n	匹配一个换行
\t	匹配一个制表符符
\s	匹配任何空白字符，包括空格、制表符、换页符等
\S	匹配任何非空白字符
\d	任意一个数字字符，等价于[0-9]
\D	非数字字符
\w	单词字符，等价于[a-zA-Z0-9_]
\W	非单词字符

非打印字符

字符	描述
\r	匹配一个回车符
\n	匹配一个换行
\t	匹配一个制表符符
\s	匹配任何空白字符，包括空格、制表符、换页符等
\S	匹配任何非空白字符
\d	任意一个数字字符，等价于[0-9]
\D	非数字字符
\w	单词字符，等价于[a-zA-Z0-9_]
\W	非单词字符

元字符

特殊字符

所谓特殊字符，就是一些有特殊含义的字符，如 runoo*b 中的 *。如果要查找字符串中的 * 符号，则需要对* 进行转义，即在其前加一个 : runo\*ob 匹配 runo*ob。若要匹配这些特殊字符，必须首先使字符"转义"，即将反斜杠字符\ 放在它们前面。

特殊字符	描述
$	匹配输入字符串的结尾位置。
( )	标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用
*	匹配前面的子表达式零次或多次
+	匹配前面的子表达式一次或多次
.	匹配除换行符 \n 之外的任何单字符
[	标记一个中括号表达式的开始，[]内不需要进行转义
?	匹配前面的子表达式零次或一次
\	将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\"，而 '\(' 则匹配 "("
^	匹配输入字符串的开始位置，除非在方括号表达式中使用，此时它表示不接受该字符集合
{	标记限定符表达式的开始
	指明两项之间的一个选择。

限定符

用来指定前面的子表达式要出现多少次才能满足匹配。

字符	描述
*	>=0
+	>=1
?	0或1
{n}	=n
{n,}	>=n
{n,m}	n<= <=m

定位符

定位符能够将正则表达式固定到行首或行尾。它们还使您能够创建这样的正则表达式，这些正则表达式出现在一个单词内、在一个单词的开头或者一个单词的结尾，用来描述字符串或单词的边界。

字符	描述
^	匹配输入字符串开始的位置
$	匹配输入字符串结尾的位置
\b	代表着单词的开头或结尾，也就是单词的分界处。虽然通常英文的单词是由空格，标点符号或者换行来分隔的，但是\b并不匹配这些单词分隔字符中的任何一个，它只匹配一个位置，即字与空格间的位置。
\B	非字边界匹配。

选择

用()将所有选择项括起来，相邻的选择项之间用|分隔。但用圆括号会有一个副作用，使相关的匹配会被缓存，此时可用?:放在第一个选项前来消除这种副作用。

非捕获元：

?:
?=，正向预查，在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串，如Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ，但不能匹配 "Windows 3.1" 中的 "Windows"（不包含2000）
?!，负向预查，在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows"，但不能匹配 "Windows 2000" 中的 "Windows"

三、JAVA中的类支持

1、Pattern

Pattern.compile(String regex) //将给定的正则表达式编译并赋予给Pattern类
Pattern.matches(String regex, CharSequence input) boolean //该方法适合于该正则表达式只会使用一次的情况，也就是只进行一次匹配工作，因为这种情况下并不需要生成一个Matcher实例，全匹配。
split(CharSequence input) String[] //将目标字符串按照Pattern里所包含的正则表达式为模进行分割
matcher(CharSequence input) Matcher //根据输入字符串，生成Matcher
pattern() String //返回正则表达式
Pattern.quote(String s) String //Pattern.quote("[1]")返回：\Q[1]\E
注：\Q...\E块：将\Q和\E之间的正则转义为字面意义。比如正则：\Q[1]\E，表示的是匹配一对方括号，里面有一个数字1，而不是只有数字1的字符组。

2、Matcher

Matcher类提供了对正则表达式的分组支持,以及对正则表达式的多次匹配支持

matches() boolean //整个字符串匹配
lookingAt() boolean //是否以匹配的字符串为开始
find() boolean //找下一个可以匹配的字符串
start() int //第一次匹配的位置
end() int //最后一次匹配的位置
group() String //相当于与整体匹配，返回匹配的字符串与正则分组有关 ()表示分组
group(int group) String //得到与第group组匹配的，0代表整体
end(int group) int //与第group组匹配的结束为止
start(int group) int
groupCount() String

3、实例

String str = "Hello,World! in Java.";
Pattern pattern = Pattern.compile("W(or)(ld!)");
Matcher matcher = pattern.matcher(str);
while(matcher.find()){
System.out.println("Group 0:"+matcher.group(0));//得到第0组——整个匹配
System.out.println("Group 1:"+matcher.group(1));//得到第一组匹配——与(or)匹配的
System.out.println("Group 2:"+matcher.group(2));//得到第二组匹配——与(ld!)匹配的，组也就是子表达式
System.out.println("Start 0:"+matcher.start(0)+" End 0:"+matcher.end(0));//总匹配的索引
System.out.println("Start 1:"+matcher.start(1)+" End 1:"+matcher.end(1));//第一组匹配的索引
System.out.println("Start 2:"+matcher.start(2)+" End 2:"+matcher.end(2));//第二组匹配的索引
System.out.println(str.substring(matcher.start(0),matcher.end(1)));//从总匹配开始索引到第1组匹配的结束索引之间子串——Wor

输出：

Group 0:World!
Group 1:or
Group 2:ld!
Start 0:6 End 0:12
Start 1:7 End 1:9
Start 2:9 End 2:12
Wor

参考文献

正则表达式 - 语法
Java 正则表达式