1.在讲解正则表达式之前,首先来看java正则表达式的一般写法。下面是一个demo,这里重点讲matcher.group函数,如果matcher.group()指的是整个匹配的值,matcher.group(1) 指的是(ab*),mater.group(2)指的是匹配(df+)
结果:adf a df
public class TestRegex {
static Pattern pattern = Pattern.compile("(ab*)(df+)");
public static void main(String[] args) {
String con = "efadfqq";
Matcher matcher = pattern.matcher(con);
while (matcher.find()) {
System.out.println(matcher.group(0));
System.out.println(matcher.group(1));
System.out.println(matcher.group(2));
}
}
}
这个demo中包含了知识点有,*代表匹配前面的表达式0次或多次,+代表匹配前面的表达式一次或多次
2.第二个demo
static Pattern pattern1 = Pattern.compile("a\\w+?b");
public static void main(String[] args) {
String con = "a122b34b";
Matcher matcher = pattern1.matcher(con);
while (matcher.find()) {
System.out.println(matcher.group(0));
}
}
?代表匹配前面字符0个或1个,最多一个也就是懒惰思路,尽可能匹配少。如果不加?的话,会把con内容全都匹配出来,加了?最多匹配一个,只得到a122b。默认的匹配是贪婪模式就可能多的匹配。
3.第三个demo
static Pattern pattern2 = Pattern.compile("a\\d{1}c{2,}[a-z]{2,3}");
public static void main(String[] args) {
String con = "eeea1cccxxgg";
Matcher matcher = pattern2.matcher(con);
while (matcher.find()) {
System.out.println(matcher.group(0));
}
}
这里面知识点,{n} 匹配前面的表达式n次,{n,}至少匹配前面表达式n次,{n,m}匹配前面的表达式n到m次,最后的结果为a1cccxxg
4.第四个demo
static Pattern pattern2 = Pattern.compile("set hive([a-z]*;)|add jar([a-z]*;)");
public static void main(String[] args) {
String con = "select xxxxx set hiveefd; table;table;add jarcon; ";
Matcher matcher = pattern2.matcher(con);
while (matcher.find()) {
System.out.println(matcher.group(0));
}
}
这里面知识点,主要在于多种情况的匹配用|来表示,会输出两次结果
set hiveefd;
add jarcon;
5.第5个demo
static Pattern pattern4 = Pattern.compile("\\n");
public static void main(String[] args) {
String con = "select * from table \n" +
"where a.id=10\n" +
"and a.deleted=1;";
Matcher matcher = pattern4.matcher(con);
System.out.println(con);
while (matcher.find()) {
System.out.println(matcher.replaceAll(" "));
}
}
这个知识点主要讲解转义字符,换行这种字符不能直接表示,于是通过在n前面加一个\来表示\n换行符,本身\也是特殊字符,所以要匹配换行符的话还要再加一个\来转义\表示这 个\是正常的,就成了\n
6.有几个重点的特殊字符要注意下
\t 代表制表符,也就是Tab键 ;
\r代表回车符;
\s代表匹配任务空白字符这个比较有用重点记住。
.代表除换行符以外的字符
\d代表数字
\D非数字字符
[xyz] 代表匹配其中一个
[^xyz]不匹配其中的任意一个
(~~~更多技术内容分享详见https://blog.csdn.net/qq_22222499)