摘要:以引号""为例来介绍如何使用正则匹配。
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexTest {
public static void main(String[] args) {
String regEx = "\"(.+)\"";
String source = "The name \"McDon ald's\" is said \"markudonarudo\" in Japanese";
Pattern pattern = Pattern.compile(regEx);
Matcher matcher = pattern.matcher(source);
while (matcher.find()) {
String result = matcher.group(0);
System.out.println(result);
}
}
}
"McDon ald's" is said "markudonarudo"
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexTest {
public static void main(String[] args) {
String regEx = "\"([^\"]+)\"";
String source = "The name \"McDon ald's\" is said \"markudonarudo\" in Japanese";
Pattern pattern = Pattern.compile(regEx);
Matcher matcher = pattern.matcher(source);
while (matcher.find()) {
String result = matcher.group(0);
System.out.println(result);
}
}
}
"McDon ald's"
"markudonarudo"
因为.可以匹配任意字符,[^\"] 只能匹配非引号(")之外的任意字符,加上正则的贪婪性,就一直往后匹配到结尾, 又由于结束符是一个引号("),所以匹配的结尾是不满足条件的,再往前一个字符一个字符的移动,直到匹配到引号("),所以就得到了例一的结果。
那么如何让它不贪婪而达到例二的效果呢,请看例三。
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexTest {
public static void main(String[] args) {
String regEx = "\"(.+?)\"";
String source = "The name \"McDon ald's\" is said \"markudonarudo\" in Japanese";
Pattern pattern = Pattern.compile(regEx);
Matcher matcher = pattern.matcher(source);
while (matcher.find()) {
String result = matcher.group(0);
System.out.println(result);
}
}
}
返回结果:
"McDon ald's"
"markudonarudo"
现在看起来例三和例二的结果一样了。这次使用了懒惰模式,使用了?,就把贪婪模式变为懒惰模式,顾名思义,就是能接受就结束,可以把贪婪模式理解为从第一个匹配位置开始的逆向匹配,而懒惰模式可以理解为从第一个匹配位置开始的正向匹配,就是找到能匹配到的末尾引号(")就结束。
情景故事:
.+?的意思是在匹配的前提下,尽可能少的匹配,怎么样理解尽可能少,如此例中,.+?本来可以像上一个例子中,匹配一大串,但是由于后面有个?总是催促:“你匹配好了没有,该我了吧?”,所以,.+心理很烦,变得很懒了,在第一“收尾的时候就停下来了,这样就得到了正确的结果。
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexTest {
public static void main(String[] args) {
String regEx = "(?<=\")(.+?)(?=\")";
String source = "The name \"McDon ald's\" is said \"markudonarudo\" in Japanese";
Pattern pattern = Pattern.compile(regEx);
Matcher matcher = pattern.matcher(source);
while (matcher.find()) {
String result = matcher.group(0);
System.out.println(result);
}
}
}
McDon ald's
is said
markudonarudo
1. ?单独使用就成了最好匹配一次,即使不匹配也可以的元字符,所以懒惰的用法应该是紧跟着贪婪元字符的后面
2. (?<=")代表这个位置的左边必须有一个" ,既然正则不会占用" ,它只需要左边是 " 右边是什么它不会管,这样我们可以认为它占用了一个什么都不是的缝隙位置,这个缝隙位置只有一个要求就是左边是 "。
3. (?=\")的意思是占用两个字符之间的缝隙位置,缝隙位置的右边是"。
由于环视都不会占用字符,而缝隙只是理解,并不存在真正的缝隙,这样匹配结束后的位置只是到达s 和 "之间的位置,下一次匹配的时候就会把 " 也匹配上。
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexTest {
public static void main(String[] args) {
String regEx = "\"((?!\").)+\"";
String source = "The name \"McDon ald's\" is said \"markudonarudo\" in Japanese";
Pattern pattern = Pattern.compile(regEx);
Matcher matcher = pattern.matcher(source);
while (matcher.find()) {
String result = matcher.group(0);
System.out.println(result);
}
}
}
"McDon ald's"
"markudonarudo"
1. (?!\").的意思是一个位置的右边不能是" ,然后后面接了一个. ,就是说.表示的其他字符都行,就是不能是"。
原文链接:正则表达式---获取英文双引号里面的内容