下面我们来聊一聊正则表达式。首先一个东西出现必定是满足我们的需求,没有人会创造一个不需要的东西出来,他创造出来就是为了解决我们的需求。那么首先我们了解一下他的历史。
正则表达式的"祖先"可以一直上溯至对人类神经系统如何工作的早期研究。Warren McCulloch 和 Walter Pitts 这两位神经生理学家研究出一种数学方式来描述这些神经网络。 1956 年, 一位叫 Stephen Kleene 的数学家在 McCulloch 和 Pitts 早期工作的基础上,发表了一篇标题为"神经网事件的表示法"的论文,引入了正则表达式的概念。正则表达式就是用来描述他称为"正则集的代数"的表达式,因此采用"正则表达式"这个术语。随后,发现可以将这一工作应用于使用 Ken Thompson 的计算搜索算法的一些早期研究,Ken Thompson 是 Unix 的主要发明人。正则表达式的第一个实用应用程序就是 Unix 中的 qed 编辑器。如他们所说,剩下的就是众所周知的历史了。从那时起直至现在正则表达式都是基于文本的编辑器和搜索工具中的一个重要部分。
正则表达式是Stephen Kleene首先提出引用,Ken Thompson 应用在计算机领域。
典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了,但它缺乏灵活性,若采用这种方法搜索动态文本,即使不是不可能,至少也会变得很困难。因为普通方式太过笨重和不灵活。所以引入正则表达式。通过使用正则表达式,可以:
测试字符串内的模式。
例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或信用卡号码模式。这称为数据验证。
替换文本。
可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它。
基于模式匹配从字符串中提取子字符串。
可以查找文档内或输入域内特定的文本。
正则表达式的应用领域是非常广的,包括 *nix(Linux, Unix等)、HP 等操作系统,PHP、C#、Java 等开发环境,以及很多的应用软件中,都可以看到正则表达式的影子。
C# 正则表达式
Java 正则表达式
JavaScript 正则表达式
Python 正则表达式
Ruby 正则表达式
今天就聊一聊正则表达式在Java中的应用。
上面的只是增加你知识的宽度,增加你与别人的谈资,下面才是正菜。
正则表达式是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。正则表达式强大的,但是也是很复杂的。所以如果你是从事Java开发的程序猿(媛),那么你就没有必要学习的很精通,只需要了解基本语法,见到了知道是干什么的就行了。如果你想学习更精通、更深入的正则表达式,我想你没有必要看下去了。
在其他语言中,\\
表示:我想要在正则表达式中插入一个普通的(字面上的)反斜杠,请不要给它任何特殊的意义。
在 Java 中,\\
表示:我要插入一个正则表达式的反斜线,所以其后的字符具有特殊的意义。
所以,在其他的语言中(如Perl),一个反斜杠 \
就足以具有转义的作用,而在 Java 中正则表达式中则需要有两个反斜杠才能被解析为其他语言中的转义作用。也可以简单的理解在 Java 的正则表达式中,两个 \\
代表其他语言中的一个\
,这也就是为什么表示一位数字的正则表达式是 \\d
,而表示一个普通的反斜杠是 \\\\
。
字符 | 说明 |
---|---|
\ | 将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,“n"匹配字符"n”。"\n"匹配换行符。序列"\\“匹配”\","\(“匹配”("。 |
^ | 匹配输入字符串开始的位置。 |
$ | 匹配输入字符串结尾的位置。 |
* | 零次或多次匹配前面的字符或子表达式。例如,zo* 匹配"z"和"zoo"。* 等效于 {0,}。 |
+ | 一次或多次匹配前面的字符或子表达式。例如,"zo+"与"zo"和"zoo"匹配,但与"z"不匹配。+ 等效于 {1,}。 |
? | 零次或一次匹配前面的字符或子表达式。例如,"do(es)?“匹配"do"或"does"中的"do”。? 等效于 {0,1}。 |
\d | 数字字符匹配。等效于 [0-9]。 |
[a-z] | 字符范围。匹配指定范围内的任何字符。例如,"[a-z]"匹配"a"到"z"范围内的任何小写字母。 |
[0-9] | 数字范围。匹配指定范围的任何字符。例如,"[0-9]"匹配"0"到"9"范围内的任何数字 。 |
上面的熟悉一下就行了。通过代码我们来了解一下。
通过这个详细的例子就可以明白他的用法。我们没有必要区深究,毕竟不是从事这个方面。
我们是Java程序猿当然是用代码去来应用正则表达式。
Java学习正则表达式必须学习三个类。
通过一个简单的示例来了解一下。
class RegexExample1{
public static void main(String args[]){
String content = "武汉加油,中国加油,世界加油";
String pattern = ".*武汉.*";
boolean isMatch = Pattern.matches(pattern, content);
System.out.println("字符串中是否包含了 '武汉' 子字符串? " + isMatch);
}
}
用于实现content 字符串中是否存在武汉
字符串。
因为Pattern没有构造函数,所以要用compile返会一个Pattern对象。
这也是Pattern里面最常用的方法。其他方法可以自行去文档查看。
序号 | 返回值 | 方法 |
---|---|---|
1 | int | public int start() 返回以前匹配的初始索引。 |
2 | int | public int start(int group) 返回在以前的匹配操作期间,由给定组所捕获的子序列的初始索引 |
3 | int | public int end() 返回最后匹配字符之后的偏移量。 |
4 | int | public int end(int group) 返回在以前的匹配操作期间,由给定组所捕获子序列的最后字符之后的偏移量。 |
研究方法用来检查输入字符串并返回一个布尔值,表示是否找到该模式:
序号 | 返回值 | 方法 |
---|---|---|
1 | boolean | public boolean lookingAt() 尝试将从区域开头开始的输入序列与该模式匹配。 |
2 | boolean | public boolean find() 尝试查找与该模式匹配的输入序列的下一个子序列。 |
3 | boolean | public boolean find(int start) 重置此匹配器,然后尝试查找匹配该模式、从指定索引开始的输入序列的下一个子序列。 |
4 | boolean | public boolean matches() 尝试将整个区域与模式匹配。 |
替换方法是替换输入字符串里文本的方法:
序号 | 返回值 | 方法 |
---|---|---|
1 | Matcher | public Matcher appendReplacement(StringBuffer sb, String replacement) 实现非终端添加和替换步骤。 |
2 | String | public StringBuffer appendTail(StringBuffer sb) 实现终端添加和替换步骤。 |
3 | String | public String replaceAll(String replacement) 替换模式与给定替换字符串相匹配的输入序列的每个子序列。 |
4 | String | public String replaceFirst(String replacement) 替换模式与给定替换字符串匹配的输入序列的第一个子序列。 |
5 | String | public static String quoteReplacement(String s) 返回指定字符串的字面替换字符串。这个方法返回一个字符串,就像传递给Matcher类的appendReplacement 方法一个字面字符串一样工作。 |
通过以上一分类是不是就清楚了呢。
下面进行方法的对比使用。
public class RegexMatches01
{
private static final String REGEX = "\\bcat\\b";
private static final String INPUT =
"cat cat cat cattie cat";
public static void main( String args[] ){
Pattern p = Pattern.compile(REGEX);
Matcher m = p.matcher(INPUT); // 获取 matcher 对象
int count = 0;
while(m.find()) {
count++;
System.out.println("Match number "+count);
System.out.println("start(): "+m.start());
System.out.println("end(): "+m.end());
}
}
}
matches 和 lookingAt 方法都用来尝试匹配一个输入序列模式。它们的不同是 matches 要求整个序列都匹配,而lookingAt 不要求。lookingAt 方法虽然不需要整句都匹配,但是需要从第一个字符开始匹配。
public class RegexMatches01
{
private static final String REGEX = "foo";
private static final String INPUT = "fooooooooooooooooo";
private static final String INPUT2 = "ooooofoooooooooooo";
private static Pattern pattern;
private static Matcher matcher;
private static Matcher matcher2;
public static void main( String args[] ){
pattern = Pattern.compile(REGEX);
matcher = pattern.matcher(INPUT);
matcher2 = pattern.matcher(INPUT2);
System.out.println("Current REGEX is: "+REGEX);
System.out.println("Current INPUT is: "+INPUT);
System.out.println("Current INPUT2 is: "+INPUT2);
System.out.println("lookingAt(): "+matcher.lookingAt());
System.out.println("matches(): "+matcher.matches());
System.out.println("lookingAt(): "+matcher2.lookingAt());
}
}
从结果可以看出lookingAt 方法虽然不需要整句都匹配,但是需要从第一个字符开始匹配。
public class RegexMatches01
{
private static String REGEX = "dog";
private static String INPUT = "The dog says meow. " +
"All dogs say meow.";
private static String REPLACE = "cat";
public static void main(String[] args) {
Pattern p = Pattern.compile(REGEX);
// get a matcher object
Matcher m = p.matcher(INPUT);
INPUT = m.replaceFirst(REPLACE);
System.out.println(INPUT);
INPUT = m.replaceAll(REPLACE);
System.out.println(INPUT);
}
}
public class RegexMatches
{
private static String REGEX = "a*b";
private static String INPUT = "aabfooaabfooabfoobkkk";
private static String REPLACE = "-";
public static void main(String[] args) {
Pattern p = Pattern.compile(REGEX);
// 获取 matcher 对象
Matcher m = p.matcher(INPUT);
StringBuffer sb = new StringBuffer();
while(m.find()){
m.appendReplacement(sb,REPLACE);
}
m.appendTail(sb);
System.out.println(sb.toString());
}
}
到这里就基本写完了,还是那句话正则表达式了解就好。后面有彩蛋哦。
^[0-9]*$
^\d{n}$
^\d{n,}$
^\d{m,n}$
^(0|[1-9][0-9]*)$
^([1-9][0-9]*)+(\.[0-9]{1,2})?$
^(\-)?\d+(\.\d{1,2})$
^(\-|\+)?\d+(\.\d+)?$
^[0-9]+(\.[0-9]{2})?$
^[0-9]+(\.[0-9]{1,3})?$
^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$
^\d+$ 或 ^[1-9]\d*|0$
^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
^[\u4e00-\u9fa5]{0,}$
^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
^.{3,20}$
^[A-Za-z]+$
^[A-Z]+$
^[a-z]+$
^[A-Za-z0-9]+$
^\w+$ 或 ^\w{3,20}$
^[\u4E00-\u9FA5A-Za-z0-9_]+$
^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
^\w+([-+.]\w+)\*@\w+([-.]\w+)\*\.\w+([-.]\w+)\*$
[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?
[a-zA-z]+://[^\s]\* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]\*)?$
^(13[0-9]|14[5|7]|15[0|1|2|3|4|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
\d{3}-\d{8}|\d{4}-\d{7}
((\d{11})|^((\d{7,8})|(\d{4}|\d{3})-(\d{7,8})|(\d{4}|\d{3})-(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1})|(\d{7,8})-(\d{4}|\d{3}|\d{2}|\d{1}))$)
(^\d{15}$)|(^\d{18}$)|(^\d{17}(\d|X|x)$)
^[a-zA-Z][a-zA-Z0-9_]{4,15}$
^[a-zA-Z]\w{5,17}$
^(?=.\*\d)(?=.\*[a-z])(?=.\*[A-Z])[a-zA-Z0-9]{8,10}$
^(?=.\*\d)(?=.\*[a-z])(?=.\*[A-Z]).{8,10}$
^\d{4}-\d{1,2}-\d{1,2}
^(0?[1-9]|1[0-2])$
^((0?[1-9])|((1|2)[0-9])|30|31)$
^[1-9][0-9]\*$
^(0|[1-9][0-9]\*)$
^(0|-?[1-9][0-9]\*)$
^[0-9]+(.[0-9]{2})?$
^[0-9]+(.[0-9]{1,2})?$
^[0-9]{1,3}(,[0-9]{3})\*(.[0-9]{1,2})?$
^([0-9]+|[0-9]{1,3}(,[0-9]{3})\*)(.[0-9]{1,2})?$
^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
[\u4e00-\u9fa5]
[^\x00-\xff]
(包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))\n\s\*\r
(可以用来删除空白行)<(\S\*?)[^>]\*>.\*?|<.\*? />
( 首尾空白字符的正则表达式:^\s\*|\s\*$或(^\s\*)|(\s\*$)
(可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)[1-9][0-9]{4,}
(腾讯QQ号从10000开始)[1-9]\d{5}(?!\d)
(中国邮政编码为6位数字)((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))
结束:欢迎各位留言交流,有帮助请点个赞再走吧!
感谢 菜鸟教程,这是一个十公好用的教程,初学者可以收藏加使用起来。
0-9 ↩︎