\d 代表 [0-9]

\l 代表 [a-z]

\u 代表 [A-Z]

\a 代表 [A-Za-z]

\w 代表 [A-Za-z0-9_]

匹配中文字符：

[\\u4e00-\\u9fa5]

说明：貌似 vim 中这个不好使 :(

匹配双字节字符(包括汉字在内)：

[^\x00-\xff]

匹配空白行的正则表达式：

\n\s*\r

匹配 HTML 标记的正则表达式：

<(\S*?)[^>]*>.*?\|<.*? />

说明：仅能匹配一部分，对于复杂的嵌套标记无能为力

匹配首尾空白字符的正则表达式：

首 ^\s*

尾 \s*$

匹配Email地址的正则表达式：

\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* 或者 [\w-]\+(\.[\w-]\+)*@[\w-]\+(\.[\w-]\+)\+

匹配网址URL的正则表达式：

$\l\|\u$\+://[^\s]* 或者 $\l\|\u$\+://(\w\+(-\w\+)*)(\.(\w\+(-\w\+)*))*(\?\S*)?

匹配帐号是否合法(字母开头，5-16字节，允许字母数字下划线)：

$\l\|\u$\w\{4,15}

匹配国内固定电话号码：

\d\{3,4}-\d\{7,8}

匹配腾讯QQ号：

[1-9]\d\{4,}

说明：腾讯 QQ 号从 10000 开始

匹配国内邮政编码：

[1-9]\d\{5}(?!\d)

匹配身份证号：

\d\{15}\|\d\{18}\|\d\{17}[xX]

匹配ip地址：

\d+\.\d+\.\d+\.\d+

匹配特定数字（这里全不允许 0 打头，如果允许的话，需要调整一下）：

非负整数 [1-9]\d*\|0

正整数 [1-9]\d*

非正整数 -[1-9]\d*\|0

负整数 -[1-9]\d*

整数 -?[1-9]\d*

非负浮点数 \d\+(\.\d\+)? 或者 [1-9]\d*\.\d*\|0\.\d*[1-9]\d*\|0?\.0+\|0

正浮点数 ((\d\+\.\d*[1-9]\d*)\|(\d*[1-9]\d*\.\d\+)\|(\d*[1-9]\d*)) 或者 [1-9]\d*\.\d*\|0\.\d*[1-9]\d*

非正浮点数 ((-\d\+(\.\d\+)?)\|(0\+(\.0\+)?)) 或者 (-([1-9]\d*\.\d*\|0\.\d*[1-9]\d*))\|0?\.0+\|0

负浮点数 (-((\d\+\.\d*[1-9]\d*)\|(\d*[1-9]\d*\.\d\+)\|(\d*[1-9]\d*))) 或者 -([1-9]\d*\.\d*\|0\.\d*[1-9]\d*)

浮点数 (-?\d\+)(\.\d\+)? 或者 -?([1-9]\d*\.\d*\|0\.\d*[1-9]\d*\|0?\.0+\|0)

匹配特定字符串：

由英文字母组成的字符串 \a\+

由大写英文字母组成的字符串 \u\+

由小写英文字母组成的字符串 \l\+

由数字和英文字母组成的字符串 $\l\|\u\|\d$\+

由数字、英文字母和下划线组成的字符串 \w\+

特殊匹配（前跟某模式，后跟某模式，前不跟某模式，后不跟某模式）

后跟bar的foo foo$bar$\@=

后不跟bar的foo foo$bar$\@!

前跟bar的foo $bar$\@<=foo

前不跟bar的foo $bar$\@

简单的说，正则表达式是一种可以用于模式匹配和替换的强有力的工具。其作用如下：

测试字符串的某个模式。例如，可以对一个输入字符串进行测试，看在该字符串是否存在一个电话号码模式或一个信用卡号码模式。这称为数据有效性验证。

替换文本。可以在文档中使用一个正则表达式来标识特定文字，然后可以全部将其删除，或者替换为别的文字。

根据模式匹配从字符串中提取一个子字符串。可以用来在文本或输入字段中查找特定文字。

基本语法

正则表达式的形式一般如下：

/love/ 其中位于“/”定界符之间的部分就是将要在目标对象中进行匹配的模式。用户只要把希望查找匹配对象的模式内容放入“/”定界符之间即可。为了能够使用户更加灵活的定制模式内容，正则表达式提供了专门的“元字符”。所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式。

较为常用的元字符包括： “+”， “*”，以及 “?”。

“+”元字符规定其前导字符必须在目标对象中连续出现一次或多次。

“*”元字符规定其前导字符必须在目标对象中出现零次或连续多次。

“?”元字符规定其前导对象必须在目标对象中连续出现零次或一次

正则表达式使用特殊符号。我将各种符号以及其意义和用法简单的介绍一下：

\ 表示在其后的文字是特殊符号。例："n"和"n"是一致的。"\n"和换行符是一致的。

^ 和输入的开始一致。

$ 以它前面的字符结尾的；例如：ab+$就可以被“abb”，“ab”匹配；

* 与此符号之前的文字0次以上相同的话，两者一致。例："zo*"和"zoo","z"都一致。

+ 与此符号之前的文字1次以上相同的话，两者一致。例："zo+"和"zoo"一致,但和"z"不一致。

? 与此符号之前的文字0次或1次相同的话，两者一致。例："a?ve?"和"never"的"ve"一致。

. 为通配符，表示任何一个字符，例如：“a.c”可以匹配“anc”、“abc”、“acc”；(与除了换行符的所有单一文字一致。)

| 或运算符，例如：a(n|bc|cb)c可以匹配“abcc”,“anc”,“acbc”；

在正则表达式中实现类似编程逻辑中的“或”运算，在多个不同的模式中任选一个进行匹配的话，可以使用管道符 “|”。例如：to|too|2 上述正则表达式将会与目标对象中的 “to”, “too”, 或 “2” 相匹配

(正则表达式）以所指定的表达式寻找一致文字。如果找到了，储存下来。一致的部分可以从Match方法获得的阵列中找到。可以在正则表达式中使用 “()” 把字符串组合在一起。“()”符号包含的内容必须同时出现在目标对象中。

x|y x和y的任意一方相同都会被认为一致。例："(z|f)ood"和"zood","food"都一致。

{n} n是0以上的整数。与其前的文字n次相同的话，两者一致。例:"o{2}"和"Bob"中的"o"不一致，与"foooood"中的前两个"o"一致。

{n,} n是0以上的整数。与其之前的文字至少n次相同才一致。

{,n} n是0以上的整数。匹配n到无穷次之间任意次数。

{n,m} 两者整数。n至m范围的次数一致。

[xyz] 与中括号中的文字任意一个相同都被认为一致。

[^xyz] 与上面的相反。

[a-z] 文字的范围，从"a"到"z"的文字都被认为一致。

[^a-z] 与上面的相反。

[] 在[]内可以指定要求匹配的字符，例如:"a[nbc]c"可以匹配"anc"、"abc"、"acc"；但不可以匹配"ancc",a到z可以写成[a-z],0到9可以写成[0-9];

例如：

电话号码：024－84820482，02484820482(假设前面3或者4位，后面7或者8位，并且中间的减号可有可无)

都是符合规定的，那么可以用如下格式来匹配：[0-9]{3,4} \-? [0-9]{7,8}；

-注意：“\”为转义字符，因为“-”在正则表达式用有代表一个范围的意义，例如：前面所说的[0-9]，

所以它需要转义字符“\”进行转义才可使用；

\b 表示单词的末尾。例："er\b"和"never"的"er"一致，但和"verb"的"er"不一致。

\B 表示非单词的末尾。

\d 表示数字。

\D 表示非数字。

\s 表示空格。

\S 表示非空格。

\w 表示所有字母数字。

\W 表示非所有字母数字。

解说：

\d表示[0-9];\D表示[^0-9];\w表示[A-Z0-9];\W表示[^A-Z0-9];\s表示[\t\n\r\f],就是空格字符包括tab，空格等等;\S表示[^\t\n\r\f]，就是非空格字符

i （忽略大小写） /* 注意点 */

g （全文查找出现的所有 pattern） /* 注意点 */

gi （全文查找、忽略大小写）/* 注意点 */

\num num应该被赋予一个正数。与已经储存的部分比较。例："(.)\1"和任意的两个连续的相同

文字一致。

了解了这些之后看下面的注意点：

String s1="111+222+333";

System.out.println(s1.split("+").length);

//输出时提示错误：

java.util.regex.PatternSyntaxException: Dangling meta character '+' near index

问题出现在加号附近，查询相关的资料显示，+、*、|、\等符号在正则表达示中有相应的不同意义。

需要这样：

String s1="111+222+333";

System.out.println(s1.split("[+]").length);

或是

String s1="111+222+333";

System.out.println(s1.split("\\+").length);// 符号“\”本身就是特殊符号：转义符，因此是两个 "\"即“\\”表示符号 \

如果除了上面匹配的所有单词之外，你还想要匹配“toon”，那么，你可以使用“|”操作符。“|”操作符的基本意义就是“或”运算。要匹配“toon”，使用“t(a|e|i|o|oo)n”正则表达式。这里不能使用方扩号，因为方括号只允许匹配单个字符；这里必须使用圆括号“()”。圆括号还可以用来分组，具体请参见后面介绍。

.（点号）字符意即'任一字符'。因此，a.c匹配于abc、aac以及aqc。单个点号用以表示自己的情况很少，它多半与其他meta字符搭配使用，这一结合允许匹配多个字符，这部分稍后会提及。

最后一种匹配单个字符的方式是使用方括号表达式（bracket expression）。最简单的方括号表达式是直接将字符列表放在方括号里，例如，[aeiouy]表示的就是所有小写元音字母。举例来说，c[aeiouy]t匹配于cat、cot以及cut（还有cet、cit，与cyt），但不匹配于cbt。

匹配含字符串 hello、world、中国字符串的正则表达式：

[\s\S]*?(hello)|(world)|(中国)[\s\S]*?

正则表达式的测试工具：http://www.119.xdowns.com/uploadFile/2010-3/regex.rar

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class IfHanZi {

public static void main(String[] args) {

//方法一：

String s1 = "我是中国人";

String s2 = "imchinese";

String s3 = "im中国人";

System.out.println(s1 + ":" + new String(s1).length());

System.out.println(s2 + ":" + new String(s2).length());

System.out.println(s3 + ":" + new String(s3).length());

System.out.println((s1.getBytes().length == s1.length()) ? "s1无汉字":"s1有汉字");

System.out.println((s2.getBytes().length == s2.length()) ? "s2无汉字":"s2有汉字");

System.out.println((s3.getBytes().length == s3.length()) ? "s3无汉字":"s3有汉字");

//方法二：

int count = 0;

String regEx = "[\\u4e00-\\u9fa5]";

String str = "中文fd我是中国人as ";

Pattern p = Pattern.compile(regEx);

Matcher m = p.matcher(str);

while (m.find()) {

for (int i = 0; i <= m.groupCount(); i++) {

count = count + 1;　　}

}

System.out.println("共有 " + count + "个 ");

}

匹配中文还真是个头疼的事，有了这个表达式就好办了

匹配双字节字符(包括汉字在内)：[^x00-xff]

评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

匹配空白行的正则表达式：ns*r

评注：可以用来删除空白行

匹配HTML标记的正则表达式：<(S*?)[^>]*>.*?|<.*? />

评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

匹配首尾空白字符的正则表达式：^s*|s*$

评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式

匹配Email地址的正则表达式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*

评注：表单验证时很实用

匹配网址URL的正则表达式：[a-zA-z]+://[^s]*

评注：网上流传的版本功能很有限，上面这个基本可以满足需求

匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

评注：表单验证时很实用

匹配国内电话号码：d{3}-d{8}|d{4}-d{7}

评注：匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号：[1-9][0-9]{4,}

评注：腾讯QQ号从10000开始

匹配中国邮政编码：[1-9]d{5}(?!d)

评注：中国邮政编码为6位数字

匹配身份证：d{15}|d{18}

评注：中国的身份证为15位或18位

匹配ip地址：d+.d+.d+.d+

评注：提取ip地址时有用

匹配特定数字：

^[1-9]d*$　　 //匹配正整数

^-[1-9]d*$ 　 //匹配负整数

^-?[1-9]d*$　　 //匹配整数

^[1-9]d*|0$　 //匹配非负整数（正整数 + 0）

^-[1-9]d*|0$　　 //匹配非正整数（负整数 + 0）

^[1-9]d*.d*|0.d*[1-9]d*$　　 //匹配正浮点数

^-([1-9]d*.d*|0.d*[1-9]d*)$　 //匹配负浮点数

^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$　 //匹配浮点数

^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$　　 //匹配非负浮点数（正浮点数 + 0）

^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$　　//匹配非正浮点数（负浮点数 + 0）

评注：处理大量数据时有用，具体应用时注意修正

匹配特定字符串：

^[A-Za-z]+$　　//匹配由26个英文字母组成的字符串

^[A-Z]+$　　//匹配由26个英文字母的大写组成的字符串

^[a-z]+$　　//匹配由26个英文字母的小写组成的字符串

^[A-Za-z0-9]+$　　//匹配由数字和26个英文字母组成的字符串

^w+$　　//匹配由数字、26个英文字母或者下划线组成的字符串

在使用RegularExpressionValidator验证控件时的验证功能及其验证表达式介绍如下:

只能输入数字：“^[0-9]*$”

只能输入n位的数字：“^d{n}$”

只能输入至少n位数字：“^d{n,}$”

只能输入m-n位的数字：“^d{m,n}$”

只能输入零和非零开头的数字：“^(0|[1-9][0-9]*)$”

只能输入有两位小数的正实数：“^[0-9]+(.[0-9]{2})?$”

只能输入有1-3位小数的正实数：“^[0-9]+(.[0-9]{1,3})?$”

只能输入非零的正整数：“^+?[1-9][0-9]*$”

只能输入非零的负整数：“^-[1-9][0-9]*$”

只能输入长度为3的字符：“^.{3}$”

只能输入由26个英文字母组成的字符串：“^[A-Za-z]+$”

只能输入由26个大写英文字母组成的字符串：“^[A-Z]+$”

只能输入由26个小写英文字母组成的字符串：“^[a-z]+$”

只能输入由数字和26个英文字母组成的字符串：“^[A-Za-z0-9]+$”

只能输入由数字、26个英文字母或者下划线组成的字符串：“^w+$”

验证用户密码:“^[a-zA-Z]w{5,17}$”正确格式为：以字母开头，长度在6-18之间，

只能包含字符、数字和下划线。

验证是否含有^%&',;=?$"等字符：“[^%&',;=?$x22]+”

只能输入汉字：“^[u4e00-u9fa5],{0,}$”

验证Email地址：“^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$”

验证InternetURL：“^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$”

验证电话号码：“^((d{3,4})|d{3,4}-)?d{7,8}$”

正确格式为：“XXXX-XXXXXXX”，“XXXX-XXXXXXXX”，“XXX-XXXXXXX”，

“XXX-XXXXXXXX”，“XXXXXXX”，“XXXXXXXX”。

验证身份证号（15位或18位数字）：“^d{15}|d{}18$”

验证一年的12个月：“^(0?[1-9]|1[0-2])$”正确格式为：“01”-“09”和“1”“12”

验证一个月的31天：“^((0?[1-9])|((1|2)[0-9])|30|31)$”

正确格式为：“01”“09”和“1”“31”。

匹配中文字符的正则表达式： [u4e00-u9fa5]

匹配双字节字符(包括汉字在内)：[^x00-xff]

匹配空行的正则表达式：n[s| ]*r

匹配HTML标记的正则表达式：/<(.*)>.*|<(.*) />/

匹配首尾空格的正则表达式：(^s*)|(s*$)

匹配Email地址的正则表达式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*

匹配网址URL的正则表达式：http://([w-]+.)+[w-]+(/[w- ./?%&=]*)?

(1)应用：计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

String.prototype.len=function(){return this.replace([^x00-xff]/g,"aa").length;}

(2)应用：javascript中没有像vbscript那样的trim函数，我们就可以利用这个表达式来实现

String.prototype.trim = function()

{

return this.replace(/(^s*)|(s*$)/g, "");

}

(3)应用：利用正则表达式分解和转换IP地址

function IP2V(ip) //IP地址转换成对应数值

{

re=/(d+).(d+).(d+).(d+)/g //匹配IP地址的正则表达式

if(re.test(ip))

{

return RegExp.$1*Math.pow(255,3))+RegExp.$2*Math.pow(255,2))+RegExp.$3*255+RegExp.$4*1

}

else

{

throw new Error("Not a valid IP address!")

}

(4)应用：从URL地址中提取文件名的javascript程序

s="http://www.9499.net/page1.htm";

s=s.replace(/(.*/){0,}([^.]+).*/ig,"$2") ;//Page1.htm

(5)应用：利用正则表达式限制网页表单里的文本框输入内容

用正则表达式限制只能输入中文：onkeyup="value=value.replace(/[^u4E00-u9FA5]/g,') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^u4E00-u9FA5]/g,'))"

用正则表达式限制只能输入全角字符： onkeyup="value=value.replace(/[^uFF00-uFFFF]/g,') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^uFF00-uFFFF]/g,'))"

用正则表达式限制只能输入数字：onkeyup="value=value.replace(/[^d]/g,') "onbeforepaste= "clipboardData.setData('text',clipboardData.getData('text').replace(/[^d]/g,'))"

用正则表达式限制只能输入数字和英文：onkeyup="value=value.replace(/[W]/g,') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^d]/g,'

正则表达式-元字符讲解

\d 代表 [0-9]

你可能感兴趣的:(正则表达式-元字符讲解)