http://www.jb51.net/tools/zhengze.html
1. 概念
正则表达式(Regular Expression)就是记录文本规则的代码。正则表达又称正规表示法、常规表示法,在代码中常简写为regex、regexp或RE。。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。
2. 作用
在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。
3. 常用元字符
代码 | 种类 | 说明 |
---|---|---|
. | 字符匹配> | 匹配除换行符以外的任意字符 |
\w | 字符匹配> | 匹配字母或数字或下划线或汉字 |
\s | 字符匹配 | 匹配任意的空白符,包括空格,制表符(Tab),换行符,中文全角空格等 |
\d | 字符匹配> | 匹配数字 |
\b | 位置匹配> | 匹配单词的开始或结束 |
^ | 位置匹配> | 匹配字符串的开始 |
$ | 位置匹配> | 匹配字符串的结束 |
4. 常用限定符
代码/语法 | 说明 |
---|---|
* | 重复零次或更多次 |
+ | 重复一次或更多次 |
? | 重复零次或一次 |
{n} | 重复n次 |
{n,} | 重复n次或更多次 |
{n,m} | 重复n到m次 |
5. 常用反义词
代码/语法 | 说明 |
---|---|
\W | 匹配任意不是字母,数字,下划线,汉字的字符 |
\S | 匹配任意不是空白符的字符 |
\D | 匹配任意非数字的字符 |
\B | 匹配不是单词开头或结束的位置 |
[^x] | 匹配除了x以外的任意字符 |
[^aeiou] | 匹配除了aeiou这几个字母以外的任意字符 |
6. 字符转义
如果你想查找元字符本身的话,比如你查找.,或者*,就出现了问题:你没办法指定它们,因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此,你应该使用\.和\*。当然,要查找\本身,你也得用\\.
例如:deerchao\.net匹配deerchao.net,C:\\Windows匹配C:\Windows。
7. 示例
(1)QQ号:
^\d{5,12}$ //QQ的规则是5~12位的数字组成,
(2)手机号:
^1[3|4|5|8]\d{9}$ //以1开头,第二位是3,4,5,8中的一种,后面跟9位数字
(3)以H开头的单词:
\bH\w*\b // \b表示单词的词首或者词尾的位置 \w*表示 匹配任意不是字母,数字,下划线,汉字的字符 0到无数次
(4)字母数为6的单词:
\b\w{6}\b
(5) 第一个单词:
^\w+ //这里不能用*,因为*表示重复0到更多次
(6)一个字符是字母、数字或_:
[a-z0-9A-Z_] //[]内列出备选项,例如[aeiou]匹配元音字母
(7)区号为3位的固定电话号码:
\(?0\d{2}\)?[- ]?\d{8}|0\d{2}[- ]?\d{8}
注释:\(?:(重复0~1次 0\d{2}:0后面是两位数字 [) -]?:三位区号后可能是')', ' '或者'-',重复0~1次 \d{8}:后面跟8个数字 |表示分支,或者
(8)IP地址:
((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?) // 括号()表示组合,被重复时应作为一个整体,注意,ip地址可以带前导0,即192.168.05.06合法
注释:(2[0-4]\d|25[0-5]|[01]?\d\d?)\.) :200-249或250-255或0-199,后面跟一个字符‘.’,\.是转义字符
(9)\S+:匹配不包含空白符的字符串
(10)<a[^>]+>:匹配用尖括号‘<’,'>'括起来的以a开头的字符串。