本文是用于对正则表达式的初学者,帮助大家简单学习什么是正则表达式,并结合简单的例子来简单介绍正则表达式的规则。
注意本文只简单的介绍如何看懂正则表达式,并没有涉及在具体语言下的应用。
正则表达式是一种由符号和规则组成的形式语言。(形式语言是一种用简洁的、抽象的、形式化的数学公式来表达复杂语言语法的特殊语言,它只研究语言的组成规律,不涉及语义。)
正则表达式就是字符串的模式匹配,常用于:
校验:检查一个字符串中是否包含指定模式的子字符串
替换:将匹配的子字符串替换为给定的新字符串
捕获:提取符合匹配模式的字符串
批量提取/替换有规律的字符串
应用场景主要有:
在各种高级的文本编辑器中的使用
在各类办公软件(Office等)中使用
各种开发语言中的使用(C#/Java/JS/Perl/PHP等等)
用户输入的合法性验证(IP地址,特殊的订单号要求等)
模板引擎的标签库开发
网络爬虫(抓取机器人)的开发
批量的文本高效处理
正则表达式是一个表达式,一个 表达式由若干个 pattern 组成
pattern 由符号组成,且遵循特定的规则:
Patten = 代词 + 量词 + 定位介词*
本质上,一个模式单元(pattern unit)要做的事情就是来回答: 谁 + 多少 个+ 在哪里
代词,用来指代一个特定字符!一定要明白,代词限定了“一个”字符的范围!
常用的代词如下:
\d: 数字
\D: 非数字
\w: == [0-9a-zA-Z_] 0-9 a-z A-Z
\W: == [^0-9a-zA-Z_] 非单词字符
\s: 空格 tab 换行 中文全角空格
\S: 非空格
. 任意字符 数字也算不匹配\n
[0-9a-zA-Z_] : 字符集
[^xyz] :
[[:alpha:]] 任何字母
[[:digit:]] 任何数字
[[:alnum:]] 任何字母和数字
[[:space:]] 任何空白字符
[[:upper:]] 任何大写字母
[[:lower:]] 任何小写字母
[[:punct:]] 任何标点符号
[[:xdigit:]] 任何16进制的数字,相当于[0-9a-fA-F]
注意事项:
量词,代表有多少个代词。
常用的量词如下:
* : >= 0
+ : >= 1
? : == 1 or == 0
{n} : == n
{n, m} : >=n and <= m
*? : 非贪婪
+? : 非贪婪
示例
a* a出现0次以上
a{6,9}a出现6-9次
注意事项
定位词,即用来说明代词出现的位置
常用代词如下:
^ : 行首
$ : 行尾
\b : 单词边界
\B : 非单词边界
示例
^sn$
只匹配sn
开头是s结尾是n
^s.※?n$
开头是s结尾是n的单词如saaaan
\b单词分割符
\bhi\b.*\bLucy\b先是一个单词hi,然后是任意个任意字符(但不能是换行),最后是Lucy这个单词。如Hi asdalucy
注意事项:
有的时候我们需要进行一个模糊匹配
比如1x36 如果x可以是2或3等情况,可以借助[]
1[23]36即可匹配1236或者1336
即[23]被视为一个整体,他可以代表2也可以代表3
同样用于多条件的匹配
比如2.2.1中的匹配1236或者1336
可以写作1236|1336
注意
如果你想查找元字符本身的话,比如你查找.,或者*,就出现了问题:你没办法指定它们,因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此,你应该使用\.和\*。当然,要查找\本身,你也得用\\。
重复单个字符(直接在字符后面加上限定符就行了);但如果想要重复多个字符又该怎么办?你可以用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了,你也可以对子表达式进行其它一些操作。
示例
(cc){1,3}代表连续的cc重复1-3次
有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义:
\W 匹配任意不是字母,数字,下划线,汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
示例
[^c] 匹配除了c以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符
(?#comment) 这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读
示例:
2[0-4]\d(?#200-249)
贪婪
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。考虑这个表达式:a.b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。
懒惰
有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:
a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。
注意
正则表达式有另一条规则,比懒惰/贪婪规则的优先级更高:最先开始的匹配拥有最高的优先权
使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:
从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。
后向引用用于重复搜索前面某个分组匹配的文本。例如:
\1:代表分组1匹配的文本。
示例:
\b(\w+)\b\s+\1\b可以用来匹配重复的单词,像go go, 或者kitty kitty。这个表达式首先是一个单词,也就是单词开始处和结束处之间的多于一个的字母或数字(\b(\w+)\b),这个单词会被捕获到编号为1的分组中,然后是1个或几个空白符(\s+),最后是分组1中捕获的内容(也就是前面匹配的那个单词)(\1)。
也可以自己指定子表达式的组名。要指定一个子表达式的组名,请使用这样的语法:(?\w+)(或者把尖括号换成’也行:(?‘Word’\w+)),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容,你可以使用\k,所以上一个例子也可以写成这样:\b(?\w+)\b\s+\k\b。
断言用来声明一个应该为真的事实。正则表达式中只有当断言为真时才会继续进行匹配。
接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言。
(?=exp)也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I’m singing while you’re dancing.时,它会匹配sing和danc。
(?<=exp)也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。
假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了),你可以这样查找需要在前面和里面添加逗号的部分:((?<=\d)\d{3})*\b,用它对1234567890进行查找时结果是234567890。
下面这个例子同时使用了这两种断言:(?<=\s)\d+(?=\s)匹配以空白符间隔的数字(再次强调,不包括这些空白符)。
请详细分析表达式(?<=<(\w+)>).*(?=\1>),这个表达式最能表现零宽断言的真正用途。
前面我们提到过怎么查找不是某个字符或不在某个字符类里的字符的方法(反义)。但是如果我们只是想要确保某个字符没有出现,但并不想去匹配它时怎么办?例如,如果我们想查找这样的单词–它里面出现了字母q,但是q后面跟的不是字母u,我们可以尝试这样:
匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐,直接就观察出来了),你会发现,如果q出现在单词的结尾的话,像Iraq,Benq,这个表达式就会出错。这是因为[非u]总要匹配一个字符,所以如果q是单词的最后一个字符的话,后面的[非u]将会匹配q后面的单词分隔符(可能是空格,或者是句号或其它的什么),后面的\w*\b将会匹配下一个单词,于是图中就能匹配整个Iraq fighting。负向零宽断言能解决这样的问题,因为它只匹配一个位置,并不消费任何字符。现在,我们可以这样来解决这个问题:\b\wq(?!u)\w\b
零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp。例如:\d{3}(?!\d)匹配三位数字,而且这三位数字的后面不能是数字;\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。
**零宽度正回顾后发断言(?
本文只简单介绍一个简单的测试工具
https://tool.oschina.net/regex/
如需更多专业工具,请参考其他文章
本文目的只要学会简单的语法即可,对于复杂的正则表达式,当然要学习一下别人写的:
https://blog.csdn.net/onebigday/article/details/5429868