一、前序
正则表达式具有一套非常完整的、可以编写模式的语法体系。
正则表达式通过构建具有特定规则的模式,与输入的字符串信息进行比较,在特定的函数中使用,从而实现字符串的匹配、查找、替换及分隔等操作。
毫无疑问,正则表达式是好用的,具有简洁、灵活、快捷等优点,但好多人都是被文档教程的晦涩难懂、以及看似乱码样式的字符给吓跑了。
今天呢,我就以PHP为基础语言,来探讨下正则的语法规则。
二、正则表达式语法规则
1、正则表达式的匹配模板组成:
a、定界符
b、原子(普通字符,e.g a、 (bcd))
c、特殊功能的字符(称为元字符,例如*、+、?等)
d、模式修正符(比如 i为忽略大小写等)
2、定界符:除字母、数字、和反斜线“\”以外的任何字符都可以作为定界符号,例如“#”、“!”、“{}”、“|”等都可以作为定界符号来使用,但习惯上使用"/"。
示例如下:
/[ab]c/ --匹配ac、bc或者abc
|^\s+(\s+)?$|
3、原子:每个模式中最少要包含一个原子。而原子可以分为以下5类:
(1)、普通字符:a~z、A~Z、0~9
示例:
/1/ --用于匹配字符串中是否有1这个字符出现
/ksk/ --用于匹配是否有ksk这个字符串出现
(2)、一些特殊字符和元字符作为原子:有些符号具有特殊意义,但是我们必须在表达式中把它当成原子使用,则我们只能使用转义字符"\"取消它的特殊意义,将其变成一个普通的原子。
此处列举一些符号:双引号““”、单引号”‘“、星号”*“、加号”+“、点号”.“,这几个作为原子的话,必须使用转义字符进行转义,即\"样式。
示例如下:
'/\*/' 检查字符串中是否出现星号
(3)、使用一些非打印字符作为原子
非打印字符者,即打印时不出现在打印文本中,只起到定制文本格式等的作用的字符,如"\n"。
示例:
’/\t/‘ 检查是否有制表符
’/\r\n/‘ 检查字符串中是否有换行回车
(4)、使用”通用字符类型“作为原子
所谓通用字符类型者,是通过一个原子来匹配一批字符,通用字符类型可以使表达式看起来简洁
下面记录一些常见到的通用字符:
\W 匹配除数字、字符、下划线以外的任意一个字符,和[^0-9a-zA-Z_]等价
\w 等价于[0-9a-zA-z_],即和\W刚好相反,注意^,是取反的意思。
(5)、上面说了通用字符类型,而提供给我们的只有少之又少的那么几个,用起来肯定不够用撒,那么我们可不可以自己定义这个通用字符呢?
答案是可以,我们先来看上面的示例:\w 等价于[0-9a-zA-z_]
等价者,说明可以不用那么简化的写,可以就使用比较烦的那种,效果一样。那么我们就可以使用”[]“进行自定义这个通用字符类型。
示例:
’/A[b{4}][0-9a-zA-Z]+/‘ 解释:这个就是说:要以A为第一个字符,[b{4}]代表4个b,即bbbb,然后后面是任意数字、子母的组合原子。比如:AbbbbKSK、AbbbbDD等等
由于时间关系,剩下的元字符和修正符晚上回去再写。下面我来为大家解析一道面试经常遇到的正则题目:
问:请写出邮箱验证的正则表达式?
答案:
$param="/^([0-9A-Za-z\\-_\\.]+)@([0-9a-z]+\\.[a-z]{2,3}(\\.[a-z]{2})?)$/i";
解析:这道题出现的频率很高,几乎有正则考题时都会出现。这是因为邮箱验证用的很频繁,大多数人都是网上拷贝,用就是了,并不能理解它的语法。解析如下:
首先,分解上面正则表达式为4部分,分别为:’^([0-9A-Za-z\\-_\\.]+)’、‘@’、'[0-9a-z]+\\.[a-z]{2,3}'、'(\\.[a-z]{2})?'
’^([0-9A-Za-z\\-_\\.]+)’:为以任意数字、字幕、下划线、短杠、圆点组成的并开头的字符串,形成账号,注意^。
'@':要包含@符号,作为分隔符
'[0-9a-z]+\\.[a-z]{2,3}':数字和小写字幕的组合,后跟点号以及2-3个小写子母,形成邮箱的域。
'(\\.[a-z]{2})?':以点号开始,后跟两个小写子母,后面的问号表示,只搜索一遍,即只返回一个结果字符串。