3.正则表达式

1.普通字符

  • 就是普通的a-z,A-z,0-9等等字符。

2.元字符

  • 有一些特殊含义的字符。

每一个语言或平台都可能会有不同的元字符,具体情况具体分析

元字符 含义
. 匹配一个字符(除了换行符\n)
[] 匹配里面一个可选字符
^ 匹配词首
$ 匹配词尾

注:[a-z],[A-Z],[0-9]对应小写字符,大写字母,数字。

这是最基本的四个元字符,有了这四个,几乎所有的正则表达式都能写出来了。比如:
手机号码的正则表达式为:

[1][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9]
  • 但是这样写太不方便了,而且显的很蠢0.0,所以有更多的元字符诞生了。
元字符 含义
{n} 前面的字符重复n次
{n,m} 前面的字符重复从n次到m次
{n,} 前面的字符重复n次到无限次

这样,手机号码的正则表达式为:

[1][0-9]{10}
  • 但是这时候要对字符串'abc'和'ac'进行匹配,这时候正则表达式为:
a[b]{0,1}c

这样觉得又有点不划算,0到1还要用{},所以又有了新的元字符

元字符 含义
* {0,}
+ {1,}
? {0,1}

这样子上述正则表达式就可以很开心的写成:

ab?c

是不是感觉好很多呢?

然而新的问题来了,我想匹配一个不是abc三个字母的字母,正则应该是这样:

[d-z]

但是与我表达的意思就是毫无关系了,这个正则将否定变成了肯定,这时候引入一个新的元字符:

元字符 含义
[^] 不包含里面内容

上述正则就变成了

[^a-c]
  • 又来一个新问题,有个程序员矫情了,觉的输入[0-9],[A-Za-z0-9]就是浪费生命,于是又引入了新的元字符:
元字符 含义
\d [0-9]
\w [A-Za-z0-9]

这样手机号正则就可以更简便了:

[1]\d{10}
  • 最后一个问题来了,我想匹配java6中的java,并不想匹配java7中的java,该怎么办?哈哈,于是又引入了新的元字符:
元字符 含义
(?:pattern) 正向预查的正向匹配,等效于
(?=pattern) 正向预查的正向匹配,匹配后面跟着pattern的字符串
(?!pattern 正向预查的正向不匹配,匹配后面不跟着pattern的字符串
(?<=pattern) 反向预查的反向匹配,匹配前面是pattern的字符串
(? 反向预查的反向不匹配,匹配前面不是pattern的字符串

文本如下:

java6 java7

正则表达式如下:

java(?:6|7)
java(?=6)
java(?!6)

(?<=j)a
(?

查找结果如下:

java6 java7
java(java6前的java)
java(java7前的java)

a a(java6和java7 j后面的a)
a a(java6和java7 v后面的a)
  • 哈哈,认为是最后一个了吧,我又发现了一个有用的东西,贪婪模式和非贪婪模式!这次没有新的元符号引入,但是主角是 ?,有了它就是非贪婪模式,没有它就是贪婪模式啦,具体如下~

文本:

hadkfaldafxxlxxjlkjasldfjaslkxxlovexxalfjlkxxyouxxkla

正则表达式如下:

xx.*xx
xx.*?xx

查找结果如下:

xxlxxjlkjasldfjaslkxxlovexxalfjlkxxyouxx
xxlxx xxlovexx xxyouxx

量词默认是贪婪模式,但是当?出现在量词后面时,量词变成了非贪婪模式,能认出自己人了,哈哈~

量词即{},包括?,+,*

3.总结速查表

元字符 含义
. 匹配一个字符(除了换行符\n)
[] 匹配里面一个可选字符
^ 匹配词首
$ 匹配词尾
{n} 前面的字符重复n次
{n,m} 前面的字符重复从n次到m次
{n,} 前面的字符重复n次到无限次
* {0,}
+ {1,}
? {0,1}
[^] 不包含里面内容
\d [0-9]
\w [A-Za-z0-9]
(?:pattern) 正向预查的正向匹配,等效于
(?=pattern) 正向预查的正向匹配,匹配后面跟着pattern的字符串
(?!pattern 正向预查的正向不匹配,匹配后面不跟着pattern的字符串
(?<=pattern) 反向预查的反向匹配,匹配前面是pattern的字符串
(? 反向预查的反向不匹配,匹配前面不是pattern的字符串
量词? 非贪婪模式

4.注意 (持续更新)

4.1 .不能匹配换行符\n

  • 使用.时不能匹配换行符,所以有时候会出现一些问题。
    python的解决方案如下:
import re
s='''xxI
xxabcxxlove
xxdefxxyouxx'''
a=re.findall('xx(.*?)xx',s)
b=re.findall('xx(.*?)xx',s,re.S)#使用re.S
print(a)
print(b)

结果为:

['abc', 'def']
['I\n', 'love\n', 'you']

5.问题

5.1 邮箱正则

  • 合法E-mail地址:
    1. 必须包含一个并且只有一个符号“@”
    2. 第一个字符不得是“@”或者“.”
    3. 不允许出现“@.”或者.@
    4. 结尾不得是字符“@”或者“.”
    5. 允许“@”前的字符中出现“+”
    6. 不允许“+”在最前面,或者“+@”
    7. @之后至少有一个.
^[^@\.].*[^\.\+]?@[^\.]?.*\..*[^@\.]$

5.2 手机号码正则

  • 合法手机号码正则:
    1、长度13位;
    2、以86的国家码打头;
    3、手机号码的每一位都是数字。
86[1]\d{10}

5.3 验证账号是否合法

  • 验证帐号是否合法
    验证规则:字母、数字、下划线组成,字母开头,4-16位。
[A-Za-z][\w_]{3,15}

你可能感兴趣的:(3.正则表达式)