利用Python正则表达式匹配email地址

正则表达式给予了Python在字符串匹配的过程中极大的方便。
正则顾名思义就是制定一个规则,至于是谁来遵守,Python中无疑是字符串。当我们在制定完一个字符串的表达形式后,所有符合此规则的字符串都可以依据此规则进行匹配,不需要再通过复杂的代码对字符串进行拆分判断。
此次可以来看下Python匹配常见email地址,比如: [email protected] , [email protected] , [email protected] 等。
对于这样的常见email格式,不同的公司可能命名规则不一样。但是在实际使用时怎么判断这些email是否合法。 可能你在注册某个网站时还需要你填写自己的用户名,如果填写不规范,后台往往会提醒昵称不合法,并且会在一侧提示合法的表达形式是什么。
那么做到这是很复杂吗? 告诉你,不复杂。正则表达式就可以解决这个问题。
首先,Python中是有一套字符表示方法的。
用’\d’可以匹配一个数字,’\w’可以匹配一个字母或数字,’.’可以匹配任意一个字符,\s可以匹配一个空格;
[ ]可以用来表示一定的范围匹配方式。其中,用*表示任意个字符(包括0个),用+表示至少一个字符,用?表示0个或1个字符,用{n}表示n个字符,用{n,m}表示n-m个字符。
举例看下:
‘\w\d’ :表示可以匹配全数字或者字符加数字,如’03’,’a4’,’A4’等,但是无法匹配’aa’;
‘Bu.’ :可以匹配Bu后面跟任意字符;
[\w]+ :表示至少一个字符或数字;
\w{2,3} :表示2个或者3个字符或者数字。

进入正题,来看如何实现对上述常见email格式进行正则。
email表达式开头可以是数字或者字符,可以想到用\w来表示,email地址也是可以容忍’.’的,但是限定最多只能出现一个,且不能在地址首尾出现。也就是说地址的最后一位必须是字母或者数字,所以在’.’后可以再次用\w来表示。接下来就是email地址中的@符号,这个符号是必须且不可更改的,需要用转义字符’\’来表示,\@。剩余的就是常见的.com ,.com.cn ,.it 等 同样’.’也需要用转义字符来表示,在转义字符后可以用\w{2,3}来匹配常见的格式,剩余的可有可无的.cn .it 等类似形式的怎么处理呢,需要用到(A|B])这样的形式来匹配,表示A或者B,可以用(\w{2}|)表示。组合起来就可以得到最终的正则表达式了。
附代码和验证:

import re
def is_valid_email(addr):
    if re.match(r'^([\w]+\.*)([\w]+)\@[\w]+\.\w{3}(\.\w{2}|)$', addr):
        return True
assert is_valid_email('[email protected]')
assert is_valid_email('[email protected]')
assert not is_valid_email('[email protected]')
assert is_valid_email('[email protected]')
assert not is_valid_email('doggy#sample.com')
assert not is_valid_email('[email protected]')
print('ok')

你可能感兴趣的:(Python)