python正则表达式-re模块的常见用法(上)

python正则表达式-re模块的常见用法(下)

前言

在开发中可能会遇到大量的字符串处理工作,在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本,而python中re模块的使用可以带来很大便利。

re模块的使用

import re
result = re.match(正则表达式,要匹配的字符串)
result.group()
示例
In [1]: import re

In [2]: mm = 'myblog'

In [3]: result = re.match('my',mm)

In [4]: result.group()
Out[4]: 'my'

re.match()能够匹配以XXX开头的字符串,从左到右匹配,若字符串匹配正则表达式,则match方法返回匹配对象(Match Object),否则返回None,注意不是空字符串。

表示字符

字符 功能
. 匹配任意1个字符,除了\n
[ ] 匹配[ ]中列举的字符
\d 匹配数字,即0-9
\D 匹配非数字,即不是数字
\s 匹配空白,即空格,tab键
\S 匹配非空白
\w 匹配单词字符,即a-z、A-Z、0-9、_
\W 匹配非单词字符

示例

# coding:utf-8
import re
ret1 = re.match('.','Love') #从左至右匹配
R1 = ret1.group()
print("R1 = %s" %R1)
ret2 = re.match('\d.\d','888') #匹配数字以及任意字符
R2 = ret2.group()
print("R2 = %s" %R2)
ret3 = re.match('\W\w\S.',' Love')
R3 = ret3.group()
print("R3 = %s" %R3)
ret4 = re.match('[Ll]','love Love') #无论是大写L还是小写l皆可匹配
R4 = ret4.group()
print("R4 = %s" %R4)
ret5 = re.match('[0123456789]','8') #匹配数字0-9的第一种方法
R5 = ret5.group()
print("R5 = %s" %R5)
ret6 = re.match('[0-9]','8') #匹配数字0-9的第二种方法
R6 = ret6.group()
print("R6 = %s" %R6)

结果

R1 = L
R2 = 888
R3 =  Lov
R4 = l
R5 = 8
R6 = 8

表示数量

字符 功能
* 匹配前⼀个字符出现0次或者⽆限次,即可有可⽆
+ 匹配前⼀个字符出现1次或者⽆限次,即⾄少有1次
? 匹配前⼀个字符出现1次或者0次,即要么有1次,要么没有
{m} 匹配前⼀个字符出现m次
{m,} 匹配前⼀个字符⾄少出现m次
{m,n} 匹配前⼀个字符出现从m到n次
  1. 示例1:匹配出,一个字符串第一个字母为大小皆可,后面都是小写字母并且可有可无。
import re
ret1 = re.match('[A-Z][a-z]*','Aabcdefg')
R1 = ret1.group()
print("R1 = %s" %R1)

结果

R1 = Aabcdefg
  1. 示例2:匹配出,0-99之间的数字,包含01。
# coding:utf-8
import re
ret = re.match("[1-9]?[0-9]","08")
R =ret.group()
print('R = %s'%R)
  1. 示例3:匹配出,8到20位的密码,可以是⼤⼩写英⽂字⺟、数字、下划线,但不能以下划线开头。
# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]{1}[a-zA-Z0-9_]{7,19}","12a3g45678")
R1 = ret.group()
print('R1 = %s'%R1)
ret = re.match("[a-zA-Z0-9]\w{7,19}","12a3g45678love")
R2 = ret.group()
print('R2 = %s'%R2)

结果

R1 = 12a3g45678
R2 = 12a3g45678love
  1. 示例4:匹配出163的邮箱地址,且@符号之前有4到20位,例如[email protected]
# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com","[email protected]")
R1 = ret.group()
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com","[email protected]") #错误的匹配
R2 = ret.group()
print('R1 = %s'%R2)

结果

R1 = hello@163.com
R1 = hello@163.com

原生字符串

In [1]: import re

In [2]: mm = "c:\\a\\b\\c"

In [3]: mm
Out[3]: 'c:\\a\\b\\c'

In [4]: print(mm)
c:\a\b\c

In [5]: re.match("c:\\\\",mm).group()
Out[5]: 'c:\\'

In [6]: ret = re.match("c:\\\\",mm).group()

In [7]: print(ret)
c:\

可以看到,为了匹配⽂本中的字符"\",正则表达式⾥将需要4个反斜杠"\":前两个和后两个分别⽤于在编程语⾔⾥转义成反斜杠,转换成两个反斜杠后再在正则表达式⾥转义成⼀个反斜杠。Python中字符串前⾯加上 r 表示原⽣字符串,可以很好的解决这个问题,不怕漏写反斜杠。

In [8]: ret = re.match(r"c:\\a",mm).group()

In [9]: print(ret)
c:\a

表示边界

字符 功能
^ 匹配字符串开头
$ 匹配字符串结尾
\b 匹配⼀个单词的边界
\B 匹配⾮单词边界
  1. 示例1,可以看到,之前[email protected]的邮箱地址并不正确,但是仍然匹配出来了,完善的re规则是,
# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com$","[email protected]")
R1 = ret.group()
print('R1 = %s'%R1)
  1. 示例2:单词边界
# coding:utf-8
import re
ret1 = re.match(r".*\bLove\b","I Love you")
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r".*\bLove\b","I Loveyou")
print("ret2 = %s" %ret2)

结果:

R1 = I Love
ret2 = None
  1. 示例3:非单词边界
# coding:utf-8
import re
ret1 = re.match(r".*\Blove\B", "Ilovecoding")
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r".*\Blove\B","I love coding")
print("ret2 = %s" %ret2)

结果

R1 = Ilove
ret2 = None

匹配分组

字符 功能
| 匹配左右任意一个表达式
(ab) 将括号中字符作为⼀个分组
\num 引⽤分组num匹配到的字符串
(?P) 分组起别名
(?P=name) 引⽤别名为name分组匹配到的字符串
  1. 示例1:匹配0-100之间的自然数
# coding:utf-8
import re
ret1 = re.match(r"[1-9]?\d|100", "01")# 错误的情况
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r"[1-9]?\d$|100$", "99") #修改后的情况
R2 = ret2.group()
print('R2 = %s'%R2)

结果

R1 = 0
R2 = 99
  1. 示例2:
# coding:utf-8
import re
ret1 = re.match(r"([^-]*)-(\d+)","010-12345678")
R1 = ret1.group(0)
R2 = ret1.group(1)
R3 = ret1.group(2)
print('group(0) = %s'%R1)
print('group(1) = %s'%R2)
print('group(2) = %s'%R3)

结果

group(0) = 010-12345678
group(1) = 010
group(2) = 12345678
  1. 示例3:\number,匹配出 hh
# coding:utf-8
import re
ret1 = re.match(r"<[a-zA-Z]*>\w*$","hh") #第一种写法
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r"<([a-zA-Z]*)>\w*$", "hh") #分组引用的写法
R2 = ret2.group()
print('R2 = %s'%R2)
  1. 示例4:(?P) (?P=name),匹配出

    www.baidu.com

# coding:utf-8
import re
ret1 = re.match(r"<(?P\w*)><(?P\w*)>.*$","

www.baidu.com

"
) # name_1代表匹配到的别名,后面可以引用,name_2同理 R1 = ret1.group() print('R1 = %s'%R1)

结果:

R1 = <html><h1>www.baidu.com</h1></html>

本文中的示例re匹配方式不唯一,正则表达式的方法是有多种写法的,只要能达到预期效果就可以。

你可能感兴趣的:(python,python,re模块,正则表达式)