python正则表达式-re模块的常见用法(下)
在开发中可能会遇到大量的字符串处理工作,在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本,而python中re模块的使用可以带来很大便利。
import re
result = re.match(正则表达式,要匹配的字符串)
result.group()
In [1]: import re
In [2]: mm = 'myblog'
In [3]: result = re.match('my',mm)
In [4]: result.group()
Out[4]: 'my'
re.match()能够匹配以XXX开头的字符串,从左到右匹配,若字符串匹配正则表达式,则match方法返回匹配对象(Match Object),否则返回None,注意不是空字符串。
字符 | 功能 |
---|---|
. | 匹配任意1个字符,除了\n |
[ ] | 匹配[ ]中列举的字符 |
\d | 匹配数字,即0-9 |
\D | 匹配非数字,即不是数字 |
\s | 匹配空白,即空格,tab键 |
\S | 匹配非空白 |
\w | 匹配单词字符,即a-z、A-Z、0-9、_ |
\W | 匹配非单词字符 |
示例
# coding:utf-8
import re
ret1 = re.match('.','Love') #从左至右匹配
R1 = ret1.group()
print("R1 = %s" %R1)
ret2 = re.match('\d.\d','888') #匹配数字以及任意字符
R2 = ret2.group()
print("R2 = %s" %R2)
ret3 = re.match('\W\w\S.',' Love')
R3 = ret3.group()
print("R3 = %s" %R3)
ret4 = re.match('[Ll]','love Love') #无论是大写L还是小写l皆可匹配
R4 = ret4.group()
print("R4 = %s" %R4)
ret5 = re.match('[0123456789]','8') #匹配数字0-9的第一种方法
R5 = ret5.group()
print("R5 = %s" %R5)
ret6 = re.match('[0-9]','8') #匹配数字0-9的第二种方法
R6 = ret6.group()
print("R6 = %s" %R6)
结果
R1 = L
R2 = 888
R3 = Lov
R4 = l
R5 = 8
R6 = 8
字符 | 功能 |
---|---|
* | 匹配前⼀个字符出现0次或者⽆限次,即可有可⽆ |
+ | 匹配前⼀个字符出现1次或者⽆限次,即⾄少有1次 |
? | 匹配前⼀个字符出现1次或者0次,即要么有1次,要么没有 |
{m} | 匹配前⼀个字符出现m次 |
{m,} | 匹配前⼀个字符⾄少出现m次 |
{m,n} | 匹配前⼀个字符出现从m到n次 |
import re
ret1 = re.match('[A-Z][a-z]*','Aabcdefg')
R1 = ret1.group()
print("R1 = %s" %R1)
结果
R1 = Aabcdefg
# coding:utf-8
import re
ret = re.match("[1-9]?[0-9]","08")
R =ret.group()
print('R = %s'%R)
# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]{1}[a-zA-Z0-9_]{7,19}","12a3g45678")
R1 = ret.group()
print('R1 = %s'%R1)
ret = re.match("[a-zA-Z0-9]\w{7,19}","12a3g45678love")
R2 = ret.group()
print('R2 = %s'%R2)
结果
R1 = 12a3g45678
R2 = 12a3g45678love
# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com","[email protected]")
R1 = ret.group()
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com","[email protected]") #错误的匹配
R2 = ret.group()
print('R1 = %s'%R2)
结果
R1 = hello@163.com
R1 = hello@163.com
In [1]: import re
In [2]: mm = "c:\\a\\b\\c"
In [3]: mm
Out[3]: 'c:\\a\\b\\c'
In [4]: print(mm)
c:\a\b\c
In [5]: re.match("c:\\\\",mm).group()
Out[5]: 'c:\\'
In [6]: ret = re.match("c:\\\\",mm).group()
In [7]: print(ret)
c:\
可以看到,为了匹配⽂本中的字符"\",正则表达式⾥将需要4个反斜杠"\":前两个和后两个分别⽤于在编程语⾔⾥转义成反斜杠,转换成两个反斜杠后再在正则表达式⾥转义成⼀个反斜杠。Python中字符串前⾯加上 r 表示原⽣字符串,可以很好的解决这个问题,不怕漏写反斜杠。
In [8]: ret = re.match(r"c:\\a",mm).group()
In [9]: print(ret)
c:\a
字符 | 功能 |
---|---|
^ | 匹配字符串开头 |
$ | 匹配字符串结尾 |
\b | 匹配⼀个单词的边界 |
\B | 匹配⾮单词边界 |
# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com$","[email protected]")
R1 = ret.group()
print('R1 = %s'%R1)
# coding:utf-8
import re
ret1 = re.match(r".*\bLove\b","I Love you")
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r".*\bLove\b","I Loveyou")
print("ret2 = %s" %ret2)
结果:
R1 = I Love
ret2 = None
# coding:utf-8
import re
ret1 = re.match(r".*\Blove\B", "Ilovecoding")
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r".*\Blove\B","I love coding")
print("ret2 = %s" %ret2)
结果
R1 = Ilove
ret2 = None
字符 | 功能 |
---|---|
| | 匹配左右任意一个表达式 |
(ab) | 将括号中字符作为⼀个分组 |
\num | 引⽤分组num匹配到的字符串 |
(?P |
分组起别名 |
(?P=name) | 引⽤别名为name分组匹配到的字符串 |
# coding:utf-8
import re
ret1 = re.match(r"[1-9]?\d|100", "01")# 错误的情况
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r"[1-9]?\d$|100$", "99") #修改后的情况
R2 = ret2.group()
print('R2 = %s'%R2)
结果
R1 = 0
R2 = 99
# coding:utf-8
import re
ret1 = re.match(r"([^-]*)-(\d+)","010-12345678")
R1 = ret1.group(0)
R2 = ret1.group(1)
R3 = ret1.group(2)
print('group(0) = %s'%R1)
print('group(1) = %s'%R2)
print('group(2) = %s'%R3)
结果
group(0) = 010-12345678
group(1) = 010
group(2) = 12345678
# coding:utf-8
import re
ret1 = re.match(r"<[a-zA-Z]*>\w*[a-zA-Z]*>$","hh") #第一种写法
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r"<([a-zA-Z]*)>\w*\1>$", "hh") #分组引用的写法
R2 = ret2.group()
print('R2 = %s'%R2)
# coding:utf-8
import re
ret1 = re.match(r"<(?P\w*)><(?P\w*)>.*(?P=name_2)>(?P=name_1)>$" ,"www.baidu.com
")
# name_1代表匹配到的别名,后面可以引用,name_2同理
R1 = ret1.group()
print('R1 = %s'%R1)
结果:
R1 = <html><h1>www.baidu.com</h1></html>
本文中的示例re匹配方式不唯一,正则表达式的方法是有多种写法的,只要能达到预期效果就可以。