正则表达式(re库)

文章目录

  • 一、match()匹配
    • 1、匹配目标
    • 2、通用匹配
    • 3、贪婪与非贪婪
    • 4、修饰符
    • 5、转义匹配
  • 二、search()匹配一个内容(重点)
  • 三、findall()匹配多个内容
  • 四、sub()去掉
  • 五、compile() 复用

正则表达式可以实现字符串的检索、替换、匹配等,我们可以在抓取到的源码中利用正则表达式获取我们需要的内容

常用的匹配规则如下:

模式 描述
\w 匹配字母、数字、下划线
\W 匹配不是字母、数字、下划线的字符
\s 匹配任意空白字符、等价于[\t\n\r\f]
\S 匹配任意非空字符
\d 匹配任意数字,等价于[0–9]
\D 匹配任意非数字的字符
\A 匹配字符串开头
\Z 匹配字符串结尾,如果存在换行,只匹配到换行前的结束字符串
\z 匹配字符串结尾,如果存在换行,同时还会匹配换行符
\G 匹配最后匹配完成的位置
\n 匹配一个换行符
\t 匹配一个制表符
^ 匹配一个字符串的开头
$ 匹配一个字符串的结尾
. 匹配任意字符,除了换行符,当re.EOTALL标记被指定时,则可以匹配包括换行符任意字符
[a-z0-9] 匹配a到z或0~9
[…] 用来表示一组字符,单独列出,比如[amk]匹配a, m或k
[^…] 不在[]内的字符,比如[^abc] 匹配除了a,b,c之外的字符
* 匹配0个或多个表达式
+ 匹配1个或多个表达式
? 匹配0个或1个前面的正则表达式定义的字段,非贪婪方式
{n} 精确匹配n个前面的表达式
{n,m} 匹配n到m次由前面正则表达式定义的片段,贪婪方式
a|b 匹配a或b
() 匹配括号内的表达式,也表示一个组

Python的re库提供了整个正则表达式的实现,利用这个库,可以在python中使用正则表达式

一、match()匹配

从字符串起始位置开始匹配正则表达式,如果匹配到了则返回匹配结果,否则返回None

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
# <_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
print(result.group()) # 匹配结果
# Hello 123 4567 World_This
print(result.span())  # 匹配范围
# (0, 25)

正则表达式:^Hello\s\d\d\d\s\d{4}\s\w{10}

开头^匹配字符串开头,也就是Hello开头;\s匹配空白字符;\d匹配数字,三个\d匹配123;\s匹配空白字符;后面\d{4}相当于4个\d匹配4567;\s匹配空白字符;\w{10}匹配10个字母、数字及下划线,最终匹配结果为Hello 123 4567 World_This,这里没有匹配完目标字符串,不过依然可以进行匹配,只是匹配结果短一点

1、匹配目标

可以使用()括号将想提取的子字符串括起来,调用group()方法利用索引可以获取结果,代码如下:

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\s(\w{10})', content)
print(result.group())
# Hello 1234567 World_This
print(result.group(1))
# 1234567
print(result.group(2))
# World_This

可以看到,result首先匹配到content中的Hello 1234567 World_This,接着其中的(\d+)匹配到了result中Hello 1234567 World_This1234567(\w{10})匹配到了Hello 1234567 World_This中的World_This

2、通用匹配

上面的正则表达式特别复杂,有个万能匹配可以用.*,表示匹配任意个任意字符,代码如下:

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
print(result.group())
# Hello 123 4567 World_This is a Regex Demo

该代码匹配了全部的字符,其中.*匹配了123 4567 World_This is a Regex

3、贪婪与非贪婪

使用.*可能有时候匹配不到我们想要的结果,比如:

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello.*(\d+).*Demo$', content)
print(result.group(1))

这匹配到的结果是7,而我们想要的是1234567,.*为贪婪匹配,会匹配尽可能多的字符,这里就会把123456匹配了,给\d+留下一个7,最后只有7

这里就要用非贪婪匹配,.*?非贪婪匹配是匹配尽可能少的字符,这样123456就不会匹配进来,就会留给\d+匹配,代码如下:

result = re.match('^Hello.*?(\d+).*Demo$', content)
# 1234567

如果匹配的结果在字符串结尾,.*?匹配不到任何内容,因为他匹配尽可能少的内容,代码如下:

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result1 = re.match('Hello.*?Re(.*?)', content)
result2 = re.match('Hello.*?Re(.*)', content)
print(result1.group(1))
print(result2.group(1))

结果第一行为空


gex Demo

4、修饰符

修饰符 描述
re.I 使匹配对大小写不敏感
re.L 做本地化识别匹配
re.M 多行匹配,影响^和$
re.S 使.匹配包括换行符在内的所有字符
re.U 根据Unicode字符集解析字符。这个影响\w,\W,\b,\B
re.X 该标志通过给予你更灵活的格式以便你将正则表达式写的更易于理解
import re

content = 'Hello 1234567 World_This \nis a Regex Demo'  #这行中\n为换行符,为两行代码的字符串
result = re.match('^Hello.*?(\d+).*Demo$', content)
print(result.group(1))

该代码和之前的代码一样,只是在字符串中多了个换行符\n,用来匹配其中的数字,运行直接报错,也就是说正则表达式没有匹配到这个字符串,因为.匹配除换行符之外的任意字符,当遇到换行符时,.*?就不能匹配,匹配失败,这里需要加个修饰符re.S即可修正这个错误,代码如下:

result = re.match('^Hello.*?(\d+).*Demo$', content, re.S)
# 1234567

网页匹配中re.Sre.I很常用

5、转义匹配

如果字符串中含有.,我们需要用到转义匹配,如果不用转义,则.会匹配任意字符

import re

content = '(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com', content)
print(result.group())
(百度)www.baidu.com

二、search()匹配一个内容(重点)

match()方法是从字符串开头开始匹配,如果开头不匹配,则匹配失败,比如:

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('Hello.*?(\d+).*?Demo', content)
print(result)
# None

这里字符串以Extra开头,但正则表达式以Hello开头,整个正则表达式是字符串的一部分,但是匹配失败了,match()需要考虑开头的内容,开头不匹配则失败,用起来就不是很方便

这里有另一个方法search(),匹配时会扫描整个字符串,然后返回第一个匹配成功的结果,也就是说,正则表达式可以是字符串的一部分,匹配时search()会依次扫描字符串,直到找到第一个符合规则的结果,然后返回该结果,否则返回None
将上面的search方法改为search方法,代码如下:

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.search('Hello.*?(\d+).*?Demo', content)
print(result.group(1))
# 1234567

如果碰到源码中也有换行符,则也需要使用re.S

三、findall()匹配多个内容

前面讲了search()方法只会匹配第一个内容,如果需要匹配多个内容,则使用findall()方法,该方法会匹配整个字符串,然后返回匹配正则表达式的内容,如果有返回结果,则返回结果为列表类型,返回列表中的每个元素都是元组

如果只要第一个内容,使用search()方法,如果要获取多个内容,则使用findall()方法

四、sub()去掉

sub()方法可以修改内容,比如,一串字符串中去掉其中的数字,代码如下:

import re

content = '1a2bc3d4efg'
result = re.sub('\d+', '', content)
print(result)
# abcdefg

该方法中,用第二个参数的内容替换第一个参数,由于该例子为删除数字,则第二个参数为空

该方法也可以应用于HTML代码中,可以删除某些节点,比如下方代码可以删除a节点:

html = re.sub('|','',html)#删除a节点

五、compile() 复用

可以将正则字符串编译成正则表达式对象,以便在后面匹配中复用,代码如下:

import re

content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern  = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)
print(result1, result2, result3)
# 2016-12-15  2016-12-17  2016-12-22

该方法将正则字符串\d{2}:\d{2}编译成pattern正则表达式对象,以方便在下方反复使用,该对象匹配的是时间,该例子sub是删除pattern匹配的内容,即时间

正则表达式用起来比较烦琐,万一某个地方写错,肯可能导致匹配失败,所有使用正则表达式还是有些不方便

对于网页源码,节点与节点间有层次关系,可以利用解析库解析,解析库比正则表达式用起来更方便、更高效

你可能感兴趣的:(爬虫,Python,正则表达式,爬虫)