06、正则表达式

1、什么是正则表达式?

一种规则字符串,非python特有,需导入re模块,起到过滤、清洗数据的作用

2、用法详解

正则表达式表

2.1、re.match()

最常规的匹配:

最常规匹配

常规匹配显得很繁琐,使用.*代替所有字符串:

泛匹配

使用括号和group(数字)可以获取匹配的目标结果:

匹配特定目标

贪婪匹配:.*会默认匹配尽量多的字符

贪婪匹配

非贪婪匹配:使用?采用非贪婪匹配

非贪婪匹配

匹配模式:因为.无法匹配换行符

匹配模式

re.S 改变匹配模式:

使用re.S

转义:

转义

2.2、re.search()

re.match()是从字符串开头开始匹配的,一旦开头不匹配,那么整个匹配就失败了。re.search()会扫描整个字符串,反馈第一个匹配成功的结果。

re.search()
匹配练习1
匹配练习2
匹配练习3

2.3、re.findall()

因为re.rearch()只能返回匹配的第一个结果,如果想返回所有符合匹配规则的结果,就要使用re.findall(),如果有匹配结果,返回的是一个列表。

re/findall()
打印列表及元祖
匹配练习4

2.4、re.sub()

把数字替换成空
第二个参数的作用(替换成的结果)

如果要替换成的结果里包含匹配的结果,需要用 \数字 获取到匹配的结果

\1表示把第一个匹配结果

替换掉a标签

替换a标签
打印歌名列表

2.5、re.compile()

把正则字符串编译成正则表达式对象,以便在后面的匹配中复用。

re.compile()使用

爬取豆瓣图书

爬取豆瓣图书实战练习

你可能感兴趣的:(06、正则表达式)