python爬虫(三)-正则表达式

正则表达式

定义: 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。
(这个我目前没有常用,就随便看一下基本使用好啦~~~,偷懒中~)

工具: 打开开源中国提供的正则表达式测试工具http://tool.oschina.net/regex/,输入待匹配的文本,然后选择常用的正则表达式,就可以得出相应的匹配结果了。

基本原则
python爬虫(三)-正则表达式_第1张图片python爬虫(三)-正则表达式_第2张图片

匹配方法
1.match()
match()方法会尝试从字符串的 开头开始的起始位置匹配正则表达式,如果匹配,就返回匹配成功的结果;如果不匹配,就返回None。

贪婪模式与非贪婪模式:
(就是在正常字符串匹配之后加一个问号?即非贪婪)
例如:.是贪婪模式和.?是非贪婪模式

修饰符:
python爬虫(三)-正则表达式_第3张图片
转移匹配:反斜线\

2.search()
它在匹配时会扫描整个字符串,然后返回第一个成功匹配的结果。也就是说,正则表达式可以是字符串的一部分,在匹配时,search()方法会依次扫描字符串,直到找到第一个符合规则的字符串,然后返回匹配内容,如果搜索完了还没有找到,就返回None。
( 可以返回匹配正则表达式的第一个内容)

3.findall()
该方法会搜索整个字符串,然后返回匹配正则表达式的所有内容。
返回类型为元组

4.sub()
可以完成正则表达式对目标文本修改的功能。将一段内容去掉。

5.compile()
这个方法可以将正则字符串编译成正则表达式对象,以便在后面的匹配中复用。

崔神代码链接:https://cuiqingcai.com/5530.html
跪拜大佬~

你可能感兴趣的:(爬虫)