正则表达式

根据下面两个链接自己试验一遍的笔记。
https://foofish.net/re-tutorial.html
https://foofish.net/crawler-re-second

正则表达式符号

基本元字符

.：匹配除换行符以外的任意一个字符，例如："a.c" 可以完全匹配 "abc"，也可以匹配 "abcef" 中的 "abc" ：转义字符，使特殊字符具有本来的意义，例如： 1.2 可以匹配 1.2
[...]：匹配方括号中的任意一个字符，例如：a[bcd]e 可以匹配 abe、ace、ade，它还支持范围操作，比如：a到z可表示为 "a-z"，0到9可表示为 "0-9"，注意，在 "[]" 中的特殊字符不再有特殊意义，就是它字面的意义，例如：[.*]就是匹配 . 或者 *
[^{...]，字符集取反，表示只要不是括号中出现的字符都可以匹配，例如：a[}bcd]e 可匹配 aee、afe等

预设元字符

匹配任意一个单词字符，包括数字和下划线，它等价于 [A-Za-z0-9_]，例如 a可以匹配 abc、acc 匹配任意一个非单词字符，与操作相反，它等价于 [^A-Za-z0-9_]，例如： a可匹配 a!c 匹配任意一个空白字符，空格、回车等都是空白字符，例如：a可以配 a，这里的匹配任意一个非空白字符匹配任意一个数字，它等价于[0-9]，例如：a可匹配 a1c、a2c ... 匹配任意一个非数字

边界匹配

^ 匹配字符的开头，在字符串的前面，例如：^abc 表示匹配 a开头，后面紧随bc的字符串，它可以匹配 abc
$匹配字符的结尾，在字符串的末尾位置

re.match(r"^abc","abc").group()

'abc'

re.match(r"^abc$","abc").group()

'abc'

重复匹配

*重复匹配零次或者更多次 ? 重复匹配零次或者一次 +重复匹配1次或者多次 {n} 重复匹配n次 {n,} 重复匹配至少n次 {n, m} 重复匹配n到m次

# 简单匹配身份证号码，前面17位是数字，最后一位可以是数字或者字母X  
 re.match(r"\d{17}[\dX]", "42350119900101153X").group()
'42350119900101153X'

#匹配5到12的QQ号码 
re.match(r"\d{5,12}$", "4235011990").group()
'4235011990'

逻辑分支

匹配一个固定电话号码，不同地区规则不一样，有的地方区号是3位，电话是8位，有的地方区号是4位，电话为7位，区号与号码之间用 - 隔开，如果应对这样的需求呢？这时你需要用到逻辑分支条件字符 |，它把表达式分为左右两部分，先尝试匹配左边部分，如果匹配成功就不再匹配后面部分了，这是逻辑 "或" 的关系

# abc|cde 可以匹配abc 或者 cde，但优先匹配abc  
 re.match(r"aa(abc|cde)","aaabccde").group()
'aaabc'

分组

前面介绍的匹配规则都是针对单个字符而言的，如果想要重复匹配多个字符怎么办，答案是，用子表达式（也叫分组）来表示，分组用小括号"()"表示，例如 (abc){2} 表示匹配abc两次，匹配一个IP地址时，可以使用 (.){3}，因为IP是由4组数组3个点组成的，所有，前面3组数字和3个点可以作为一个分组重复3次，最后一部分是一个1到3个数字组成的字符串。如：192.168.0.1。

关于分组，group 方法可用于提取匹配的字符串分组，默认它会把整个表达式的匹配结果当做第0个分组，就是不带参数的 group() 或者是 group(0)，第一组括号中的分组用group(1)获取，以此类推

m = re.match(r"(\d+)(\w+)", "123abc")

m.group()

'123abc'

m.group(0)

'123abc'

m.group(1)

'123'

m.group(2)

'abc'

贪婪与非贪婪

默认情况下，正则表达式重复匹配时，在使整个表达式能得到匹配的前提下尽可能匹配多的字符，我们称之为贪婪模式，是一种贪得无厌的模式。例如： r"a.*b" 表示匹配 a 开头 b 结尾，中间可以是任意多个字符的字符串，如果用它来匹配 aaabcb，那么它会匹配整个字符串。

re.match(r"a.*b", "aaabcb").group()

'aaabcb'

有时，我们希望尽可能少的匹配，怎么办？只需要在量词后面加一个问号" ？"，在保证匹配的情况下尽可能少的匹配，比如刚才的例子，我们只希望匹配 aaab，那么只需要修改正则表达式为 r"a.*?b"

re.match(r"a.*?b", "aaabcb").group()

'aaab'

非贪婪模式在爬虫应用中使用非常频繁。比如之前在公众号「Python之禅」曾写过一篇爬取网站并将其转换为PDF文件的场景，在网页上涉及img标签元素是相对路径的情况，我们需要把它替换成绝对路径

html = '' rex = r''
re.findall(rex, html)

['/images/category.png', '/images/js_framework.png']

def fun(match): img_tag = match.group()
 src = match.group(1)
 full_src = "http://foofish.net" + src
 new_img_tag = img_tag.replace(src, full_src)
 return new_img_tag

re.sub(rex, fun, html)

''

sub 函数可以接受一个函数作为替换目标对象，函数返回值用来替换正则表达式匹配的部分，在这里，我把整个img标签定义为一个正则表达式 r''，group() 返回的值是 img src="/images/category.png"，而 group(1) 的返回值是 /images/category.png，最后，我用 replace 方法把相对路径替换成绝对路径。