python re.match、re.search以及re.findall的区别

第一部分re.match()

re.match(a,b),a放正则表达式(regular expression),b放要匹配的字符串。re.match总是从字符串的第一个字符(包括数字)开始匹配,且只匹配完一次后就结束,如果不是第一个字符则返回none

import re   #导入re模块

s = '0www.weather.com'  #字符串,我在第一个位置加了数字0
pt = r'w'                #pattern,放自定义的正则表达式
rm = re.match(pt,s)      #匹配
print(rm)                 

>>>None

因为我不是从第一个字符0开始匹配,所以结果就是None
因此re.match()只能从第一个字符开始匹配
比如我要匹配到第一个e,

import re

s = '0www.weather.com'
pt = r'\d.+e'
rm = re.match(pt,s)
print(rm.group(0))   #要加group(0)即自身

>>>0www.weathe

结果匹配到第二个e了,这是因为+是“贪婪”的,所以需要加“?”,如下

pt = r'\d.+?e'

上面说明要匹配字符串,re.match一定要从首字符开始,而re.search(),re.findall不需要

第二部分re.search()

re.search()函数在字符串中查找匹配,查到第一处之后即刻结束,(不需要从首字符开始),

import re

s = '0www.weather.com'
pt = r'w'
rc = re.compile(pt)   #使用re.search记得要编译
rs = re.search(rc,s)
print(rs.group(0))

>>>w

我们看到上面有很多w,但只返回一个w

第三部分re.findall()

re.findall遍历字符串进行匹配(也就是说会遍历匹配一直到字符串结束),并返回一个list格式(就算是只有一个字符也是list格式)

import re

s = '0www.weather.com'
pt1 = r'w'
pt2 = r'c'
rf1 = re.findall(pt1,s)
rf2 = re.findall(pt2,s)
print(rf1,rf2)

>>>['w', 'w', 'w', 'w'] ['c']
import re
s = 'cat pat hat'
pt = r'[^p]a.'
rc = re.compile(pt)
print(rc.findall(s))

>>>['cat', 'hat']

你可能感兴趣的:(web,crawler)