【Python爬虫】Re(正则表达式)库入门

正则表达式的概念

【Python爬虫】Re(正则表达式)库入门_第1张图片

 

 【Python爬虫】Re(正则表达式)库入门_第2张图片

 

 【Python爬虫】Re(正则表达式)库入门_第3张图片

 

 【Python爬虫】Re(正则表达式)库入门_第4张图片

 

 【Python爬虫】Re(正则表达式)库入门_第5张图片

 

 【Python爬虫】Re(正则表达式)库入门_第6张图片

 正则表达式的语法

 【Python爬虫】Re(正则表达式)库入门_第7张图片

 

 【Python爬虫】Re(正则表达式)库入门_第8张图片

 

 【Python爬虫】Re(正则表达式)库入门_第9张图片

 

 【Python爬虫】Re(正则表达式)库入门_第10张图片

 

 【Python爬虫】Re(正则表达式)库入门_第11张图片

 

 【Python爬虫】Re(正则表达式)库入门_第12张图片

 

 【Python爬虫】Re(正则表达式)库入门_第13张图片

  Re库的基本使用

 【Python爬虫】Re(正则表达式)库入门_第14张图片

 

 【Python爬虫】Re(正则表达式)库入门_第15张图片

 

 【Python爬虫】Re(正则表达式)库入门_第16张图片

 

 【Python爬虫】Re(正则表达式)库入门_第17张图片

 

 【Python爬虫】Re(正则表达式)库入门_第18张图片

 

 【Python爬虫】Re(正则表达式)库入门_第19张图片

 

 练习:

>>> import re
>>> match=re.search(r'[1-9]\d{5}','BIT 100081')
>>> if match:
    print(match.group(0))

    
100081
>>> 

【Python爬虫】Re(正则表达式)库入门_第20张图片

 

 练习:

>>> import re
>>> match=re.match(r'[1-9]\d{5}','BIT 100081')
>>> if match:
    match.group(0)

    
>>> match.group(0)
Traceback (most recent call last):
  File "", line 1, in 
    match.group(0)
AttributeError: 'NoneType' object has no attribute 'group'
>>> match=re.match(r'[1-9]\d{5}','100081 BIT')
>>> if match:
    match.group(0)

    
'100081'
>>> 

【Python爬虫】Re(正则表达式)库入门_第21张图片

 

 练习:

>>> import re
>>> ls=re.findall(r'[1-9]\d{5}','BIT 100081 TSU100084')
>>> ls
['100081', '100084']
>>> 

【Python爬虫】Re(正则表达式)库入门_第22张图片

 

 练习:

>>> import re
>>> re.split(r'[1-9]\d{5}','BIT100081 TSU100084')
['BIT', ' TSU', '']
>>> re.split(r'[1-9]\d{5}','BIT100081 TSU100084',maxsplit=1)
['BIT', ' TSU100084']
>>> 

【Python爬虫】Re(正则表达式)库入门_第23张图片

 

 练习:

>>> import re
>>> for m in re.finditer(r'[1-9]\d{5}','BIT100081 TSU100084'):
    if m:
        print(m.group(0))

        
100081
100084

【Python爬虫】Re(正则表达式)库入门_第24张图片

 

 练习:

>>> import re
>>> re.sub(r'[1-9]\d{5}',':zipcode','BIT100081 TSU100084')
'BIT:zipcode TSU:zipcode'
>>> 

【Python爬虫】Re(正则表达式)库入门_第25张图片

 

 【Python爬虫】Re(正则表达式)库入门_第26张图片

 

 【Python爬虫】Re(正则表达式)库入门_第27张图片

 Re库的match对象

>>> import re
>>> match=re.search(r'[1-9]\d{5}','BIT 100081')
>>> if match:
    print(match.group(0))

    
100081
>>> type(match)
<class 're.Match'>
>>> 

 

【Python爬虫】Re(正则表达式)库入门_第28张图片

 

 【Python爬虫】Re(正则表达式)库入门_第29张图片

 

 练习:

>>> import re
>>> m=re.search(r'[1-9]\d{5}','BIT 100081 TSU100084')
>>> m.string
'BIT 100081 TSU100084'
>>> m.re
re.compile('[1-9]\\d{5}')
>>> m.pos
0
>>> m.endpos
20
>>> m.group(0)
'100081'
>>> m.start()
4
>>> m.end()
10
>>> m.span()
(4, 10)
>>> 

Re库的贪婪匹配和最小匹配

【Python爬虫】Re(正则表达式)库入门_第30张图片

 

 【Python爬虫】Re(正则表达式)库入门_第31张图片

 

 【Python爬虫】Re(正则表达式)库入门_第32张图片

 

 【Python爬虫】Re(正则表达式)库入门_第33张图片

 

你可能感兴趣的:(【Python爬虫】Re(正则表达式)库入门)