一文读懂正则表达式的基本用法

什么是正则表达式?

正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

正则表达式不是Python独有的,目前主流的开发语言都支持正则表达式,在Python中是使用re模块来实现正则表达式。

正则表达式常用符号

符号 含义
* 匹配0个或多个表达式
+ 匹配1个或多个表达式
^ 匹配字符串的开头
$ 匹配字符串的结尾
. 匹配任意单个字符,换行符除外
\ 转义字符,把有特殊含义的字符转换为字面形式
? 匹配0或多个表达式,非贪婪模式
a|b 匹配a或b
() 匹配括号内的表达式, 也表示一个组
[] 匹配其中的任意一个字符
[^] 匹配任意一个不在中括号里的字符
\n 匹配换行符
\t 匹配制表符
\w 匹配任意字母数字及下划线
\s 匹配任意空白字符
\d 匹配任意数字

match函数

re.match会尝试从字符串的起始位置匹配一个字符串表达式,如果匹配成功就返回匹配结果,如果匹配失败就返回None.

比如这里有一个字符串:

    content = 'open the command palette 123456 Hello world!'

我想要匹配出其中的数字,可以这样写:

import re

content = 'open the command palette 123456 Hello world!'

# 在match方法中,第一个参数为正则表达式,第二个参数为待匹配的字符串
result = re.match('^open.*?(\d+).*?world!$', content)
print(result)
print(result.group(1)) 
<_sre.SRE_Match object; span=(0, 44), match='open the command palette 123456 Hello world!'>
123456

这里^open指定了字符串的开头,.*?表示以非贪婪模式匹配0或多个字符,(\d+)表示我们想要提取的是1到多个数字,需要提取的内容一定要放在小括号里,后面接着.*?表示以非贪婪模式匹配0或多个字符,最后的world!$指定了字符串的结尾。

这里group(1)表示提取第一个小括号里的内容,如果有多个小括号,可分别使用group(2),group(3)来提取。

贪婪匹配与非贪婪匹配的区别

在上面的例子中,我们使用了.*?表示以非贪婪模式匹配0或多个字符,这里如果将?去掉,就变成了贪婪模式,它们之间的具体区别是什么呢?看下面这个例子:

import re

content = 'open the command palette 123456 Hello world!'

# 这里将(\d+)前面的?去掉,其他不变。
result = re.match('^open.*(\d+).*?world!$', content)
print(result)
print(result.group(1)) 
<_sre.SRE_Match object; span=(0, 44), match='open the command palette 123456 Hello world!'>
6

如上,匹配结果变成了一个6,而前面的12345不见了,这是因为.*是以贪婪模式匹配,它会匹配尽可能多的字符,紧接着的\d+也就只匹配到了一个数字6

关于包含换行符的匹配

在实际的正则匹配过程中,我们需要匹配的字符串常是很多行,这其中就必定包含了换行符,这个时候就要使用修饰符re.S来匹配包含了换行符的字符串。如下例:

import re

# 有换行的字符串要用三引号''''''引起来
content = '''open the command palette 
            123456 Hello world!'''

# 这里加入修饰符re.S
result = re.match('^open.*?(\d+).*?world!$', content, re.S) 
print(result)
print(result.group(1)) 
<_sre.SRE_Match object; span=(0, 57), match='open the command palette \n            123456 Hel>
123456

在网页匹配中,常用的修饰符有两种:

  • re.S :匹配包含换行符在内的所有字符
  • re.I :使匹配对大小写不敏感

关于转义字符的匹配

上面我们罗列的一堆正则表达式的常用字符,这些字符可以称为特殊字符,如果待匹配的字符串中本身就包含了这些特殊字符,如果不加处理,就会对我们的正则匹配造成干扰,这个时候就需要用反斜杠\来进行转义:

import re

content = 'price is $10.00'
result = re.match('^price.*?\$10\.00$', content)
print(result)
<_sre.SRE_Match object; span=(0, 15), match='price is $10.00'>

这里使用\$\.对字符$.分别进行转义

search函数

上面讲到的match函数是从字符串的开头进行逐个匹配,如果开头不匹配,则匹配失败,它的执行效率有点类似与单链表的查询操作,得从头开始挨着一个一个找,而search函数是首先是扫描整个字符串,然后返回第一个成功匹配的结果。

在很大一堆的字符串中,如果我们只需要其中的一小段字符串,就可以使用search函数进行匹配:

import re 

content = 'open the command palette 123456 Hello world!'
result = re.search('command.*?(\d+).*?world!', content)
print(result)
print(result.group(1))
<_sre.SRE_Match object; span=(9, 44), match='command palette 123456 Hello world!'>
123456

下面来看个例子,这是我在豆瓣读书的网页上复制的一段HTML代码:

HTML = """
追风筝的人   可试读
The Kite Runner

[美] 卡勒德·胡赛尼 / 李继宏 / 上海人民出版社 / 2006-5 / 29.00元

8.9 ( 315272人评价 )
"""

这里我想用正则表达式匹配这本《追风筝的人》图书的书名,作者,评分和评价人数,我们可以这样匹配:

import re 

result = re.search('(.*?).*?(.*?)

.*?rating_nums.*?>(.*?).*?>\((.*?)\)', HTML, re.S) print(result) print(result.group(1)) print(result.group(2)) print(result.group(3)) print(result.group(4))
<_sre.SRE_Match object; span=(34, 703), match='import re 

result = re.search('(.*?).*?(.*?)

.*?rating_nums.*?>(.*?).*?>\((.*?)\)', HTML, re.S) print(result) print(result.group(1).strip()) print(result.group(2).strip()[:12]) print(result.group(3).strip()) print(result.group(4).strip())
<_sre.SRE_Match object; span=(34, 703), match='import re 

pattern = re.compile('(.*?).*?(.*?)

.*?rating_nums.*?>(.*?).*?>\((.*?)\)', re.S) result = re.search(pattern, HTML) print(result) print(result.group(1).strip()) print(result.group(2).strip()[:12]) print(result.group(3).strip()) print(result.group(4).strip())
<_sre.SRE_Match object; span=(34, 703), match='

你可能感兴趣的:(一文读懂正则表达式的基本用法)