以上特殊字符要想使用字面值,必须使用\进行转义
以上量词都是贪婪模式,会尽可能多的匹配,如果要改为非贪婪模式,通过在量词后面跟随一个?来实现,定义为惰性匹配。
捕获()中正则表达式的内容,以备进一步利用处理,可以通过在左括号后面跟随?:来关闭这个括号的捕获功能。
将正则表达式的一部分内容进行组合,以便使用量词或者|。
通过编号反向引用:
每一个没有使用?:的小括号都会分配一个编号,从1开始,从左到右递增,可以通过\i引用前面()内表达式捕获的内容。
通过组名反向引用前面小括号内捕获的内容:
可以通过在左括号后面跟随?P,尖括号中放入名称来为一个组起一个别名,后面通过(?P=name)来引用 前面捕获的内容。如(? P\w+)\s+(?P=word)来匹配重复的单词。
反向引用不能放在字符类[]中使用。
断言不会匹配任何文本,只是对断言所在的文本施加某些约束。
例如:要查找hello,但是hello后面必须是world,正则表达式可以这样写:“(hello)\s+(?=world)”,用来匹配"hello wangxing"和"hello world"等,但是只能匹配到hello。
(?(id)yes_exp|no_exp):对应id的子表达式如果匹配到内容,则这里匹配yes_exp,否则匹配no_exp。
常用的标志
re.compile(r"""
]*? #不是src的属性
src= #src属性的开始
(?:
(?P["']) #左引号
(?P[^\1>]+?) #图片名字
(?P=quote) #右括号
""",re.VERBOSE|re.IGNORECASE)
返回一个列表,如果正则表达式中没有分组,则列表中包含的是所有匹配的内容,如果正则表达式中有分组,则列表中的每个元素是一个元组,元组中包含子分组中匹配到的内容,但是没有返回整个正则表达式匹配的内容。
返回一个可迭代对象。
对可迭代对象进行迭代,每一次返回一个匹配对象,可以调用匹配对象的group()方法查看指定组匹配到的内容,0表示整个正则表达式匹配到的内容。
返回一个匹配对象,倘若没匹配到,就返回None。
search方法只匹配一次就停止,不会继续往后匹配。
如果正则表达式在字符串的起始处匹配,就返回一个匹配对象,否则返回None。
返回一个字符串。每一个匹配的地方用x进行替换,返回替换后的字符串,如果指定m,则最多替换m次。对于x可以使用/i或者/gid可以是组名或者编号来引用捕获到的内容。
模块方法re.sub(r, x, s, m)中的x可以使用一个函数。此时我们就可以对捕获到的内容推过这个函数进行处理后再替换匹配到的文本。
与re.sub()方法相同,区别在于返回的是二元组,其中一项是结果字符串,一项是做替换的个数。
返回一个列表。
用正则表达式匹配到的内容对字符串进行分割。
如果正则表达式中存在分组,则把分组匹配到的内容放在列表中每两个分割的中间作为列表的一部分,如:
import re
rx = re.compile(r"(\d)[a-z]+(\d)")
s = "ab12dk3klj8jk9jks5"
result = rx.split(s)
print(result)
#返回['ab1', '2', '3', 'klj', '8', '9', 'jks5']
返回编号或者组名匹配到的内容,默认或者0表示整个表达式匹配到的内容,如果指定多个,就返回一个元组。
返回一个字典。字典的键是所有命名的组的组名,值为命名组捕获到的内容。
如果有default参数,则将其作为那些没有参与匹配的组的默认值。
返回一个元组。包含所有捕获到内容的子分组,从1开始,如果指定了default值,则这个值作为那些没有捕获到内容的组的值。
匹配到内容的编号最高的捕获组的名称,如果没有或者没有使用名称则返回None(不常用)。
匹配到内容的编号最高的捕获组的编号,如果没有就返回None。
当前匹配对象的子分组是从字符串的那个位置开始匹配的,如果当前组没有参与匹配就返回-1。
当前匹配对象的子分组是从字符串的那个位置匹配结束的,如果当前组没有参与匹配就返回-1。
返回一个二元组,内容分别是m.start(g)和m.end(g)的返回值。
产生这一匹配对象的正则表达式。
传递给match或者search用于匹配的字符串。
搜索的起始位置。即字符串的开头,或者start指定的位置(不常用)。
搜索的结束位置。即字符串的末尾位置,或者end指定的位置(不常用)。
正则表达式本身是一种小型的、高度专业化的编程语言,而在Python中,通过内嵌集成re模块,可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。
1、普通字符和11个元字符
特殊字符 | 说明 | 表达式 | 匹配结果 |
---|---|---|---|
. | 匹配除换行符"\n"外的任意字符,在DOTALL模式中也能匹配换行符 | a.c | abc |
\ | 转义字符,使后一个字符改变原来的意思 | a.c;a\c | a.c;a\c |
* | 匹配前一个字符0或多次 | abc* | ab;abccc |
+ | 匹配前一个字符1次或无限次 | abc+ | abc;abccc |
? | 匹配一个字符0次或1次 | abc? | ab;abc |
^ | 匹配字符串开头。在多行模式中匹配每一行的开头 | ^abc | abc |
$ | 匹配字符串末尾,在多行模式中匹配每一行的末尾 | abc$ | abc |
| | 或。匹配|左右表达式任意一个,从左到右匹配,如果|没有包括在()中,则它的范围是整个正则表达式 | abc|def | abc;def |
{} | {m}匹配前一个字符m次,{m,n}匹配前一个字符m至n次,若省略n,则匹配m至无限次 | ab{1,2}c | abc;abbc |
[] | 字符集。对应的可以是字符集中任意字符。字符集中的字符可以逐个列出,也可以给出范围,如[abc]或[a-c]。[^abc]表示取反,即非abc。注意,所有特殊字符在字符集中都失去其原有的特殊含义。用\反斜杠转义恢复特殊字符的特殊含义。 | a[bcd]e | abe;ace;ade |
() | 被括起来的表达式将作为分组,从表达式左边开始每遇到一个分组的左括号“(”,编号+1。 分组表达式作为一个整体,可以后接数量词。表达式中的|仅在该组中有效。 | (abc){2};a(123|456)c | abcabc; a456c |
注意反斜杠\的作用:
import re
a=re.search(r'(tina)(fei)haha\2','tinafeihahafei tinafeihahatina').group()
print(a)
# 结果:
# tinafeihahafei
2、预定义字符集(可以写在字符集[…]中)
特殊字符 | 说明 | 表达式 | 匹配结果 |
---|---|---|---|
\d | 数字:[0-9] | a\bc | a1c |
\D | 非数字:[^\d] | a\Dc | abc |
\s | 匹配任何空白字符:[<空格>\t\r\n\f\v] | a\sc | a c |
\S | 非空白字符:[^\s] | a\Sc | abc |
\w | 匹配包括下划线在内的任意字符:[A-Za-z0-9_] | a\wc | abc |
\W | 匹配非字母字符,即匹配特殊字符 | a\Wc | a c |
\A | 仅匹配字符串开头,同^ | \Aabc | abc |
\Z | 仅匹配字符串结尾,同$ | abc\Z | abc |
\b | 匹配\w和\W之间,即匹配单词边界,也就是指单词和空格间的位置。例如,'er\b’可以匹配"never" 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’。 | \babc\b; a\b!bc | 空格abc空格; a!bc |
\B | 匹配非边界:[^\b] | a\Bbc | abc |
import re
w = re.findall('\btina','tian tinaaaa')
print(w)
s = re.findall(r'\btina','tian tinaaaa')
print(s)
v = re.findall(r'\btina','tian#tinaaaa')
print(v)
a = re.findall(r'\btina\b','tian#tina@aaa')
print(a)
'''执行结果如下:
[]
['tina']
['tina']
['tina']'''
测试代码
3、特殊分组用法
特殊字符 | 说明 | 表达式 | 匹配结果 |
---|---|---|---|
(?P) | 分组,除了原有的编号外再指定一个额外的别名 | (?Pabc){2} | abcabc |
(?P=name) | 引用别名为的分组匹配到字符串 | (?P\d)abc(?P=id) | 1abc1; 5abc5 |
引用编号为的分组匹配到字符串 | (\d)abc\1 | 1abc1; 5abc5 |