5.3 多行模式

“多行模式”听起来是与“单行模式”对应的,其实这两个模式没有任何联系。

单行模式影响的是点号的匹配规则:在默认模式下,元字符.可以匹配除换行符之外的任何字符,在单行模式下,元字符.可以匹配包括元字符.在内的任何字符。

多行模式影响的是^$的匹配规则:在默认模式下,^$`匹配的是整个字符串的起始位置和结束位置,但是在多行模式下,它们也能匹配字符串内部某一行文本的起始位置和结束位置。

假设,需要找到下面文本中所有数字字符开头的行。

1 line
no digit
3 line

为了解决这个问题,需要定位到没行的起始位置,尝试匹配一个数字字符,如果成功,则匹配之后的整行文本。多行模式的模式修饰符是m(Multi line),所以在表达式开头用(?m)指定多行模式,这样^可以定位到字符串内部每一行的起始位置;因为没有指定单行模式,点号.不能匹配换行符,.*可以匹配“之后的整行文本”。所以整个表达式为(?m)^\d.*

例5-3 用模式修饰符指定多行模式

multiline_str = "1 line\nno digit\n3 line"
lineBeginWithDigitRegex = r"(?m)\d.*"
print([x for x in re.findall(lineBeginWithDigitRegex, multiline_str)])
# ['1 line', '3 line']

例5-4 在多行模式下,给行末添加句号

multiline_str = "1 line\nno digit\n3 line"
lineEndRegex = r"(?m)$"
print(re.sub(lineEndRegex, '.', multiline_str))
#######
1 line.
no digit.
3 line.

上面的表达式几乎是任何语言中通用的,除了javascript,因为它不支持用模式修饰符指定模式,但是可以使用预定义常量来指定多行模式。

表5-4 常用语言中多行模式的预定义常量

语言 常量
.NET RegexOptions.Multiline
JAVA Pattern.MULTILINE
JavaScript /regex/m
PHP /regex/m
Python re.M
re.MULTILINE
Ruby 默认为多行模式

在各种语言中,多行模式对应预定义常量的写法比较统一,都是multiline。值得一提的是Ruby,它默认就采用多行模式,^$在任何情况下都能匹配文本内部的行起始/结束位置。如果要在Ruby中摆脱多行模式,只能用\A代替^,用\Z代替$

你可能感兴趣的:(5.3 多行模式)