Python 的 re 模块

文章目录

  • 1. re模块简介
  • 2. 正则表达式语法
    • 2.1 特殊字符
    • 2.2 拓展标记法
    • 2.3 特殊序列
  • 3. 模块内容
    • 3.1 标记常量
    • 3.2 常用函数
    • 3.3 异常
  • 4. 正则表达式对象
  • 5. re.Match 对象
  • 6. 正则表达式例子
    • 6.1 检查对子
    • 6.2 模拟 scanf() 函数
    • 6.3 search() vs. match()
    • 6.4 建立一个电话本
    • 6.5 文字整理
    • 6.6 找到所有副词
    • 6.7 找到所有副词和位置
    • 6.8 原始字符记法
    • 6.9 写一个词法分析器

1. re模块简介

这个模块提供了与 Perl 语言类似的正则表达式匹配操作。

要搜索的模式和字符串可以是 Unicode 字符串 (str) 以及8位字节串(bytes)。 但是,Unicode 字符串与8位字节串不能混用:也就是说,你不能用一个字节串模式去匹配 Unicode 字符串,反之亦然;类似地,当进行替换操作时,替换字符串必须与所用的模式和搜索字符串都为相同类型。

正则表达式使用反斜框字符 ('\') 来提示特殊形式或是允许使用特殊字符而又不启用它们的特殊含义。 这会与 Python 在字符串字面值中出于相同目的而使用的相同字符发生冲突;例如,为了匹配一个反斜杠字面值,模式字符串就需要写成 '\\\\',因为正则表达式必须写成 \\,而每个反斜杠在普通的Python 字符串字面值内又必须写成 \\

解决办法是对于正则表达式模式使用 Python 的原始字符串表示法;在带有'r' 前缀的字符串字面值中,反斜杠不必做任何特殊处理。 因此 r'\n' 表示包含 '\''n' 两个字符的字符串,而 '\n' 则表示只包含一个换行符的字符串。 模式在 Python 代码中通常都会使用这种原始字符串表示法来表示。

绝大部分正则表达式操作都提供为模块函数和方法,这些函数是一个捷径,不需要先编译一个正则对象,但是损失了一些优化参数。

参见: 第三方模块 regex , 提供了与标准库 re 模块兼容的API接口,同时还提供了额外的功能和更全面的Unicode支持。

2. 正则表达式语法

一个正则表达式(或RE)指定了与之匹配的一个字符串集合;模块内的函数可以让你检查某个字符串是否跟给定的正则表达式匹配(或者一个正则表达式是否匹配到一个字符串,这两种说法含义相同)。

正则表达式可以拼接; 如果 AB 都是正则表达式, 那么 AB 也是正则表达式。 通常, 如果字符串 p 匹配 A 并且另一个字符串 q 匹配B, 那么 pq 可以匹配 AB。除非 A 或者 B 包含低优先级操作,AB 存在边界条件,或者命名组引用。所以,复杂表达式可以很容易的从这里描述的简单源语表达式构建。

以下是正则表达式格式的简要说明。更详细的信息和演示,参考 Regular Expression HOWTO。

正则表达式可以包含普通或者特殊字符。绝大部分普通字符,比如 Aa,或者 0,都是最简单的正则表达式。它们就匹配自身。你可以拼接普通字符,所以 last 匹配字符串 'last'。(在这一节的其他部分,我们将用 this special style 这种方式表示正则表达式,通常不带引号,要匹配的字符串用 'in single quotes' ,单引号形式。)

有些字符,比如 | 或者 (,属于特殊字符。 特殊字符既可以表示它的普通含义, 也可以影响它旁边的正则表达式的解释。

重复修饰符 (*, +, ?, {m,n}, 等) 不能直接嵌套。这样避免了非贪婪后缀 ? 修饰符和其他实现中的修饰符产生的多义性。要应用一个内层重复嵌套,可以使用括号。 比如,表达式 (?:a{6})* 匹配6个 'a' 字符重复任意次数。

2.1 特殊字符

2.2 拓展标记法

(?…) 这种形式是正则表达式的扩展标记法 (一个 '?' 跟随 '(' 并无含义)。 ? 后面的第一个字符决定了这个构建采用什么样的语法。这种扩展通常并不创建新的组合; (?P...) 是唯一的例外。 以下是目前支持的扩展。

2.3 特殊序列

下面列出了由 '\' 和一个普通字符组成的特殊序列。 如果一个普通字符不是ASCII数字字符或者ASCII字母字符,那么正则模式将匹配第二个字符。比如,\$ 匹配字符'$'

  • \number
    匹配数字代表的组的内容。每个小括号是一个组,组从1开始编号。比如 (.+) \1 匹配 'the the' 或者 '55 55', 但不会匹配 'thethe' (注意组后面的空格)。这个特殊序列只能用于匹配前面99个组中的一个。如果 number 的第一个数字是 0, 或者 number 是三位八进制数,它将不会被看作是一个组合,而是八进制的数字值。在 [] 字符集合内,任何对数字的转义都被看作是反斜杠和字符的组合。

  • \A
    只匹配字符串开始。 当不在 MULTILINE 模式时,\A^ 实际上是相同的。 在 MULTILINE 模式中,它们是不同的: \A 仍然只在字符串的开头匹配,但 ^ 可以匹配在换行符之后的字符串内的任何位置。

    >>> re.findall(r'\A\w+', 'hello\nworld', re.M)
    ['hello']
    >>> re.findall(r'^\w+', 'hello\nworld', re.M)
    ['hello', 'world']
    
  • \b
    是一个零宽断言,仅在单词的开头或结尾处匹配。一个单词被定义为一个单词字符的序列。注意,形式上, \b 被定义为 \w\W (反之亦然)字符之间的边界,或者 \w 和字符串开始/结尾的之间的边界, 也就是说,r'\bfoo\b' 匹配 'foo''foo.''(foo)''bar foo baz' 但不匹配 'foobar' 或者'foo3'

    默认情况下,Unicode字母和数字是在Unicode模式中使用的,但是可以用ASCII 标记来更改。如果 LOCALE 标记被设置的话,词的边界是由当前语言区域设置决定的,\b 表示退格字符,以便与Python字符串文本兼容。

  • \B
    另一个零宽度断言,匹配空字符串,但空字符串不能在单词的开头或者结尾。意思就是 r'py\B 匹配pythonpy3py2,但不匹配 pypy., 或者py!\B\b 相反 ,Unicode模式的单词是由Unicode字母、数字或下划线构成的,虽然可以用 ASCII 标志来改变。如果使用了LOCALE 标志,则单词的边界由当前语言区域设置。

    >>> re.findall(r'\Blow\B', 'helloworld', re.M)
    ['low']
    
  • \d

    • 对于 Unicode (str) 模式:
      匹配任何Unicode十进制数(就是在Unicode字符目录[Nd]里的字符)。这包括了 [0-9] ,和很多其他的数字字符。如果设置了 ASCII 标志,就只匹配 [0-9]
    • 对于8位字节模式:
      匹配任何十进制数,就是 [0-9]
  • \D
    匹配任何非十进制数字的字符。与 \d 作用相反。 如果设置了 ASCII 标志,就相当于 [^0-9]

  • \s

    • 对于 Unicode (str) 模式:
      匹配任何Unicode空白字符(包括 [ \t\n\r\f\v] ,还有很多其他字符,比如不同语言排版规则约定的不换行空格)。如果设置了 ASCII 标记,就只匹配 [ \t\n\r\f\v]
    • 对于8位字节模式:
      匹配ASCII中的空白字符,就是 [ \t\n\r\f\v]
  • \S
    匹配任何非空白字符。与 \s 作用相反。如果设置了 ASCII 标志,就相当于 [^ \t\n\r\f\v]

  • \w

    • 对于 Unicode (str) 模式:
      匹配Unicode词语的字符,包含了可以构成词语的绝大部分字符,也包括数字和下划线。如果设置了 ASCII 标志,就只匹配 [a-zA-Z0-9_]
    • 对于8位字节模式:
      匹配ASCII字符中的数字和字母和下划线,就是 [a-zA-Z0-9_] 。如果设置了 LOCALE 标记,就匹配当前语言区域的数字和字母和下划线。
  • \W
    匹配任何非词语字符。与 \w 作用相反。如果设置了 ASCII 标记,就相当于[^a-zA-Z0-9_] 。如果设置了 LOCALE 标志,就匹配当前语言区域的 词语字符。

  • \Z
    只匹配字符串尾。

    >>> re.findall(r'\w+\Z', 'hello\nworld', re.M)
    ['world']
    

绝大部分Python的标准转义字符也被正则表达式分析器支持:

\a      \b      \f      \n
\r      \t      \u      \U
\v      \x      \\

(注意 \b 被用于表示词语的边界,它只在字符集合内表示退格,比如[\b] 。)

\u\U 转义序列只在Unicode模式中支持。字节模式会显示错误。

八进制转义包含为一个有限形式。如果首位数字是 0, 或者有三个八进制数位,那么就认为它是八进制转义。其他的情况,就看作是组引用。对于字符串文本,八进制转义最多有三个数位长。

在 3.3 版更改: 增加了 \u\U 转义序列。

在 3.6 版更改: 由 \ 和一个ASCII字符组成的未知转义会被看成错误。

3. 模块内容

模块定义了如下一些函数、常量和异常。有些函数是编译后的正则表达式方法的简化版本(少了一些特性)。绝大部分重要的应用,总是会先将正则表达式编译,之后再进行操作。

在 3.6 版更改: 标志常量现在是 RegexFlag 类的实例,这个类是enum.IntFlag 的子类。

3.1 标记常量

下面的这些常量可以用在正则表达式中,以更改正则表达式的默认行为。

  • re.A
    re.ASCII

    \w, \W, \b, \B, \d, \D, \s\S 只匹配ASCII字符,而不匹配Unicode字符。这只对Unicode模式有效,在字节模式中会被忽略。

    该标记相当于内联标记 (?a)

    注意,为了保持向后兼容, re.U 标记依然存在(还有其同义标记re.UNICODE 和内联形式 (?u) ) , 但是这些在Python 3 是冗余的,因为默认字符串已经是Unicode了(并且Unicode匹配不允许出现字节)。

  • re.DEBUG

    显示编译时的调试信息,没有内联标记。

  • re.I
    re.IGNORECASE

    忽略大小写;比如,在启用该标记的情况下,表达式 [A-Z] 也会匹配小写字符。除非设置了 re.ASCII 标记来禁用非ASCII匹配,否则Unicode匹配也支持这个标记(比如 Ü 匹配 ü)。除非设置了 re.LOCALE 标记,否则当前语言区域不会改变这个标记。

    该标记相当于内联标记 (?i)

    注意,当设置了 IGNORECASE 标记时,Unicode模式 [a-z][A-Z] 将会匹配52个ASCII字符和4个额外的非ASCII字符:'İ' (U+0130,大写的拉丁字母 I 上面带个点), 'ı' (U+0131,不带点的小写拉丁字母 i ),ſ(U+017F, 小写的长拉丁字母 s) 和 'K' (U+212A,开尔文符号)。如果使用 ASCII 标记,就只匹配ASCII 字符中的 52 个小写字母 。

  • re.L
    re.LOCALE

    根据当前语言区域决定 \w, \W, \b, \B 和大小写敏感的匹配。这个标记只能对字节模式有效。这个标记不推荐使用,因为语言区域机制很不可靠,它一次只能处理一种 “culture”,而且只对8位字节有效。Unicode匹配在Python 3 里默认启用,并可以处理不同语言。

    该标记对应内联标记 (?L)

    在 3.6 版更改: re.LOCALE 只能用于字节模式,而且不能和 re.ASCII一起使用。

    在 3.7 版更改: 设置了 re.LOCALE 标记的编译正则对象不再在编译时依赖语言区域设置。语言区域设置只在匹配的时候影响其结果。

  • re.M
    re.MULTILINE

    设置以后,模式字符 '^' 匹配字符串的开始和每一行的开始(换行符后面紧跟的符号);模式字符 '$' 匹配字符串尾和每一行的结尾(换行符前面那个符号)。默认情况下,'^' 匹配字符串头,'$' 匹配字符串尾。

    该标记对应内联标记 (?m)

  • re.S
    re.DOTALL

    '.' 特殊字符匹配任何字符,包括换行符;如果没有这个标记,'.' 只匹配除了换行符的其他任意字符。

    该标记对应内联标记 (?s)

  • re.X
    re.VERBOSE

    这个标记允许你通过分段和添加注释来编写更具可读性和更友好的正则表达式。模式中的空白字符会被忽略,除非空白字符在一个字符集合当中、前面有未被转义的反斜杠或在字段 *?(?:(?P<…>) 之内。当一行内包含 # ,并且它不在字符集之内,也没有被转义时,那么它之后的所有字符都是注释。意思就是下面两个正则表达式的功能是相同的:

    a = re.compile(r"""\d+  # the integral part
                       \.    # the decimal point
                       \d*  # some fractional digits""", re.X)
    b = re.compile(r'\d+\.\d*')
    

    该标记对应内联标记 (?x)

3.2 常用函数

  • re.compile(pattern, flags=0)

    将正则表达式的模式编译为一个 re.Pattern 对象,可以通过这个对象的 match()search() 等方法可以进行匹配。

    可以通过指定 flag 的值来改变正则表达式的行为。flag 的值可以是上面列出的标记常量中的一个或者多个,可以通过按位或 OR( | 操作符)来组合多个变量。

    表达式语句

    prog = re.compile(pattern)
    result = prog.match(string)
    

    等价于

    result = re.match(pattern, string)
    

    如果需要多次使用这个正则表达式的话,可以使用 re.compile() 来编译这个正则表达式,然后保存生成的正则表达式对象以便复用,这样程序将会更加高效。

    注解:通过 re.compile() 编译后的模式,和模块级的函数会被缓存,所以少数的正则表达式使用无需考虑编译的问题。

  • re.search(pattern, string, flags=0)

    扫描整个 string ,找到匹配模式的第一个位置,并返回一个相应的匹配对象。如果没有匹配,就返回 None ; 注意,这和找到一个零长度匹配是不同的。

  • re.match(pattern, string, flags=0)

    如果 string 中开头的0或者多个字符匹配到了正则表达式模式,就返回一个相应的匹配对象 。 如果没有匹配到,就返回 None ;注意它跟零长度匹配是不同的。

    注意即便是多行模式, re.match() 也只匹配字符串的开始位置,而不匹配每行开始。

    如果你想定位 string 的任何位置,使用 search() 来替代。

  • re.fullmatch(pattern, string, flags=0)

    如果整个 string 匹配到正则表达式模式,就返回一个相应的匹配对象。 否则就返回 None ;注意这跟零长度匹配是不同的。

    3.4 新版功能.

  • re.split(pattern, string, maxsplit=0, flags=0)

    pattern 分割 string 。 如果 pattern 中使用了括号,那么所有的组里的文本也会包含在列表里。如果 maxsplit 非零, 则最多进行 maxsplit 次分割, 剩下的字符全部返回到列表的最后一个元素。

    >>> re.split(r'\W+', 'Words, words, words.')
    ['Words', 'words', 'words', '']
    >>> re.split(r'(\W+)', 'Words, words, words.')
    ['Words', ', ', 'words', ', ', 'words', '.', '']
    >>> re.split(r'\W+', 'Words, words, words.', 1)
    ['Words', 'words, words.']
    >>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)
    ['0', '3', '9']
    

    如果分隔符里有捕获组,并且匹配到字符串的开始,那么结果将会以一个空字符串开始。对于结尾也是一样。

    >>> re.split(r'(\W+)', '...words, words...')
    >>> ['', '...', 'words', ', ', 'words', '...', '']
    

    这样的话,分隔符将会出现在结果列表中相同的相对所引处。

    模式的空匹配只在与前一个空匹配不相邻时才拆分字符串。

    >>> re.split(r'\b', 'Words, words, words.')
    ['', 'Words', ', ', 'words', ', ', 'words', '.']
    >>> re.split(r'\W*', '...words...')
    ['', '', 'w', 'o', 'r', 'd', 's', '', '']
    >>> re.split(r'(\W*)', '...words...')
    ['', '...', '', '', 'w', '', 'o', '', 'r', '', 'd', '', 's', '...', '', '', '']
    

    在 3.1 版更改: 增加了可选标记参数。

    在 3.7 版更改: 增加了空字符串的模式分隔。

  • re.findall(pattern, string, flags=0)

    stringpattern 的所有非重叠匹配作为一个字符串列表返回,从左到右扫描 string ,并按照找到的顺序返回匹配项。如果模式里存在一到多个组,就返回一个组列表;这个组列表是一个元组的列表(如果模式里有超过一个组合的话)。结果中包含空匹配。

    在 3.7 版更改: 非空匹配现在可以在前一个空匹配之后出现了。

  • re.finditer(pattern, string, flags=0)

    re.findall 类似,但结果是一个迭代器。

    在 3.7 版更改: 非空匹配现在可以在前一个空匹配之后出现了。

  • re.sub(pattern, repl, string, count=0, flags=0)

    默认情况下,将在 string 中找到的第一个匹配 pattern 的子串替换为 repl,并返回整个字符串。如果 pattern 没有匹配到内容,就直接返回 stringrepl 可以是字符串或者接受单个参数的可调用对象;如果是字符串,任何转义字符都会被处理。也就是说 '\n' 会转换成换行符,'\r' 会转换为回车符,其余同理。未知转义比如 '\&' 将保持原样。反向引用,比如 '\6', 将会替换为匹配到的第六个组。

    比如:

    >>> re.sub(r'def\s+([a-zA-Z_][a-zA-Z_0-9]*)\s*\(\s*\):',
    ...        r'static PyObject*\npy_\1(void)\n{',
    ...        'def myfunc():')
    'static PyObject*\npy_myfunc(void)\n{'
    

    如果 repl 是一个可调用对象,那么它会处理每个非重复的 pattern 匹配到的 re.Match 对象。这个可调用对象应该接受一个 Match 对象作为参数,并返回一个替换后的字符串。比如

    >>> def dashrepl(matchobj):
    ...     if matchobj.group(0) == '-': return ' '
    ...     else: return '-'
    >>> re.sub('-{1,2}', dashrepl, 'pro----gram-files')
    'pro--gram files'
    >>> re.sub(r'\sAND\s', ' & ', 'Baked Beans And Spam', flags=re.IGNORECASE)
    'Baked Beans & Spam'
    

    pattern 可以是一个字符串或者一个 re.Pattern 对象 。

    可选参数 count 是要替换的最大次数;count 必须是非负整数。如果忽略这个参数,或者设置为0,所有的匹配内容都会被替换。只有当与之前的空匹配不相邻时,才会替换模式的空匹配,所以 sub('x*', '-', 'abxd') 返回 '-a-b--d-'

    在字符串类型的 repl 参数里,如上所述的转义和反向引用中,\g 会使用命名组 name,(在 (?P…) 语法中定义)\g 会使用数字组;\g<2> 就是 \2,但它避免了二义性,如\g<2>0\20 会被解释为组20,而不是组2后面跟随一个字符 0。反向引用 \g<0>pattern 作为一整个组进行引用。

    在 3.1 版更改: 增加了可选标记参数。

    在 3.5 版更改: 不匹配的组合替换为空字符串。

    在 3.6 版更改: pattern 中的未知转义(由 \ 和一个 ASCII 字符组成)被视为错误。

    在 3.7 版更改: repl 中的未知转义(由 \ 和一个 ASCII 字符组成)被视为错误。模式中的空匹配相邻接时会被替换。

  • re.subn(pattern, repl, string, count=0, flags=0)

    行为与 sub() 相同,但是返回一个二元组 (替换后的字符串, 替换次数)

    在 3.1 版更改: 增加了可选标记参数。

    在 3.5 版更改: 不匹配的组合替换为空字符串。

  • re.escape(pattern)

    转义 pattern 中的特殊字符。如果你想对任意可能包含正则表达式元字符的文本字符串进行匹配,这个函数将会非常有用。比如

    >>> print(re.escape('python.exe'))
    python\.exe
    >>> legal_chars = string.ascii_lowercase + string.digits + `!#$%&'*+-.^_`|~:`
    >>> print('[%s]+' % re.escape(legal_chars))
    [abcdefghijklmnopqrstuvwxyz0123456789!\#\$%\&'\*\+\-\.\^_`\|\~:]+
    >>> operators = ['+', '-', '*', '/', '**']
    >>> print('|'.join(map(re.escape, sorted(operators, reverse=True))))
    /|\-|\+|\*\*|\*
    

    这个函数不能用在 sub()subn() 的替换字符串里,只有反斜杠应该被转义,比如说

    >>> digits_re = r'\d+'
    >>> sample = '/usr/sbin/sendmail - 0 errors, 12 warnings'
    >>> print(re.sub(digits_re, digits_re.replace('\\', r'\\'), sample))
    /usr/sbin/sendmail - \d+ errors, \d+ warnings
    

    在 3.3 版更改: _ 不再被转义。

    在 3.7 版更改: 只有在正则表达式中可以产生特殊含义的字符会被转义。

  • re.purge()

    清除正则表达式缓存。

3.3 异常

  • exception re.error(msg, pattern=None, pos=None)

    当传递到函数的字符串不是一个有效正则表达式的时候(比如,包含一个不匹配的括号)或者在编译时或匹配时产生其他错误时引发一个异常。如果模式在字符串中未匹配到内容,是不会被视为错误的。

    错误实例有以下附加属性:

    • msg

      未格式化的错误消息。

    • pattern

      正则表达式模式。

    • pos

      编译失败的 pattern 的位置索引(可以是 None )。

    • lineno

      对应 pos (可以是 None) 的行号。

    • colno

      对应 pos (可以是 None) 的列号。

    在 3.5 版更改: 添加了附加属性。

4. 正则表达式对象

编译后的正则表达式对象 re.Pattern 支持以下方法和属性:

  • Pattern.search(string[, pos[, endpos]])

    扫描整个 string 寻找第一个匹配的位置, 并返回一个相应的匹配对象。如果没有匹配,就返回 None ;注意它和零长度匹配是不同的。 可选的第二个参数 pos 给出了字符串中开始搜索的位置索引;默认为 0,它不完全等价于字符串切片; '^' 模式字符匹配字符串的实际起始位置和换行后的位置,但不一定匹配搜索开始的索引位置。

    可选参数 endpos 限定了字符串的搜索范围;它假定字符串只有 endpos 个字符 , 所以只有索引从 posendpos - 1 的字符会被匹配。

    如果 endpos 小于 pos,就不会有匹配产生;另外,如果 rx 是一个编译后的正则对象, rx.search(string, 0, 50) 等价于rx.search(string[:50], 0)

    >>> pattern = re.compile('d')
    >>> pattern.search('dog')     # Match at index 0
    <re.Match object; span=(0, 1), match='d'>
    >>> pattern.search('dog', 1)  # No match; search doesn't include the 'd'
    
  • Pattern.match(string[, pos[, endpos]])

    如果 string 开头的零个或多个字符与此正则表达式匹配,则返回相应的匹配对象。如果不匹配,就返回 None ;注意它与零长度匹配是不同的。

    可选参数 posendpossearch() 含义相同。

    >>> pattern = re.compile('d')
    >>> pattern.search('dog')     # Match at index 0
    <re.Match object; span=(0, 1), match='d'>
    >>> pattern.search('dog', 1)  # No match; search doesn't include the 'd'
    

    如果希望在 string 中的任何位置查找匹配项,使用 search() 来替代(可以参考 [search() vs. match()](# 6.3 search() vs. match()))。

  • Pattern.fullmatch(string[, pos[, endpos]])

    如果整个 string 匹配这个正则表达式,就返回一个相应的匹配对象 。否则就返回 None ; 注意跟零长度匹配是不同的。可选参数 posendpossearch() 中的含义相同。

    >>> pattern = re.compile('o[gh]'')
    >>> pattern.fullmatch('dog')      # No match as 'o' is not at the start of 'dog'.
    >>> pattern.fullmatch('ogre')     # No match as not the full string matches.
    >>> pattern.fullmatch('doggie', 1, 3)   # Matches within given limits.
    <re.Match object; span=(1, 3), match='og'>
    

    3.4 新版功能.

  • Pattern.split(string, maxsplit=0)

    等价于 split() 函数,使用了编译后的模式。

  • Pattern.findall(string[, pos[, endpos]])

    类似函数 findall() ,使用了编译后模式,但也可以接收可选参数 posendpos ,限制搜索范围,就像search()

  • Pattern.finditer(string[, pos[, endpos]])

    类似函数 finiter() ,使用了编译后模式,但也可以接收可选参数 posendpos ,限制搜索范围,就像 search()

  • Pattern.sub(repl, string, count=0)

    等价于 sub() 函数,使用了编译后的模式。

  • Pattern.subn(repl, string, count=0)

    等价于 subn() 函数,使用了编译后的模式。

  • Pattern.flags

    正则匹配标记。这是传递给 compile() 的标记的组合,包括任何 (?…) 内联标记、隐性标记,以及当模式是 Unicode 字符串时的 UNICODE 标记。

  • Pattern.groups

    捕获组的数量。

  • Pattern.groupindex

    (?P) 定义的命名符号组映射到组编号的字典。如果没有符号组,则是一个空字典。

  • Pattern.pattern

    编译的正则表达式对象中的原始模式字符串。

在 3.7 版更改: 添加 copy.copy()copy.deepcopy() 函数的支持。编译后的正则表达式对象被认为是原子性的。

5. re.Match 对象

Match 对象总是对应于布尔值 True。如果没有匹配的话, match()search() 返回 None, 所以你可以简单的用 if 语句来判断是否匹配:

match = re.search(pattern, string)
if match:
    process(match)

Match对象支持以下方法和属性:

  • Match.group([group1, …])

    返回匹配项的一个或多个子组。如果只有一个参数,结果就是一个字符串,如果有多个参数,结果就是一个元组(每个参数对应一个项),如果没有参数,group1 默认为 0(整个匹配项都被返回)。 如果某个 groupN 参数为 0,相应的返回值就是匹配到的整个字符串;如果 groupN 在范围 [1, 99] 之内,返回值结果对应子组匹配到的字符串。如果组号为负数或大于模式中定义的组数,将引发 IndexError 异常 。如果一个子组未匹配到内容,则对应的结果是 None。如果一个子组包匹配到了多次,则返回最后一个匹配:

    >>> m = re.match(r'(\w+) (\w+)', 'Isaac Newton, physicist')
    >>> m.group(0)       # The entire match
    'Isaac Newton'
    >>> m.group(1)       # The first parenthesized subgroup.
    'Isaac'
    >>> m.group(2)       # The second parenthesized subgroup.
    'Newton'
    >>> m.group(1, 2)    # Multiple arguments give us a tuple.
    ('Isaac', 'Newton')
    >>> m.group(0, 1, 2)
    ('Isaac Newton', 'Isaac', 'Newton')
    >>> re.match(r'(\d+)*(\d+)(\d+)*', '324234').group(1, 2, 3) # 第三个子组未匹配到内容,返回 None
    ('32423', '4', None)
    

    如果正则表达式使用了 (?P…) 语法, groupN 参数就也可能是命名组合的名字。如果一个字符串参数在模式中未定义为子组名,将引发 IndexError 异常 。

    一个相对复杂的例子:

    >>> m = re.match(r'(?P\w+) (?P\w+', 'Malcolm Reynolds')
    >>> m.group('first_name')
    'Malcolm'
    >>> m.group('last_name')
    'Reynolds'
    

    命名组合同样可以通过索引值引用:

    >>> m.group(1)
    'Malcolm'
    >>> m.group(2)
    'Reynolds'
    

    如果一个组匹配成功多次,就只返回最后一个匹配:

    >>> m = re.match(r'(..)+', 'a1b2c3')  # Matches 3 times.
    >>> m.group(1)                        # Returns only the last match.
    'c3'
    
  • Match.__getitem__(g)

    这个等价于 m.group(g)。这允许更方便的引用一个匹配

    >>> m = re.match(r'(\w+) (\w+)', 'Isaac Newton, physicist')
    >>> m[0]       # The entire match
    'Isaac Newton'
    >>> m[1]       # The first parenthesized subgroup.
    'Isaac'
    >>> m[2]       # The second parenthesized subgroup.
    'Newton'
    

    3.6 新版功能.

  • Match.groups(default=None)

    返回一个元组,包含所有匹配的子组,从1到模式中出现的任意多的子组。default 参数用于不参与匹配的情况,默认为 None

    例如:

    >>> m = re.match(r'(\d+)\.(\d+)', '24.1632')
    >>> m.groups()
    ('24', '1632')
    

    如果我们使小数点可选,那么不是所有的组都会参与到匹配当中。未参与匹配的组默认会返回一个 None ,当指定了 default 参数时,未参与匹配的组将返回 defaults 参数的值。

    >>> m = re.match(r'(\d+)\.?(\d+)?', '24')
    >>> m.groups()      # Second group defaults to None.
    ('24', None)
    >>> m.groups('0')   # Now, the second group defaults to '0'.
    ('24', '0')
    
  • Match.groupdict(default=None)

    返回一个字典,包含了所有的 命名 子组。键就是组名。 default 参数用于指定未参与匹配的组的返回值,默认为 None

    例如:

    >>> m = re.match(r'(?P\w+) (?P\w+)', 'Malcolm Reynolds')
    >>> m.groupdict()
    {'first_name': 'Malcolm', 'last_name': 'Reynolds'}
    >>> re.match(r'(?P\d+)*(?P\d+)*(?P\d+)*', '324234').groupdict(0)
    {'first': '324234', 'second': 0, 'thrid': 0}
    
  • Match.start([group])

  • Match.end([group])

    返回 group 匹配到的字串的开始和结束标号。group 默认为0(意思是整个匹配的子串)。如果 group 存在,但未产生匹配,就返回 -1 。对于一个匹配对象 m, 和一个未参与匹配的组 g ,组 g (等价于m.group(g))产生的匹配是:

    m.string[m.start(g):m.end(g)]
    

    注意,如果 group 匹配一个空字符串的话, m.start(group) 将会等于 m.end(group)

    比如,对于 m = re.search('b(c?)', 'cba')m.start(0) 为 1,m.end(0) 为 2,m.start(1)m.end(1) 都是2, m.start(2) 则引发 一个 IndexError 异常。

    这个例子会从email地址中移除掉 remove_this

    >>> email = 'tony@tiremove_thisger.net'
    >>> m = re.search('remove_this', email)
    >>> email[:m.start()] + email[m.end():]
    '[email protected]'
    
  • Match.expand(template)

    template 进行反斜杠转义替换并且返回替换后的结果,就像 sub() 方法中所做的一样。 '\n' 这样的转义字符将被转换成合适的字符,对子组的反向编号引用('\2')和反向命名引用(\g<1>\g ) 将替换为相应子组匹配到的内容。如果子组未匹配到内容,则使用空字符串 '' 替代。

    在 3.5 版更改: 不匹配的组合替换为空字符串。

    >>> m = re.match(r'(?P\d+)*(?P\d+)*(?P\d+)*', '23432424')
    >>> m.groupdict()
    {'first': '23432424', 'second': None, 'third': None}
    >>> m.expand(r'\g') # 反向命名引用
    '23432424'
    >>> m.expand(r'\g<1>') # 反向数字引用
    '23432424'
    >>> m.expand(r'\1') # 反向数字引用
    '23432424'
    >>> m.expand(r'\2') # 第二个组未匹配到内容,所以为空字符串
    ''
    
  • Match.span([group])

    对于一个匹配对象 m , 返回一个二元组 (m.start(group), m.end(group))。 注意如果 group 没有在这个匹配中,就返回 (-1, -1)group 默认为0,就是整个匹配。

  • Match.pos

    传递给正则对象的 search()match() 方法的 pos 参数的值 。这个值对应于字符串中某个字符的索引值,从这个字符开始,正则引擎开始查找匹配项。

  • Match.endpos

    传递给正则对象的 search()match() 方法的 endpos 参数的值 。这个值是到字符串的索引,从这个索引位置开始,正则引擎停止查找匹配项。

  • Match.lastindex

    捕获组的最后一个匹配的整数索引值,如果没有匹配到的话则为 None。比如,对于字符串 'ab',表达式 (a)b, ((a)(b)), 和 ((ab)) 将得到 lastindex == 1 , 而 (a)(b) 会得到 lastindex == 2

  • Match.lastgroup

    最后一个匹配到内容的子组的名称,如果子组没有名称或者没有匹配到的话则为 None

  • Match.re

    返回产生这个实例的正则对象 , 这个实例是由正则对象的 match()search() 方法产生的。

  • Match.string

    传递到 match()search() 的字符串。

在 3.7 版更改: 添加了对 copy.copy()copy.deepcopy() 的支持。匹配对象被看作是原子性的。

6. 正则表达式例子

6.1 检查对子

在这个例子里,我们使用以下辅助函数来更好的显示匹配对象:

def displaymatch(match):
    if match is None:
        return None
    return '' % (match.group(), match.groups())

假设你在写一个扑克程序,一个玩家的一手牌为五个字符的串,每个字符表示一张牌,“a” 就是 A, “k” 就是 K,“q” 就是 Q,“j” 就是 J, “t” 为 10,“2” 到 “9” 表示2 到 9。

要看给定的字符串是否有效,我们可以按照以下步骤

>>> valid = re.compile(r'^[a2-9tjqk]{5}$')
>>> displaymatch(valid.match(`akt5q`))  # Valid.
`<Match: 'akt5q', groups=()>`
>>> displaymatch(valid.match(`akt5e`))  # Invalid.
>>> displaymatch(valid.match(`akt`))    # Invalid.
>>> displaymatch(valid.match(`727ak`))  # Valid.
`<Match: '727ak', groups=()>`

最后一手牌,727ak ,包含了一个对子,或者两张同样数值的牌。要用正则表达式匹配它,应该使用向后引用如下

>>> pair = re.compile(r'.*(.).*\1')
>>> displaymatch(pair.match('717ak'))     # Pair of 7s.
`<Match: '717', groups=('7',)>`
>>> displaymatch(pair.match('718ak'))     # No pairs.
>>> displaymatch(pair.match('354aa'))     # Pair of aces.
`<Match: '354aa', groups=('a',)>`

要找到对子包含的是哪一张牌,应该按照下面的方式使用 group() 方法:

>>> pair.match('717ak').group(1)
'7'
# Error because re.match() returns None, which doesn't have a group() method:
... pair.match('718ak').group(1)
Traceback (most recent call last):
  File `<pyshell#23>`, line 1, in 
    re.match(r'.*(.).*\1', '718ak').group(1)
AttributeError: 'NoneType' object has no attribute 'group'
>>> pair.match('354aa').group(1)
'a'

6.2 模拟 scanf() 函数

Python 目前没有一个类似c函数 scanf() 的替代品。正则表达式通常比scanf() 格式字符串要更强大一些,但也带来更多复杂性。下面的表格提供了scanf() 格式符和正则表达式大致相同的映射。

scanf() 格式符 正则表达式
%c .
%5c .{5}
%d [-+]?\d+
%e, %E, %f, %g [-+]?(\d+(\.\d*)?|\.\d+)([eE][-+]?\d+)?
%i [-+]?(0[xX][\dA-Fa-f]+|0[0-7]*|\d+)
%o [-+]?[0-7]+
%s \S+
%u \d+
%x, %X [-+]?(0[xX])?[\dA-Fa-f]+

从文件名和数字提取字符串

/usr/sbin/sendmail - 0 errors, 4 warnings

你可以使用 scanf() 格式化

%s - %d errors, %d warnings

等价的正则表达式是:

(\S+) - (\d+) errors, (\d+) warnings

6.3 search() vs. match()

Python 提供了两种不同的操作:基于 re.match() 检查字符串开头,或者re.search() 检查字符串的任意位置(默认Perl中的行为)。

例如:

>>> re.match('c', 'abcdef')    # No match
>>> re.search('c', 'abcdef')   # Match
<re.Match object; span=(2, 3), match='c'>

search() 中,可以用 ^ 作为开始来限制匹配到字符串的首位

>>> re.match('c', 'abcdef')    # No match
>>> re.search('^c', 'abcdef')  # No match
>>> re.search('^a', 'abcdef')  # Match
<re.Match object; span=(0, 1), match='a'>

注意 MULTILINE 多行模式中函数 match() 只匹配字符串的开始,但使用search() 和以 ^ 开始的正则表达式会匹配每行的开始

>>> re.match('X', 'A\nB\nX', re.MULTILINE)  # No match
>>> re.search('^X', 'A\nB\nX', re.MULTILINE)  # Match
<re.Match object; span=(4, 5), match='X'>

6.4 建立一个电话本

split() 将字符串用参数传递的模式分隔开。这个方法对于转换文本数据到易读而且容易修改的数据结构,是很有用的,如下面的例子证明。

首先,这里是输入。通常是一个文件,这里我们用三引号字符串语法

>>> text = '''Ross McFluff: 834.345.1254 155 Elm Street
...
... Ronald Heathmore: 892.345.3428 436 Finley Avenue
... Frank Burger: 925.541.7625 662 South Dogwood Way
...
...
... Heather Albrecht: 548.326.4584 919 Park Place'''

条目用一个或者多个换行符分开。现在我们将字符串转换为一个列表,每个非空行都有一个条目:

>>> entries = re.split('\n+', text)
>>> entries
['Ross McFluff: 834.345.1254 155 Elm Street',
'Ronald Heathmore: 892.345.3428 436 Finley Avenue',
'Frank Burger: 925.541.7625 662 South Dogwood Way',
'Heather Albrecht: 548.326.4584 919 Park Place']

最终,将每个条目分割为一个由名字、姓氏、电话号码和地址组成的列表。我们为 split() 使用了 maxsplit 形参,因为地址中包含有被我们作为分割模式的空格符:

>>> [re.split(':? ' , entry, 3) for entry in entries]
[['Ross', 'McFluff', '834.345.1254', '155 Elm Street'],
['Ronald', 'Heathmore', '892.345.3428', '436 Finley Avenue'],
['Frank', 'Burger', '925.541.7625', '662 South Dogwood Way'],
['Heather', 'Albrecht', '548.326.4584', '919 Park Place']]

:? 模式匹配姓后面的冒号,它是分隔符的一部分,因此不出现在结果列表中。如果 maxsplit设置为 4 ,我们还可以从地址中获取到房间号:

>>> [re.split(':? ', entry, 4) for entry in entries]
[['Ross', 'McFluff', '834.345.1254', '155', 'Elm Street'],
['Ronald', 'Heathmore', '892.345.3428', '436', 'Finley Avenue'],
['Frank', 'Burger', '925.541.7625', '662', 'South Dogwood Way'],
['Heather', 'Albrecht', '548.326.4584', '919', 'Park Place']]

6.5 文字整理

sub() 替换字符串中出现的模式的每一个实例。这个例子证明了使用 sub() 来整理文字,或者随机化每个字符的位置,除了首位和末尾字符:

>>> def repl(m):
...     inner_word = list(m.group(2))
...     random.shuffle(inner_word)
...     return m.group(1) + ''.join(inner_word) + m.group(3)
>>> text = 'Professor Abdolmalek, please report your absences promptly.'
>>> re.sub(r'(\w)(\w+)(\w)', repl, text)
'Poefsrosr Aealmlobdk, pslaee reorpt your abnseces plmrptoy.'
>>> re.sub(r'(\w)(\w+)(\w)', repl, text)
'Pofsroser Aodlambelk, plasee reoprt yuor asnebces potlmrpy.'

6.6 找到所有副词

findall() 匹配模式 所有 的出现位置,而不是像 search() 只匹配第一个。比如,如果一个作者希望找到文字中的所有副词,他可能会按照以下方法用findall()

>>> text = 'He was carefully disguised but captured quickly by police.'
>>> re.findall(r'\w+ly', text)
['carefully', 'quickly']

6.7 找到所有副词和位置

如果需要匹配模式的更多信息, finditer() 可以起到作用,它提供了匹配对象作为返回值,而不是字符串。继续上面的例子,如果一个作者希望找到所有副词和它的位置,可以按照下面方法使用 finditer()

>>> text = 'He was carefully disguised but captured quickly by police.'
>>> for m in re.finditer(r'\w+ly', text):
...     print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))
07-16: carefully
40-47: quickly

6.8 原始字符记法

原始字符串记法 (r'text') 保持正则表达式正常。否则,每个正则式里的反斜杠('\') 都必须前缀一个反斜杠来转义。比如,下面两行代码功能就是完全一致的

>>> re.match(r'\W(.)\1\W', ' ff ')
<re.Match object; span=(0, 4), match=' ff '>
>>> re.match('\\W(.)\\1\\W', ' ff ')
<re.Match object; span=(0, 4), match=' ff '>

当需要匹配一个字符反斜杠,它必须在正则表达式中转义。在原始字符串记法,就是 r'\\'。否则就必须用 '\\\\'来表示同样的意思

>>> re.match(r'\\', r'\\')
<re.Match object; span=(0, 1), match='\\'>
>>> re.match('\\\\', r'\\')
<re.Match object; span=(0, 1), match='\\'>

6.9 写一个词法分析器

一个 词法器或词法分析器 分析字符串,并分类成目录组。 这是写一个编译器或解释器的第一步。

文字目录是由正则表达式指定的。这个技术是通过将这些模式合并为一个主正则式,并且循环匹配来实现的

import collections
import re

Token = collections.namedtuple('Token', ['type', 'value', 'line', 'column'])


def tokenize(code):
    keywords = {'IF', 'THEN', 'ENDIF', 'FOR', 'NEXT', 'GOSUB', 'RETURN'}
    token_specification = [
        ('NUMBER', r'\d+(\.\d*)?'),  # Integer or decimal number
        ('ASSIGN', r':='),  # Assignment operator
        ('END', r';'),  # Statement terminator
        ('ID', r'[A-Za-z]+'),  # Identifiers
        ('OP', r'[+\-*/]'),  # Arithmetic operators
        ('NEWLINE', r'\n'),  # Line endings
        ('SKIP', r'[ \t]+'),  # Skip over spaces and tabs
        ('MISMATCH', r'.'),  # Any other character
    ]
    tok_regex = '|'.join('(?P<%s>%s)' % pair for pair in token_specification)
    line_num = 1
    line_start = 0
    for mo in re.finditer(tok_regex, code):
        kind = mo.lastgroup
        value = mo.group()
        column = mo.start() - line_start
        if kind == 'NUMBER':
            value = float(value) if '.' in value else int(value)
        elif kind == 'ID' and value in keywords:
            kind = value
        elif kind == 'NEWLINE':
            line_start = mo.end()
            line_num += 1
            continue
        elif kind == 'SKIP':
            continue
        elif kind == 'MISMATCH':
            raise RuntimeError(f'{value!r} unexpected on line {line_num}')
        yield Token(kind, value, line_num, column)


statements = '''
    IF quantity THEN
        total := total + price * quantity;
        tax := price * 0.05;
    ENDIF;
'''

for token in tokenize(statements):
    print(token)

这个词法器产生以下输出

Token(type='IF', value='IF', line=2, column=4)
Token(type='ID', value='quantity', line=2, column=7)
Token(type='THEN', value='THEN', line=2, column=16)
Token(type='ID', value='total', line=3, column=8)
Token(type='ASSIGN', value=':=', line=3, column=14)
Token(type='ID', value='total', line=3, column=17)
Token(type='OP', value='+', line=3, column=23)
Token(type='ID', value='price', line=3, column=25)
Token(type='OP', value='*', line=3, column=31)
Token(type='ID', value='quantity', line=3, column=33)
Token(type='END', value=';', line=3, column=41)
Token(type='ID', value='tax', line=4, column=8)
Token(type='ASSIGN', value=':=', line=4, column=12)
Token(type='ID', value='price', line=4, column=15)
Token(type='OP', value='*', line=4, column=21)
Token(type='NUMBER', value=0.05, line=4, column=23)
Token(type='END', value=';', line=4, column=27)
Token(type='ENDIF', value='ENDIF', line=5, column=4)
Token(type='END', value=';', line=5, column=9)

你可能感兴趣的:(Python学习)