去年立下的flag,试着对这篇博文进行翻译:
https://www.johndcook.com/blog/regex-perl-python-emacs/
现在要兑现了:
正则表达式非常方便,但是在不同场景下的实现不尽相同。本文将对正则表达式在Perl, Python和Emacs中的异同作一些总结,但不能做到面面俱到。
文中的提到“Python”正则,指的是2015年底re
模块所实现的版本,据说还有一些更兼容Perl的选项,将来可能会被合并到官方版中。
此外,本文注重正则表达式的语法,而非如何使用。更多地关注于常见任务中正则表达式的比较,比如在Perl和Python中的搜索与替换。
Emacs, Python, Perl中正则表达式的共同特性
在所有的实现中,最基本的regex特征都是一致的:通配符(.
),量化符(*
,+
,?
),锚点(^
,$
),[]
内的字符和反向引用(\1
,\2
,\3
)等。
最新的Emacs版本支持\b
表示词边界(word boundaries),\B
表示非词边界(non-word boundaries),\w
表示单词字符(word characters),\W
表示非单词字符(non-word characters)。
通常Emacs只支持最古老的正则特性,但也支持相对较新的非贪婪量化符(non-greedy quantifiers),如*?
,+?
,??
。
Emacs中的基本特性都需要反斜杠(\
)
替换符在Perl和Python中都是用|
表示,但在Emacs中必须写成\|
,类似地,括号在Emacs中也必须转义为\(
和\)
。同样的还有表示匹配次数的大括号\{
和\}
。
Emacs支持的一个新特性是非分组括号(non-grouping parentheses),然而这也需要用反斜杠转义作:\(?:
...\)
。
Emacs特有的特性
语法类
Emacs中的语法类以\s
打头,跟其他正则惯例一样,否定使用大写字母\S
。
例如,\s.
表示任意标点符号,而\S.
表示任何非标点。Emacs还使用\s(
和\s)
表示定界符(分隔符,delimiters)的开始与结尾,\s<
和\s>
表示注释的开头和结尾,等等。
需要注意的是,由于Emacs使用\s
和\S
表示语法类,所以就不能像Perl和Python一样来表示空格和非空格。因此,Emacs中空格表示为\s-
,非空格表示为\S-
。
字符类
字符类类似于语法类,但以\c
和\C
打头表示是或否。这类似于Perl中的Unicode属性\p{}
和\P{}
。
例如,\cg
代表任意希腊字母,\Cg
表示任意非希腊字母。可以通过运行M-x describe-categories
查看更多字符类的信息。
Python和Perl中有,而Emacs没有的特性
Perl和Python都可以使用(?aimsx)
对正则表达式进行修改。例如,(?i)
可使正则不区分大小写。
也可以使用(?#
...)
引入注释。
Perl和Python使用相同的语法进行正向或反向查找:(?=)
, (?!)
, (?<=)
,和(?。
Perl和Python都支持锚点\A
和\Z
,以及\d
, \D
, \s
和\S
。
这两种语言都使用(?P<
name>)
和?P=
name)
来命名和引用一个capture。Perl亦有其自己的语法。
Perl中有,Python中没有的特性
Perl正则相比于Python,其拥有的最大特点是Unicode字符类。(即这篇文章撰写时,Python的re
module还不支持的。)使用\p{}
和\P{}
表示该类及其否定。
Perl中的\X
是Unicode中.
的变体,Programming Perl这样描述它:
\X
可以匹配一个用户可见的字符(grapheme),即使这需要几个程序员可见的字符(code-points)才能匹配。
Perl还有的一些特征是,用\Q
和\E
来引用,用\l
和\u
表示大小写,用\L
或\U
表示小写或大写的字符序列,用\E
来结束。
Perl的正则表达式还有很多特性没有一一列出。
更多资源请见:
PowerShell和Perl中的正则表达式
Python中的正则表达式
R中的正则表达式
Mathematica中的正则表达式
C++ TR1正则表达式