2011-02-17 wcdj
(1) 模式分组
(2) 择一匹配
(3) 字符集
(4) 字符集简写
(5) 反义简写
(1) 模式分组
圆括号 —— 用来分组,也是元字符。
print "模式分组/n"; $_ = "wcdj"; if (/wcdj+/) {# +表示>=1个j字符 print "It matched!/n";# 输出此句 } else { print "not matched!/n"; } $_ = "wcdjwcdj"; if (/(wcdj)+/) {# 圆括号用于分组,+表示>=1个wcdj字符串 print "It matched!/n";# 输出此句 } else { print "not matched!/n"; }
注意:
[1] 圆括号同时也使得部分字符串重新引用成为可能。可以用“反向引用”来引用圆括号中匹配的文字。
[2] 点号“.”可以匹配任何非回车字符。
[3] 可以用多个括号来分成多组。
print "反向引用/n"; $_ = "abba"; if (/(.)/1/) {# 同'bb'相匹配 print "It matched same character next to itself!/n";# 输出此句 } else { print "not matched!/n"; } $_ = "abab"; if (/(.)/1/) {# 没有找到连续相同的2个字符 print "It matched same character next to itself!/n"; } else { print "not matched!/n";# 输出此句 } $_ = "a2wcdj bwcdj c"; if (/2(....) b/1/) {# 同'2wcdj bwcdj'相匹配 print "It matched!/n";# 输出此句 } else { print "not matched!/n"; } print "用多个括号分成多组/n"; $_ = "a2abbc b2wccwj c"; if (/2(.)(.)/2/1/) {# 同'2wccw'相匹配 print "It matched!/n";# 输出此句 } else { print "not matched!/n"; } $_ = "a2abbc bwccwj c"; if (/2(.)(.)/2/1/) {# /2反相引用第二组圆括号 print "It matched!/n"; } else { print "not matched!/n";# 输出此句 }
Perl 5.10有一种新的反相引用写法。不再只是简单地用反斜线和组号,而是用了/g{N}这种写法。其中,N是想要反相引用的组号。
这种新写法的好处 :[1] 会更加清晰 [2] 排除二义性 [3] 可以用负数
print "5.010/n"; use 5.010; $_ = "1abb11c"; if (/(.)(.)/g{-1}11/) {# 相对反相引用,不是绝对位置的反相引用,匹配'abb11' print "It matched!/n";# 输出此句 } else { print "not matched!/n"; }
(2) 择一匹配
竖线(|)通常可以读成“或”,意思是左边匹配或者右边匹配都行。
例如:
可以使用/wcdj( |/t)+gerry/ 这样的模式来匹配wcdj和gerry之间空格、制表符或两者组合出现一次以上的字符串。加号(+)表示重复一次或更多。在这两个名字之间至少要有一个空格或制表符。
若要求两个名字之间的字符必须都一样,则改为:/wcdj( +|/t+)gerry/ ,这样中间的分隔符就一定得全是空格或全是制表符。
(3) 字符集
字符集 —— 是指一串可能出现的字符集合,通过写在方括号([]) 内来表示。
注意:它只匹配单个字符,但可以是字符集里列出的任何一个。
例如:
字符集[abcxyz]会匹配这6个字符中的任何一个。
为了方便起见,可以使用连字符(-),写成[a-cx-z]
常用的经典字符集:[a-zA-Z],这个字符集可以匹配52(26*2)个字母中的任何一个。
注意:字符集只是完整模式的一部分,在Perl中它从来不会单独出现。
print "字符集/n"; $_ = "The HAL-9000 requires authorization to continue."; if (/HAL-[0-9]+/) { print "The string mentions some model of HAL computer./n"; }
有时候,指定字符集范围“以外的”字符会比指定字符集“内”的字符更容易。可以在——字符集内部开头的地方——加上脱字符(^),表示这些字符除外。
例如:
[^def]会匹配这三个字符以外的任何字符。
[^n/-z]会匹配n、连字符与z以外的任何字符。
注意:这里的连字符要加上反斜线,因为它在字符集里具有特殊的意义。但在 /HAL-[0-9]+/ 里的第一个连字符则不需要反斜线,因为字符集括号以外的连字符没有特殊意义。
(4) 字符集简写
/d —— 代表任意数字的字符集[0-9]
/w —— 代表单词字符[A-Za-Z0-9_] (单词里应该只含有字母、数字和下划线,/w+ 匹配一个完整的单词)
/s —— 代表5种空白的字符集:换页、制表、换行、回车以及空格。[/f/t/n/r ]。(比较常见的是用 /s* 来匹配任意数目的空白或 /s+匹配一个以上的空白字符)
注意:Perl 5.10 增加了更多字符集来描述空白。
/h —— 代表字符集[/t ],即包含制表符和空格的字符集,匹配横向空白
/v —— 代表字符集[/f/n/r],匹配纵向的空格
/R —— 匹配任何类型的断行
print "字符集简写/n"; $_ = "There is a number 123 in this sentence./n"; if (//d/) { print "find digits!/n";# 输出此句 } else { print "no digits!/n"; } $_ = "There is no number in this sentence./n"; if (//d/) { print "find digits!/n"; } else { print "no digits!/n";# 输出此句 } $_ = "wcdj this_is_a_word gerry"; if (/wcdj /w+ gerry/) { print "find a word!/n";# 输出此句 } else { print "no word!/n"; } $_ = "wcdjgerry"; if (/wcdj/s*gerry/) { print "find >= 0 blank!/n";# 输出此句 } $_ = "wcdj gerry"; if (/wcdj /s+ gerry/) { print "find more than one blank!/n";# 输出此句 } else { print "no blank!/n"; }
(5) 反义简写
[^/d],[^/w],[^/s]分别表示一个非数字、非词或者非空白字符。
其实它们的大写版本就是用来完成这种任务的:即,/D,/W,/S (这些大写版本能匹配相应小写版本范围 —— 以外的 —— 字符)