Python是一种在数据处理上非常占优势的计算机编程语言,这一篇文章就记录我在学习正则表达式时的经验吧。此处只介绍常用的正则表达式,学完后一般的正则表达式也都能处理啦。
一、入门
常用正则表达式符号:
^a //以a开头
. //任意一个字符
* //任意数量的字符
* //任意字符任意数量
3$ // 以3结尾
? //消除贪婪模式
举个栗子:
line="booooooobby123"
假如想提取line字符串中的booooooob
先定义字符串“规则”——正则表达式
regex_str=".*(b.*b).*"
引号里面的字符串是什么意思呢?
对照着第一个表,.*
代表字符串的前面是任意数量的任意字符,
接着是()
,括号内匹配到的字符串就是最终提取出来返回到regex_str的字符串,
然后括号里面代表的是b字符+中间任意数量任意字符+b字符(正好对应我们想要提取出来的booooooob)
最后以.*
任意数量的任意字符结尾
以上的字符串仅仅是个将要匹配到所要字符串的一个模式或者说你你定义的规则,从其他字符串中要符合你的规则就能匹配并提出来想要的字符串
接下来进行匹配
match_obj=re.match(regex_str,line)
match_obj得到的就是从line字符串中,满足regex_str规则的一个字符串元祖
为什么说是元祖呢,接着往下看
if match_obj:
print(match_obj.group(1))
如果匹配成功则输出match_obj中group关键字的(1)项,这说明match_obj得到的不仅仅是字符串,而是由很多元素组成的元祖,其中group属性是个列表元素。
那么group又是什么呢?
其实仔细思考一下,如果有非常长的字符串,而恰好满足你所定义规则的字符串有多个,将会让所有的字符串加入到group列表中,其中我们取(1)即可得到第一个匹配到的字符串。
好了,将上述代码输入后发现打印出:
bb
what?
其实这里是正则表达式的一个特性,就是贪婪匹配模式。
那么什么是贪婪匹配模式呢?
- 从右往左匹配
- 贪婪,匹配的字符串越长越好
booooooobby123字符串从左开始匹配,y123匹配到定义规则里面的.*
,然后b匹配到括号里面的b,接着下一个b又匹配到括号内的第二个b,好了,括号里面的正则已经匹配完成,并且括号后面的.*
符合booooooo,所以返回最终返回字符串为括号内的bb
那要怎么解决呢?
?+有贪婪模式的字符
可以消除贪婪模式,所以这么改:
regex_Str=".*?(b.*b).*"
然后,发现匹配到的是booooooobb!!!
崩溃!
看看我上面提到的贪婪匹配特点第二点(贪婪,匹配的字符串越长越好),消除了bb的匹配方式之后,有booooooob和booooooobb可选,当然会选择更长的那个。
改进:
regex_Str=".*?(b.*?b).*"
二、进阶
+ //至少出现一次
.+ // 任意字符至少出现一次
{a,b} //至少出现a次,最多出现b次
| //或
[abcd] //abcd中任意一个字符
[0-9] //0到9任意一个(区间)
[0-9]{9} // 0到9任意一个共出现9次
[^1] //(非1)除了1之外的字符任意一个
[.*] //即字符.(点)和*(星号)本身
\s //空格
\S //非空格
\w //即是[A-Za-z0-9_]任意一个
\W //非\w
[\u4E00- \u9FA5] //任意一个汉字
- 为了加深一下上述的贪婪匹配,再举个栗子。
如果提取line = "study in 南京大学"
regex_str = ".*([\u4E00- \u9FA5]+大学)"
提取的是
京大学(这是一种贪婪模式的匹配,从右到左匹配成功后就不再匹配,所以加上问号)
regex_str = ".*?([\u4E00- \u9FA5]+大学)"
- 最后一个栗子
其中正则表达式的一个重要符号:
\d 数字
现在匹配下面的字符串,想提取2001
line = "XXX出生于2001年"
regex_str=".*(\d+)年"
提取的字符串为1
因为贪婪模式
所以要想提取2001,则需要
regex_str=".*?(\d+)年"
或者
regex_str=".*(\d{4})年"