Python正则表达式(一)

正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。

我们在大文本中匹配字符串时,有些情况用str自带的函数(比如find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串,所有和julyedu相关的句子),这个时候我们需要一个某种模式的工具,这个时候正则表达式就派上用场了。

1.语法

下面是一张有些同学比较熟的图,我们俗称python正则表达式小抄,把写正则表达式当做一个开卷考试,显然容易得多。

当你要匹配 一个/多个/任意个 数字/字母/非数字/非字母/某几个字符/任意字符,想要 贪婪/非贪婪 匹配,想要捕获匹配出来的 第一个/所有 内容的时候,记得这里有个小手册供你参考。

Python正则表达式(一)_第1张图片

2.验证工具

我们最喜爱的正则表达式在线验证工具之一是http://regexr.com/

谁用谁知道,用过一次以后欲罢不能。

3.挑战与提升

长期做自然语言处理的同学正则表达式都非常熟,曾经有半年写了大量的正则表达式,以至于同事间开玩笑说,只要是符合某种规律或者模式的串,肯定分分钟能匹配出来。

对于想练习正则表达式,或者短期内快速get复杂技能,or想挑战更复杂的正则表达式的同学们。 请戳正则表达式进阶练习


你可能感兴趣的:(nlp)