常用的正则表达式匹配规则

常用的正则表达式匹配规则

模式 描述
\w 匹配字母、数字、下划线,等价于[a-zA-Z0-9_] \w可以匹配汉字(python),
\W 匹配不是字母、数字、下划线的其他字符
\s 匹配任意空白字符,等价于(\t\n\r\f)
\S 匹配任意非空字符
\d 匹配数字,等价于[0-9]
\D 匹配不是数字的字符
\A 匹配字符串开头
\Z 匹配字符串结尾的,如果存在换行,只匹配到换行前的结束字符串
\z 匹配字符串结尾的,如果存在换行,匹配到换行符\n
\G 最好完成匹配的位置
\n 匹配一个换行符
\t 匹配一个制表符(tab)
^ 匹配一行字符串的开头
$ 匹配一行字符串的结尾
. 匹配任意字符,除了换行符.当re.DOTALL标记被指定时,这可以匹配包括换行符在内的任字符
[…] 用来表示一组字符,比如[abc]表示匹配a或b或c,[a-z],[0-9]
[^…] 匹配不在[]里面的字符,比如[^abc]匹配除a,b,c以外的字符
* 匹配0个或多个字符
+ 匹配1个或多个字符
? 匹配0个或1个前面的正则表达式片段,(.*?)表示尽可能少地匹配字符(后面详解)
{n} 精确匹配前面n个前面的表达式,如\d{5}表示匹配5个数字
{n,m} 匹配前面的表达式n到m次,贪婪模式
a|b 匹配a或者b
(…) 匹配括号里的表达式,也可以表示一个组

这个表很重要,但也不用死记硬背,因为又不是让你考试,下面会列举一些非常常用的匹配规则,剩下的就等要用了再查表就可以了

先向大家介绍一个开源中国的一个在线正则表达式工具
oschina 在线正则表达式测试(http://tool.oschina.net/regex/#)

常用的正则表达式匹配规则_第1张图片

常用的正则表达式

  • 汉字
 [\u4e00-\u9fa5]
  • 邮箱Email
[\w!#$%&'*+/=?^_`{|}~-]+(?:\.[\w!#$%&'*+/=?^_`{|}~-]+)*@(?:[\w](?:[\w-]*[\w])?\.)+[\w](?:[\w-]*[\w])?
  • 网址
[a-zA-z]+://[^\s]*
  • 身份证
^(\d{6})(\d{4})(\d{2})(\d{2})(\d{3})([0-9]|X)$
  • 邮编
[1-9]\d{5}(?!\d)

更多正则表达式可以参考下面这篇文章:
最全的常用正则表达式大全——包括校验数字、字符、一些特殊的需求等等 - zxin - 博客园

你可能感兴趣的:(Python,正则表达式,爬虫)