【Python爬虫学习】正则表达式

特殊字符

  • ^$*?+{2}{2, }{2,5}|
  • [][^][a-z] .
  • \s \S \w \W
  • `\u4E00-\u9FA5\d
    "k":以k开头;
    "^k.":以k开头匹配任何后续字符n次,.代表匹配任何字符,代表匹配任意多次;
    "^k.9":以k开头匹配任意字符1次,但是第三个字符必须以9作为结尾;
    ".
    ?(a.?a).":字符串前后匹配任意字符,但是只提取括号中匹配的字符串,问号代表非贪婪匹配,例如"auuuuuuusssawwwww",那么"auuuuuuusssa"就会被提取出来;
    "+":至少出现一次,例如".(a.+a)."提取"asssssaaaaaeiw",则会提取出"aaa"(这里有必要强调一下的就是一般正则匹配在贪婪模式下是从右往左进行匹配);
    []:包含在[]中的一个或者多个字符被称为字符类,字符类在匹配时如果没有指定量词则只会匹配其中的一个,例如提取电话好吗可以写成1[358][0-9]{9},[358]表示匹配3、5、8任意字符,[0-9]{9}表示匹配0-9中任意字符出现9次;
    \s:匹配任意空白字符,等价于 [ \t\n\r\f];
    \S:匹配任意非空字符;
    \w:匹配字母数字及下划线;
    \W:匹配非字母数字及下划线;
    \d:匹配任意数字,等价于 [0-9]

你可能感兴趣的:(【Python爬虫学习】正则表达式)