6.爬虫数据提取——正则表达式

一、单字符匹配规则

方式 描述
点(.) 匹配任意字符
\d 匹配任意数字
\D 匹配任意非数字
\s 匹配空白字符
\w 匹配小写的a-z、大写A-Z、数字0-9和下划线_
\W 匹配除小写\w之外的内容
[ ] 组合方式进行匹配,满足[ ]内的均可匹配

二、多字符匹配规则

方式 描述
星号(*) 匹配0个或任意多个字符
加号(+) 匹配1个或任意多个字符
问号(?) 要么匹配0个,要么匹配1个
{m} 匹配指定的m个字符
{m,n} 匹配m-n个字符,取最多

三、匹配规则替代方案

方式 描述 替代方式
\d 匹配所有数字 [0-9]
\D 匹配所有非数字 [^0-9]
\w 匹配所有数字、字母和下划线 [0-9a-zA--Z_]
\W 匹配所有非数字、字母和下划线 [^0-9a-zA--Z_]
[\w\W]或[\d\D] 匹配所有字符  

四、特殊规则

1.在中括号内不再有特殊含义的字符

[.]  [*] [?] 等仅表示匹配点(.)、星号(*)、问号(?)。

 

你可能感兴趣的:(Python)