数据爬取之正则匹配

re模块规则

数据爬取之正则匹配_第1张图片
匹配字符.jpg

匹配中文:[\u4e00-\u9fa5]


数据爬取之正则匹配_第2张图片
匹配数量.jpg

数据爬取之正则匹配_第3张图片
匹配边界.jpg

数据爬取之正则匹配_第4张图片
匹配分组.jpg

匹配方法

  • match方法:从起始位置开始匹配,匹配一次就结束
  • search方法:从任何位置开始匹配,匹配一次就结束
  • findall方法:匹配全部,返回一个列表
  • finditer方法:匹配全部,返回一个迭代器
  • split方法:分割字符串,返回一个列表
  • sub方法:替换

模式

  • re.l 忽略大小写的匹配模式
  • re.S 可匹配任何字符,包括换行符
  • re.X 冗余模式,忽略正则表达式中的空白和#号的注释
  • re.M 多行模式

贪婪和非贪婪

python里数量词默认是贪婪的,总是尝试匹配尽可能多的字符;在*、?、+、{m,n}后面加上?,使贪婪编程非贪婪

你可能感兴趣的:(数据爬取之正则匹配)