爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库

目录:

        • 1. 写入文件的时候要encoding一下。
  • 1. re
      • 1. 正则的基础知识
      • 2. python的re模块。
        • 2. re.finditer ( r"\d+", "********") 最常用!!!!
      • 3. 预加载正则表达式:
      • 4. 从正则中取出数据来。

1. 写入文件的时候要encoding一下。

window默认的编码是 gbk 编码,
爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第1张图片
爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第2张图片

1. re

1. 正则的基础知识

爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第3张图片
字符组,数字,字母: [a-zA-Z0-9]
[^***]。除了这里面的都行,

爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第4张图片
.*?非贪婪匹配

2. python的re模块。

爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第5张图片

2. re.finditer ( r"\d+", “********”) 最常用!!!!

爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第6张图片
取东西:

爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第7张图片

爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第8张图片爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第9张图片

爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第10张图片

3. 预加载正则表达式:

正则很长的化,就很方便。。

爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第11张图片

4. 从正则中取出数据来。

  • 我想把里面的名字什么的拿出来。
    爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第12张图片

爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第13张图片
(?P正则 ) 可以单独从正则匹配的内容中进一步提取内容
(?P.*?)。然后那的时候,it.group('name')。就拿到了。

爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库_第14张图片

你可能感兴趣的:(爬虫学习,python,爬虫)