我的第五篇python爬虫博客《正则表达式(一)》

sesstion 通过在服务端记录的信息确定用户身份

在这里我主要介绍的是requests模块中的session 指的是保持会话

*突破12306图片验证码

我的第五篇python爬虫博客《正则表达式(一)》_第1张图片

正则表达式

概念:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑

正则表达式的应用场景

1.表单验证(例如:网页注册账号时需要提供的手机号,身份证等验证)

2.爬虫

正则表达式对python的支持

1.普通字符

字母、数字、汉字、下划线、以及没有特殊定义的符号,都是普通字符

表达式中的普通字符,在匹配的时候,只匹配与自身相同的一个字符

2.match()函数

match(pattern,string,flags=0)这里我主要讲第一和第二个参数

第一个参数是正则表达式,如果匹配成功,则返回一个match对象,否则返回一个None

第二个参数表示要匹配的字符串

我的第五篇python爬虫博客《正则表达式(一)》_第2张图片

*第二个参数的第一个字符必须被第一个参数匹配到

第三个参数是标志位,用于控制正则表达式的匹配方式 如:是否区分大小写,多行匹配等

3.元字符

正则表达式中使用了很多元字符,用来表示一些特殊的含有或功能

. 小数点可以匹配除了换行符\n以外的任意一个字符

我的第五篇python爬虫博客《正则表达式(一)》_第3张图片

| 逻辑或操作符

我的第五篇python爬虫博客《正则表达式(一)》_第4张图片

[] 匹配字符集中的一个字符

我的第五篇python爬虫博客《正则表达式(一)》_第5张图片

[^] 对字符集求反操作,尖号必须在方括号的最前面

我的第五篇python爬虫博客《正则表达式(一)》_第6张图片

\对紧跟其后的一个字节进行转义

我的第五篇python爬虫博客《正则表达式(一)》_第7张图片

你可能感兴趣的:(python,正则表达式,爬虫)