python爬虫笔记

文章目录

  • day1
    • 1. HTTP协议与WEB开发
    • 2. UA反爬
    • 3. referer反爬
    • 4. cookie反爬
    • 5. 爬虫的请求参数
    • 6. 爬取图片
  • day2 验证码与JS逆向爬虫
    • 1. 获取验证码
    • 2.识别验证码

day1

1. HTTP协议与WEB开发

爬虫的根本就是模拟人向浏览器发送请求

python爬虫笔记_第1张图片
python爬虫笔记_第2张图片
python爬虫笔记_第3张图片

协议-版本-状态响应码

客户端和服务端,都需要遵循请求和响应协议

2. UA反爬

request请求头中,带上user-agent 参数

3. referer反爬

  • 数据解析
  • 抓包分析

4. cookie反爬

5. 爬虫的请求参数

6. 爬取图片

python爬虫笔记_第4张图片

雪球网 – 股票
九他他 – 视屏

day2 验证码与JS逆向爬虫

需要找到正则网站 -石墨文档中接口自动化笔记

1. 获取验证码

使用get获取

2.识别验证码

使用图鉴网站
http://www.ttshitu.com/docs/python.html#pageTitle
账号:HJL
密码:Han******

python爬虫笔记_第5张图片
python爬虫笔记_第6张图片

python爬虫笔记_第7张图片

python爬虫笔记_第8张图片
爬虫

你可能感兴趣的:(python,爬虫,笔记)