【1】Headers反爬虫
1.1) 检查: Cookie、Referer、User-Agent
1.2) 解决方案: 通过F12获取headers,传给requests.get()方法
【2】IP限制
2.1) 网站根据IP地址访问频率进行反爬,短时间内限制IP访问
2.2) 解决方案:
a) 构造自己IP代理池,每次访问随机选择代理,经常更新代理池
b) 购买开放代理或私密代理IP
c) 降低爬取的速度
【3】User-Agent限制
3.1) 类似于IP限制,检测频率
3.2) 解决方案: 构造自己的User-Agent池,每次访问随机选择
a> fake_useragent模块
b> 新建py文件,存放大量User-Agent
【4】对响应内容做处理
4.1) 页面结构和响应内容不同
4.2) 解决方案: 打印并查看响应内容,用xpath或正则做处理