python 爬虫 常见的反爬策略及应对方案?

1】Headers反爬虫
   1.1) 检查: Cookie、Referer、User-Agent
   1.2) 解决方案: 通过F12获取headers,传给requests.get()方法
        
【2】IP限制
   2.1) 网站根据IP地址访问频率进行反爬,短时间内限制IP访问
   2.2) 解决方案: 
        a) 构造自己IP代理池,每次访问随机选择代理,经常更新代理池
        b) 购买开放代理或私密代理IP
        c) 降低爬取的速度
        
【3】User-Agent限制
   3.1) 类似于IP限制,检测频率
   3.2) 解决方案: 构造自己的User-Agent池,每次访问随机选择
        a> fake_useragent模块
        b> 新建py文件,存放大量User-Agent
        
【4】对响应内容做处理
   4.1) 页面结构和响应内容不同
   4.2) 解决方案: 打印并查看响应内容,用xpath或正则做处理

你可能感兴趣的:(爬虫,python)