scrapy中设置随机User-Agent和随机ip代理

       首先介绍的是一个工具fake-useragent,可自动生成随机请求头,它被在线维护在github上。

可通过pip install fake-useragent进行安装。

以下是github上常用做法的展示,我们用得最多的是最后一项,直接使用实例化后的.random即可生成一个随机请求头,十分方便。


图1.常用方法

具体scrapy中随机User-Agent设置是在Download Middleware中完成,在Middlewares中添加一个类,比如命名为RandomUserAgentMiddleware。

如下图所示,在process_request中添加代码就可以,print语句只是为了检查验证是否更换了请求头,可以删除。

在更换请求头的下面,同样简单的完成了ip代理的随机更换,我是将获取的ip每个一行以http://112.85.166.116:999的形式存放在text文档中的。使用request.meta['proxy'] = proxy的方式传递使用代理ip。


你可能感兴趣的:(scrapy中设置随机User-Agent和随机ip代理)