今天,来学习越过亚马逊的反爬虫机制,爬取想要的商品、评论等等有用信息。
但是,我们想用爬虫来爬取相关的数据信息时
像亚马逊、TBao、JD这些大型的购物商城
他们为了保护自己的数据信息,都是有一套完善的反爬虫机制的
我们用不同的几个python爬虫模块,来一步步试探
最终,成功越过反爬机制。
代码如下:
# -*- coding:utf-8 -*-
import urllib.request
req = urllib.request.urlopen('https://www.amazon.com')
print(req.code)
返回结果:状态码:503。
分析:亚马逊将你的请求,识别为了爬虫,拒绝提供服务。
本着科学严谨的态度,我们拿万人上的百度试一下。
返回结果:状态码 200
分析