一、京东商品页面的爬取
先选取一个商品页面例如:https://item.jd.com/12186192.html
直接利用之前的代码框架即可
import requests
url = "https://item.jd.com/12186192.html"
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[:1000])
except:
print("爬取失败")
二、亚马逊商品页面的爬取
选取一个亚马逊商品页面,例如:
https://www.amazon.cn/Python%E7%88%AC%E8%99%AB%E5%BC%80%E5%8F%91%E4%B8%8E%E9%A1%B9%E7%9B%AE%E5%AE%9E%E6%88%98-%E8%8C%83%E4%BC%A0%E8%BE%89/dp/B071WMZ43K/ref=pd_sim_14_8?ie=UTF8&psc=1&refRID=FS952H52P44DZCC679D5
>>> import requests
>>>requests.get("https://www.amazon.cn/Python%E7%88%AC%E8%99%AB%E5%BC%80%E5%8F%91%E4%B8%8E%E9%A1%B9%E7%9B%AE%E5%AE%9E%E6%88%98-%E8%8C%83%E4%BC%A0%E8%BE%89/dp/B071WMZ43K/ref=pd_sim_14_8?ie=UTF8&psc=1&refRID=FS952H52P44DZCC679D5")
>>> r.status_code
503
状态码是503,说明访问失败
>>> r.encoding
'ISO-8859-1'
>>> r.encoding = r.apparent_encoding
>>> r.text
'\n意外错误
推荐您返回上一页,确认您的操作无误后,再继续其他操作。
您可以通过亚马逊帮助中心,获得更多的帮助。
我们可以看到“意外错误”这样的内容
很多网站对网络爬虫有限制
通过判断对网站访问的HTTP的头来查看你的访问时不时有一个爬展引起的,网站一般接受的是由浏览器引发的或产生的HTTP请求,而对于爬虫的请求,网站是可以拒绝的.
requests库的Response对象包含requests请求,可以通过r.requests.headers来查看我们发给亚马逊的requests信息的头部到底是什么内容
>>> r.request.headers
{'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
'User-Agent': 'python-requests/2.18.4'
这说明我们的爬虫忠实地告诉了亚马逊的服务器,这次的访问是由一个python程序的requests库产生的.如果亚马逊提供了这样的来源审查,它就可以使这样的访问变得错误,或者说它不支持这样的访问.
我们可以更改头部信息.
我们来试试让我们的程序模拟一个浏览器向亚马逊发送一个请求.
>>> kv = {'user-agent':'Mozilla/5.0'}
>>> url =
"https://www.amazon.cn/Python%E7%88%AC%E8%99%AB%E5%BC%80%E5%8F%91%E4%B8%8E%E9%A1%B9%E7%9B%AE%E5%AE%9E%E6%88%98-%E8%8C%83%E4%BC%A0%E8%BE%89/dp/B071WMZ43K/ref=pd_sim_14_8?ie=UTF8&psc=1&refRID=FS952H52P44DZCC679D5"
>>> r = requests.get(url, headers = kv)
>>> r.status_code
200
>>> r.request.headers
{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
>>> r.text[:1000]
'\n\n\n\n\n\n \n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n \n\n