Python网络爬虫与信息提取-Day5-Requests库网络爬取实战

一、京东商品页面的爬取

先选取一个商品页面

例如:https://item.jd.com/12186192.html

直接利用之前的代码框架即可

import requests
url = "https://item.jd.com/12186192.html"
try:
	r = requests.get(url)
	r.raise_for_status()
	r.encoding = r.apparent_encoding
	print(r.text[:1000])
except:
	print("爬取失败")

二、亚马逊商品页面的爬取

选取一个亚马逊商品页面,例如:

https://www.amazon.cn/Python%E7%88%AC%E8%99%AB%E5%BC%80%E5%8F%91%E4%B8%8E%E9%A1%B9%E7%9B%AE%E5%AE%9E%E6%88%98-%E8%8C%83%E4%BC%A0%E8%BE%89/dp/B071WMZ43K/ref=pd_sim_14_8?ie=UTF8&psc=1&refRID=FS952H52P44DZCC679D5


>>> import requests

>>>requests.get("https://www.amazon.cn/Python%E7%88%AC%E8%99%AB%E5%BC%80%E5%8F%91%E4%B8%8E%E9%A1%B9%E7%9B%AE%E5%AE%9E%E6%88%98-%E8%8C%83%E4%BC%A0%E8%BE%89/dp/B071WMZ43K/ref=pd_sim_14_8?ie=UTF8&psc=1&refRID=FS952H52P44DZCC679D5")

>>> r.status_code

503

 

状态码是503,说明访问失败

 

>>> r.encoding

'ISO-8859-1'

>>> r.encoding = r.apparent_encoding

>>> r.text

'\n<span style="font-family:'宋体';">亚马逊</span><span style="font-family:Calibri;">

意外错误


报歉,由于程序执行时,遇到意外错误,您刚刚操作没有执行成功,请稍后重试。或将此错误报告给我们的客服中心:[email protected]

推荐您返回上一页,确认您的操作无误后,再继续其他操作。
您可以通过亚马逊帮助中心,获得更多的帮助。
\ufeff'

 

我们可以看到意外错误”这样的内容

 

很多网站对网络爬虫有限制

通过判断对网站访问的HTTP的头来查看你的访问时不时有一个爬展引起的,网站一般接受的是由浏览器引发的或产生的HTTP请求,而对于爬虫的请求,网站是可以拒绝的.

 

requests库的Response对象包含requests请求,可以通过r.requests.headers来查看我们发给亚马逊的requests信息的头部到底是什么内容

>>> r.request.headers

{'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

 

'User-Agent': 'python-requests/2.18.4'

这说明我们的爬虫忠实地告诉了亚马逊的服务器,这次的访问是由一个python程序的requests库产生的.如果亚马逊提供了这样的来源审查,它就可以使这样的访问变得错误,或者说它不支持这样的访问.

 

我们可以更改头部信息.

我们来试试让我们的程序模拟一个浏览器向亚马逊发送一个请求.

>>> kv = {'user-agent':'Mozilla/5.0'}

>>> url =

"https://www.amazon.cn/Python%E7%88%AC%E8%99%AB%E5%BC%80%E5%8F%91%E4%B8%8E%E9%A1%B9%E7%9B%AE%E5%AE%9E%E6%88%98-%E8%8C%83%E4%BC%A0%E8%BE%89/dp/B071WMZ43K/ref=pd_sim_14_8?ie=UTF8&psc=1&refRID=FS952H52P44DZCC679D5"

>>> r = requests.get(url, headers = kv)

>>> r.status_code

200

>>> r.request.headers

{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

>>> r.text[:1000]

'\n\n\n\n\n\n  \n  \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n    \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n    \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n    \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n    \n    \n\n

你可能感兴趣的:(python,网络爬虫)