有的时候,我们无法爬取一些网页,会出现403错误,因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。
那么可以设置Header信息,模拟浏览器去访问这些网站,此时,就能解决这个问题。添加User-Agent的两种方法
方法一:使用build_opean()修改包头
import urllib.request
url="https://blog.csdn.net/u013109501/article/details/81981888"
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/61.0")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
data=opener.open(url).read()
方法二:使用add_header()添加报头
import urllib.request
url="https://blog.csdn.net/u013109501/article/details/81981888"
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/61.0')
data=urllib.request.urlopean(req).read()