爬虫的浏览器伪装技术(019)

一:浏览器伪装技术原理:

我们尝试着爬取csdn的博客,可以发现返回403的状态码,因为对方服务器会对爬虫进行屏蔽。此时我们需要伪装成浏览器进行爬取。我们一般都过报头进行浏览器的伪装。

二:实战

浏览器的网页的 报头中用 User-Agent 字段对应的值来判断是否是浏览器。

所以如果要模拟成浏览器就要在请求的时候对报文进行修改,将User-Agent的值改成对应的浏览器应该有的值。

(1)下面我打开我的博客,网址为https://blog.csdn.net/weixin_41167340,然后点击F12,点击F5进行刷新,就会出现如下图。随便点击一个网页,找到“Network”,随便点击一个“wh.js”,然后在“header”中寻找User-Agent这个字段。发现这个字段对应着一个值.把这个值复制下来。

爬虫的浏览器伪装技术(019)_第1张图片

代码如下:

爬虫的浏览器伪装技术(019)_第2张图片

此时打开本地的网页:出现了爬取的网页。

爬虫的浏览器伪装技术(019)_第3张图片

三,综上代码:

import urllib.request
url="https://blog.csdn.net/weixin_41167340"
headers=("User-Agent","Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Mobile Safari/537.36")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
data=opener.open(url).read()
fh=open("G:/BaiduDownload/python网络爬虫/WODE/019.html","wb")
fh.write(data)
fh.close()

你可能感兴趣的:(python学习)