Python爬虫--浏览器伪装

1、浏览器伪装主要是伪装头文件的用户代理,即"User-Agent":
如何得到"User-Agent":
打开百度,按F12,切换到"Network",刷新页面,右侧点击任意接口,切换到“Headers”下的“Request Headers”
Python爬虫--浏览器伪装_第1张图片

2、实例:
(需使用urllib.request下的build_opener()方法)

import urllib.request
url = "http://blog.csdn.net"
# 头文件格式header=("User-Agent",用户代理值)
header = ("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [header]
data = opener.open(url).read()
# data没有转码,所以直接以二进制打开文件wb;若data转码了,则直接打开文件w
fh = open("C:\\Users\\阿娇啊\\Desktop\\a\\ua.html", "wb")
fh.write(data)
fh.close()

你可能感兴趣的:(Python爬虫)