做了一段时间自然语言处理的项目,体会到了爬虫的乐趣,甚至一度产生了学好爬虫真的可以为所欲为的美妙错觉。因此决定开个坑,记录自己的爬虫学习过程,也督促自己学习更高深的爬虫姿势。目前我只用到了最基础的爬虫知识,在此进行整理记录,以便在老年痴呆不定时记忆清零时可以快速回忆起来。
本文介绍在python下,如何利用爬虫实现最简单的网页获取,包括data参数、headers参数的设置,以及cookie的使用。因为本身是小白,所以写得也比较小白。需要更加深入学习的读者建议参考Jack-Cherish的系列博客python3网络爬虫入门。
网络爬虫,又称网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。爬虫是根据网页的URL来寻找网页并进行信息获取的。URL,统一资源定位符,俗称网址,例如B站首页的URL为 https://www.bilibili.com/(好像暴露了肥宅属性,咳咳)。
1. urllib.request——打开网页的基础模块
当我们知道一个网站的URL时,使用python下的urllib组件,即可实现简单的网页抓取。urllib组件的主要模块有:
urlib.request: 打开和读取url
urllib.error: 包含由request产生的错误
url.parse: 解析url
通过urllib.request.urlopen()这个函数接口就可以打开一个网站,它主要有url与data两个输入参数。url用于输入网址以及一些其他设置。data参数用于向服务器传输数据以实现与网页的交互,将在第二部分进行介绍。
urllib.request.urloprn(url, data=None)
向urlopen()传入一个url地址,即可打开对应的网页:
# 用 urlopen 直接打开一个url地址
from urllib import request
url = 'https://www.bilibili.com/'
response = request.urlopen(url)
html = responce.read().decode()
需要注意的是,urlopen函数的url输入参数不仅可以是一个字符串,也可以是一个用urllib.request.Request()函数构建的Request对象。
# url不仅可以是一个字符串,也可以是一个Request对象
req = request.Request(url)
responce = request.urlopen(req)
构建Request对象的方法支持更多的参数输入,常用的参数除了与urlopen()相同的url与data外,还包括headers参数,将在第三部分进行介绍。个人建议写爬虫程序时都通过构建Request对象进行参数传递,而不是直接将url传入urlopen()。
urllib.request.Request( url, data=None, headers={})
2. data参数——向网页发送数据
有时候我们需要向网页提交一些数据,例如账户密码、检索关键词等等。这时候就需要用到data参数了。使用data参数可以向服务器发送数据。如果没有设置data参数,http请求默认为GET方式,如果设置了data参数,则采用POST方式进行访问。
以有道翻译为例,如图,打开有道翻译http://fanyi.youdao.com/,在输入栏输入需要翻译的词汇“肥宅”。按下F12打开开发者工具,点击Network,选中XHR文件,在Form Data中,我们就可以看到输入的data信息。
将Form Data中的信息写入一个字典,并利用urlib.parse.urlencode()函数进行解析将其转换成标准形式,将解析的结果传入urlopen()的data参数,即可实现带data参数的网页访问。
from urllib import request,parse
# 将Form Data信息写入字典
form_data = {
'i': '肥宅',
'from': 'AUTO',
'to': 'AUTO',
'smartresult': 'dict',
'client': 'fanyideskweb',
'salt': '1535101853889',
'sign': '91ad6b1cd33adeecf92fbd3cc28f0749',
'doctype': 'json',
'version': '2.1',
'keyfrom': 'fanyi.web',
'action': 'FY_BY_REALTIME',
'typoResult': 'false'
}
# 解析form_data字典,得到标准形式
data = parse.urlencode(form_data).encode('utf-8')
url = 'http://fanyi.youdao.com/translate'
req = request.Request(url, data) # 用Request对象传递参数
responce = request.urlopen(req)
html = responce.read().decode()
得到的结果如下,可以看到,我们通过爬虫成功地调用了有道翻译,得到了翻译的结果。
{"type":"ZH_CN2EN","errorCode":0,"elapsedTime":0,"translateResult":[[{"src":"肥宅","tgt":"Fat curtilage"}]]}
其他一些类似需要向网页提交数据的访问,只要我们在开发者工具中找到了Form Data的内容,就可以用上面的方法实现访问。
需要说明的是,在某些情况下,虽然我们需要向网页提交数据以访问我们想要的信息,但却并不需要通过data参数进行数据传输,而是直接在url中添加信息。以有道词典为例,当在有道词典首页http://dict.youdao.com/的输入框中输入“肥宅”时,我们似乎并不能在开发者工具中找到“肥宅”字样。但仔细观察可以发现,输入“肥宅”并点击翻译按钮之后,浏览器的url栏变成了:
即输入词汇直接被添加到了url中。因此,当我们用爬虫程序调用有道词典时,不需要通过data数据传输我们想要查找的词汇,而是直接将词汇写入url即可。将上面的链接复制出来得到:
http://dict.youdao.com/w/eng/%E8%82%A5%E5%AE%85/#keyfrom=dict2.index
我们发现,“肥宅”被替换成了字符串“%E8%82%A5%E5%AE%85”。这是因为按照标准, URL只允许一部分 ASCII字符(数字字母和部分符号),其他的字符(如汉字)是不符合 URL 标准的。因此在代码中,我们需要调用urllib.parse.quote()函数,将汉字转换成ASCII码,再添加到URL中。
from urllib import request,parse
# 将汉字转换成ASCII码
item_ascii = parse.quote('肥宅')
url = 'http://dict.youdao.com/w/eng/' + item_ascii + '/#keyfrom=dict2.index'
# 爬取网页
responce = request.urlopen(url)
html = responce.read().decode()
3. 设置headers
一些网站不太愿意被爬虫程序访问,这是因为大量的爬虫访问会加重服务器的负担,同时也存在着侵犯网站数据的可能性。因此,大多数网站或多或少会存在一些反爬虫机制,当网站检测出爬虫时就会拒绝当前访问。一种最简单的检测方式就是查看请求的headers数据。当我们直接使用上面的爬虫程序访问网站时,headers中的User-Agent中会包含“python”字样。这种直接在脸上写着“对不起,我是卧底”的做法实在是太糟糕了,所以我们有必要对访问的headers进行设置,对我们的程序进行“伪装”。
以百度为例,如图所示,用浏览器打开百度首页,按下F12打开开发者工具,点击Network,选中XHR文件,我们就可以看到访问的Request Headers信息。
我们将除了cookie之外的其他信息写入一个字典:
headers = {
'Accept': 'text/plain, */*; q=0.01',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Connection': 'keep-alive',
'Host': 'www.baidu.com',
'Referer': 'https://www.baidu.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.170 Safari/537.36',
'X-Requested-With': 'XMLHttpRequest'
}
大部分时候,headers中真正有影响的只有User-Agent项,所以通常我们可以只写入User-Agent项(懒癌患者表示这可实在是太开心了)。接下来,我们将写好的字典传入Request对象中的headers参数,即可实现一次“伪装”访问:
from urllib import request
url = 'https://www.baidu.com/'
# 设置headers,此处主要是User-Agent
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.170 Safari/537.36'}
req = request.Request(url, headers = headers)
html = request.urlopen(req).read().decode()
4. 设置cookies
某些网站需要用户登录才能进行访问。利用前面提到的data参数,我们可以将用户名与密码发送给服务器进行登录。在一次爬虫过程中,程序可能会多次访问该网站。如果每一次访问都需要登录的话,那可实在是太难受了,不仅会严重影响爬虫的效率,更难受的是,很多访问根本就进行不了。
服务器:哔!请验证访问权限!
我:咳咳...我练功发自真心。
服务器:哔!验证成功。本次访问结束,欢迎下次访问。
服务器:哔!请验证访问权限!
我:王德发?!!!
Cookie机制的存在,就是为了让服务器记住每一个用户。Cookie,指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。有了cookie,我们只需要在每次访问时,附带上cookie信息,就能让服务器知道,哦,原来是你小子。
在python中实现cookie功能比较简单。首先,我们使用http组件中的cookiejar模块,申明一个CookieJar对象,用以保存捕捉到的cookie信息。接下来,我们需要自定义一个URL的打开方式。前面我们都是用urllib自带的urlopen()打开网页,此处则需要我们定义自己的opener,用以支持cookie。完整代码如下,代码会在第一次访问网站时,将cookie信息保存在CookieJar对象中,并在后续的访问中使用该cookie。
# 创建自定义opener
from http import cookiejar
cookie = cookiejar.CookieJar() # 声明一个CookieJar对象用于保存cookie
handler = request.HTTPCookieProcessor(cookie) # 利用HTTPCookieProcessor对象创建cookie处理器
opener = request.build_opener(handler) # 通过CookieHandler创建opener
# 用自定义opener打开网页
url = 'https://www.baidu.com/'
responce = opener.open(url)
5. 完整代码
整个代码框架如下:
from urllib import request,parse
from http import cookiejar
# 构建Request对象
url = '...' # 需要访问的url
form_data = {} # 设置data参数
data = parse.urlencode(form_data).encode('utf-8')
headers = {} # 设置headers参数
req = request.Request(url, data = data, headers = headers) # 构建Reuqest对象并传入上述参数
# 设置cookie
cookie = cookiejar.CookieJar() # 声明一个CookieJar对象用于保存cookie
handler = request.HTTPCookieProcessor(cookie) # 利用HTTPCookieProcessor对象创建cookie处理器
opener = request.build_opener(handler) # 通过CookieHandler创建opener
# 访问网页
responce = opener.open(req)
html = responce.read().decode()
依然以访问有道翻译为例,完整代码如下。需要说明的是,代码中的每个部分不一定是必要的,根据实际情况可以省略相应的部分。例如在下面访问有道翻译的代码中,cookie部分就可以去掉,因为并不需要登录。当不涉及向服务器发送信息时,data部分也可以省略。
from urllib import request,parse
from http import cookiejar
# 需要访问的url
url = 'http://fanyi.youdao.com/translate'
# 设置data参数
form_data = {
'i': '肥宅',
'from': 'AUTO',
'to': 'AUTO',
'smartresult': 'dict',
'client': 'fanyideskweb',
'salt': '1535101853889',
'sign': '91ad6b1cd33adeecf92fbd3cc28f0749',
'doctype': 'json',
'version': '2.1',
'keyfrom': 'fanyi.web',
'action': 'FY_BY_REALTIME',
'typoResult': 'false'
}
data = parse.urlencode(form_data).encode('utf-8')
# 设置headers参数
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.170 Safari/537.36'}
# 构建Reuqest对象并传入上述参数
req = request.Request(url, data = data, headers = headers)
# 设置cookie
cookie = cookiejar.CookieJar() # 声明一个CookieJar对象用于保存cookie
handler = request.HTTPCookieProcessor(cookie) # 利用HTTPCookieProcessor对象创建cookie处理器
opener = request.build_opener(handler) # 通过CookieHandler创建opener
# 访问网页
responce = opener.open(req)
html = responce.read().decode()
print(html)
6. 总结
本文整理了笔者认为为了打开一个网页所需要知道的最最最最基础的一些知识。代码虽然简单,但已经足够打开大部分的网页。当然,本文只介绍了打开网页的方法,不涉及到如何从网页中提取内容(正则表达式、Beautiful Soup等),以及在实际项目中可能会遇到的其他问题。后续(maybe大概可能应该)会继续填坑吧,咳咳。
第一次写博客,新人不懂规矩,小白不懂技术,如有问题请指正。o( ̄▽ ̄)d