urllib是python中的一个http请求库,借助urllib,我们可以向浏览器发出请求,只需向urllib库中的方法传入url和一些参数即可。
urllib库中包含以下模块:
urllib.request
http请求模块,用于模拟向浏览器发出请求的过程;
urllib.error
异常处理模块,当利用urllib.request模拟向浏览器发出请求时,如果出现请求错误,可以利用此模块捕获异常信息,然后进行重试或其他操作,以保证程序不会意外终止;
urllib.parse
包含了针对url的许多处理方法,如url拆分、url解析、url合并等;
urllib.robotparser
robots.txt解析模块,主要用于识别网站的robots.txt文件,判断哪些网站可以爬,那些网站不可爬。此模块不太经常被使用。
每个模块中常用的方法及详细解释可参考博文,下面主要用python来展示一些常用的urllib库用法。
首先需要导入urllib模块,如下
import urllib.request
import urllib.parse # 解析器,将键值对按utf-8或其他形式解析
response = urllib.request.urlopen("http://www.baidu.com")
print(response.read().decode("utf-8"))
# 第二行的输出是对获取到的对象response的信息-网页源码进行utf-8的解码
此时返回的即是百度官网首页的html信息,如下图所示:
(2)获取pose请求
data = bytes(urllib.parse.urlencode({"hello": "world"}), encoding='utf-8') # 一般模拟用户登录时使用此种方式,在{}内加上cookie内容
response = urllib.request.urlopen("https://baidu.com", data=data)
print(response.read().decode("utf-8"))
采用post访问时需要传递表单信息,通过表单的封装才能访问post,代码中bytes将信息转换为二进制包。代码返回信息同上图:
当需要模拟浏览器发出请求时,必须用post形式来封装数据(用data封装),否则有405报错。
response = urllib.request.urlopen("https://baidu.com", timeout=0.1)
print(response.read().decode("utf-8"))
此时我们可以利用异常处理结束循环或者停止爬取该网页,向其他网页发送get请求。代码如下:
try:
response = urllib.request.urlopen("http://www.baidu.com",timeout=0.1)
print(response.read().decode("utf-8"))
except urllib.error.URLError as e:
print("time out!")
response = urllib.request.urlopen("http://www.baidu.com")
print(response.status) # 返回状态码-200、404、418等
print(response.getheaders()) # 返回头部所有信息
常见的状态码如418报错是因为访问的服务器发现该请求是一个爬虫,也即爬虫时常见的反爬机制,此时可改用requests库、添加header信息等方法解决。
# 访问反爬的网址
url = "http://www.douban.com"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36"
}
req = urllib.request.Request(url=url, headers=headers, method="POST") # req是请求对象而非响应对象
response = urllib.request.urlopen(req)
html = response.read().decode("utf-8")
print(html)
代码中的headers来自浏览器页面,在chrome中进入想访问的浏览页面,点击F12或右键检查-Network中,即可查到User-Agent信息,粘贴到代码中(需注意大小写及空格,代码中的格式要和浏览器信息一致)。
user-agent的作用是告诉所访问的服务器,我们是何种类型的机器(浏览器),若只用User-Agent会返回百度验证界面,可加入Cookie返回所要爬取的结果页面
以上是python爬虫时的部分小功能,除此之外爬虫得方式还有很多种。但是无论采用哪种方式一定要牢记:爬虫千万条,安全第一条。