Daycym

【网络爬虫】Python3—urllib库的使用

前言

$\quad\quad$ 爬虫基础知识这里介绍了和爬虫相关的一些基础知识，其中提到爬虫最初的操作便是模拟浏览器想服务器发出请求，那么我们应该如何操作呢？

$\quad\quad$ 其实，Python已经为我们提供了功能齐全的类库来帮助我们完成这些请求，比如HTTP库有urllib、requests等。

本篇我们就来介绍urllib库的使用

环境

anaconda3
python3.6
jupyter notebook

使用urllib

注：

在Python2中，有urllib和urllib2两个库来实现请求的发送，而在Python3中，以及不存在urllib2这个库了，统一为urllib。

它是Python内置的HTTP请求库，也就是说不需要额外安装

urllib库中的4个模块：

request:它是最基本的HTTP请求模块，可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样，只需要给库方法传入URL以及额外的参数，就可以模拟实现这个过程。
error:异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或者其他操作以保证程序不会以外终止。
parse:一个工具模块，提供了许多URL处理方法，比如拆分、解析、合并等
robotparser:主要用来识别网站的robots.txt文件，然后判断哪些网站可以爬，哪些网站不可以爬，这个用的比较少。

发送请求

1. urlopen()

import urllib.request # 导入urllib.request模块，提供了最基本的构造HTTP请求的方法

response = urllib.request.urlopen('https://www.python.org') # 以python官网为例，把这个页面爬取下来
print(response.read().decode('utf-8'))  # read()方法得到返回的网页内容

运行结果：

这里，我们只用了两行代码，就把python官网的网页抓取下来了，输出的是网页的源代码。得到代码后，我们想要的链接、图片地址、文本信息就都可以提取出来。

print(type(response)) # 输出响应类型

print(response.status) # 返回结果的状态码

print(response.getheaders())   # 响应的头信息

print(response.getheader('Server')) # 响应头中的Server值，nginx意思是服务器用nginx搭建的

HTTPResponse类型对象，主要包含：read()、readinto()、getheader(name)、getheaders()、fileno()等方法，以及msg、version、status、debuglevel、closed等属性

$\quad\quad$ 如果想给链接传递一些参数，该怎么实现？我们先来看看urlopen()函数的API：

urllib.request.urlopen(url, data=None, timeout=