本文是我在使用网易云课堂学习日月光华老师讲的“Python爬虫零基础入门到进阶实战”课程所做的笔记,如果大家觉得不错,可以去看一下老师的视频课,讲的还是很棒的。
什么是网络爬虫
网络爬虫是一种程序,它的主要目的是将互联网上的网页下载到本地并提取出相关数据。网络爬虫可以自动化的浏览网络中的信息,然后根据我们制定的规则进行下载和提取信息。
爬虫架构
Python中爬虫相关技术
python中实现HTTP请求
网页下载器是爬虫的核心部分之一,即进行HTTP请求。Python中实现HTTP请求最常用的是Urllib库和Requests库。
urllib库 python中内置的HTTP请求库,可以直接进行调用。
Requests库 基于Urllib库,但是比Urllib库更加方便。API更加简洁。
python中实现网页解析
网页解析器,即用来解析HTML网页的工具,可以从HTML中提取我们需要的、有价值的数据和链接。
python中的爬虫框架
爬虫半成品,直接调用API,写少量代码即可。
Scrapy框架
Pyspider
Cola框架
HTTP请求
简单的理解,HTTP请求是从客户端到服务器端的请求消息。
客户端通过发送 HTTP 请求向服务器请求对资源的访问。 它向服务器传递了一个数据块,也就是请求信息。
HTTP请求信息
HTTP 请求由三部分组成:请求行、请求头和请求正文。
最常见的两种请求方法
1.GET方法
请求指定的页面信息,并返回实体主体。
GET 方法用于获取由 Request-URI 所标识的资源的信息,常见的形式是:
GET Request-URI HTTP/1.1
GET方法是默认的HTTP请求方法,例如当我们通过在浏览器的地址栏中直接输入网址的方式去访问网页的时候,浏览器采用的就是 GET 方法向服务器获取资源。
我们可以使用GET方法来提交表单数据,用GET方法提交的表单数据只经过了简单的编码,同时它将作为URL的一部分向服务器发送,因此,如果使用GET方法来提交表单数据就存在着安全隐患上。
2.POST方法
向指定资源提交数据进行处理请求,数据被包含在请求体中。
POST方法是GET方法的一个替代方法,它主要是向Web服务器提交表单数据,尤其是大批量的数据。
POST方法克服了GET方法的一些缺点。通过POST方法提交表单数据时,数据不是作为URL请求的一部分而是作为标准数据传送给Web服务器,这就克服了GET方法中的信息无法保密和数据量太小的缺点。因此,出于安全的考虑以及对用户隐私的尊重,通常表单提交时采用POST方法。
请求头部
请求头部包含许多有关客户端环境和请求正文的有用信息。
反爬虫措施可以通过读取请求头部的用户代理(User Agent)来判断这个请求时来自正常的浏览器还是爬虫。
通过谷歌浏览器(Chrome)检查网页请求
用chrome打开某个网址,右键点击检查可以查看网页源代码等,点击Network,可以看到客户端与服务端之间的请求(没有的话说明是打开后
,刷新一下。)。
点击某个请求,会显示具体信息。
request基础
Requests库的安装
pip install requests
Requests使用
1.Requests请求方法
import requests
response = requests.get('http://www.douban.com')
2.Requests库的响应方法
print(response.text)
请求豆瓣网,返回后,用response接收,以文本形式输出。
3.响应状态码
print(response.status_code)
print(response.status_code == requests.codes.ok)
用status_code可以查看返回状态码。
可以利用requests.codes.ok与返回状态码进行比对,判断是否请求成功。
常用响应状态码
分类
分类描述
1**
信息,服务器收到请求,需要请求者继续执行操作
2**
成功,操作被成功接收并处理
3**
重定向,需要进一步的操作以完成请求
4**
客户端错误,请求包含语法错误或无法完成请求
5**
服务器错误,服务器在处理请求的过程中发生了错误
100 Continue 继续。客户端应继续其请求
101 Switching Protocols 切换协议。服务器根据客户端的请求切换协议。只能切换到更高级的协议,例如,切换到HTTP的新版本协议
200 OK 请求成功。一般用于GET与POST请求
201 Created 已创建。成功请求并创建了新的资源
202 Accepted 已接受。已经接受请求,但未处理完成
203 Non-Authoritative Information 非授权信息。请求成功。但返回的meta信息不在原始的服务器,而是一个副本
204 No Content 无内容。服务器成功处理,但未返回内容。在未更新网页的情况下,可确保浏览器继续显示当前文档
205 Reset Content 重置内容。服务器处理成功,用户终端(例如:浏览器)应重置文档视图。可通过此返回码清除浏览器的表单域
206 Partial Content 部分内容。服务器成功处理了部分GET请求
300 Multiple Choices 多种选择。请求的资源可包括多个位置,相应可返回一个资源特征与地址的列表用于用户终端(例如:浏览器)选择
301 Moved Permanently 永久移动。请求的资源已被永久的移动到新URI,返回信息会包括新的URI,浏览器会自动定向到新URI。今后任何新的请求都应使用新的URI代替
302 Found 临时移动。与301类似。但资源只是临时被移动。客户端应继续使用原有URI
303 See Other 查看其它地址。与301类似。使用GET和POST请求查看
304 Not Modified 未修改。所请求的资源未修改,服务器返回此状态码时,不会返回任何资源。客户端通常会缓存访问过的资源,通过提供一个头信息指出客户端希望只返回在指定日期之后修改的资源
305 Use Proxy 使用代理。所请求的资源必须通过代理访问
306 Unused 已经被废弃的HTTP状态码
307 Temporary Redirect 临时重定向。与302类似。使用GET请求重定向
400 Bad Request 客户端请求的语法错误,服务器无法理解
401 Unauthorized 请求要求用户的身份认证
402 Payment Required 保留,将来使用
403 Forbidden 服务器理解请求客户端的请求,但是拒绝执行此请求
404 Not Found 服务器无法根据客户端的请求找到资源(网页)。通过此代码,网站设计人员可设置"您所请求的资源无法找到"的个性页面
405 Method Not Allowed 客户端请求中的方法被禁止
406 Not Acceptable 服务器无法根据客户端请求的内容特性完成请求
407 Proxy Authentication Required 请求要求代理的身份认证,与401类似,但请求者应当使用代理进行授权
408 Request Time-out 服务器等待客户端发送的请求时间过长,超时
409 Conflict 服务器完成客户端的PUT请求是可能返回此代码,服务器处理请求时发生了冲突
410 Gone 客户端请求的资源已经不存在。410不同于404,如果资源以前有现在被永久删除了可使用410代码,网站设计人员可通过301代码指定资源的新位置
411 Length Required 服务器无法处理客户端发送的不带Content-Length的请求信息
412 Precondition Failed 客户端请求信息的先决条件错误
413 Request Entity Too Large 由于请求的实体过大,服务器无法处理,因此拒绝请求。为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则会包含一个Retry-After的响应信息
414 Request-URI Too Large 请求的URI过长(URI通常为网址),服务器无法处理
415 Unsupported Media Type 服务器无法处理请求附带的媒体格式
416 Requested range not satisfiable 客户端请求的范围无效
417 Expectation Failed 服务器无法满足Expect的请求头信息
500 Internal Server Error 服务器内部错误,无法完成请求
501 Not Implemented 服务器不支持请求的功能,无法完成请求
502 Bad Gateway 充当网关或代理的服务器,从远端服务器接收到了一个无效的请求
503 Service Unavailable 由于超载或系统维护,服务器暂时的无法处理客户端的请求。延时的长度可包含在服务器的Retry-After头信息中
504 Gateway Time-out 充当网关或代理的服务器,未及时从远端服务器获取请求
505 HTTP Version not supported 服务器不支持请求的HTTP协议的版本,无法完成处理
Response响应对象
print(response.encoding)
可以用encoding方法查询编码方式。
response.encoding = 'utf-8'
可以对encoding的值进行设置对编码方式进行更改。
print(response.content)
可以使用content查看二进制源代码(可以查看其原本编码方式,进而进行设置)。
将网页内容保存到本地txt文件中
import requests
response = requests.get('http://www.baidu.com')
response.encoding = 'utf-8'
with open('bd.txt' , 'wt') as f:
f.write(response.text)
下载网页中的图片和定制请求头部
下载网页中的图片
import requests
image_url = 'https://www.baidu.com/img/bd_logo1.png?where=super'
response = requests.get(image_url)
with open('baidu.png','wb') as f:
f.write(response.content)
首先获得图片地址,然后get图片,最后用二进制保存图片。使用request下载百度的logo。
定制请求头部
反爬虫一般识别请求头部中的内容来判断是正常浏览器访问还是爬虫发送的请求。
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36',
'Host':'www.baidu.com'
}
response = requests.get('http://www.baidu.com', headers=headers)
设置头部字典,随url一起发送请求。
重定向、超时
requests可以自动帮我们获取网页重定向(html跳转)后的网址
import requests
r = requests.get('http://www.douban.com')
print(r.url) # r.url可以查看实际爬取的url
print(r.history)
执行效果
可以看出发生了一次301重定向。
添加timeout设置等待时间
r = requests.get('https://www.douban.com', timeout=0.00001)
超出timeout指定时间即报错,不会一直等待。
使用url传递参数
在豆瓣首页搜索书籍。
可以看到其url发生变化。
设置url参数
通过设置params参数爬取不同数据
r = requests.get('https://www.douban.com/search', params={'q': 'python','cat': '1001'})