Python爬虫学习(一)Requests库入门

(一)Requests库入门

(1)HTTP协议

#HTTP 超文本传输协议
#HTTP是一种基于“请求与响应”模式的、无状态的应用层协议
#HTTP采用URL作为定位网络资源的标识,一个URL对应一个数据资源
-------------------------------
http://host[:post][path]
host:合法的Internet主机域名或IP地址
port:端口号,缺省为80
path:请求资源的路径
-------------------------------
方法 作用
GET 请求获取URL位置的资源
HEAD 请求获取URL位置资源的响应消息报告(头部信息)
POST 请求向URL位置的资源后附加新的数据
PUT 请求向URL位置存储一个资源,覆盖原URL位置的资源(更新全覆盖)
PATCH 请求局部更新URL位置的资源,即改变该处资源的部分内容(局部覆盖更新)
DELETE 请求删除URL位置存储的资源

(2)Requests库的7种主要方法

方法 作用
requests.request(method, url, **kwargs) 构造一个请求,支撑以下各方法的基础方法
requests.get() 获取HTML网页的主要方法,对应于HTTP的GET
requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch() 向HTTP网页提交局部修改请求,对应于HTTP的PATCH
requests.delete() 向HTML页面提交删除请求,对应于HTTP的DELETE
requests.get()
#获取HTML网页的主要方法,对应于HTTP的GET
r = requests.get(url, parms=None, **kwargs)
#url		:拟获取页面的url链接
#params		:url中的额外参数,字典或字节流格式(可选)
#**kwargs	:12个控制访问的参数,均为可选项
12个参数 参数含义
data 字典、字节序列或文件对象,作为Request的内容
json JSON格式的数据,作为Request的内容
headers 字典,HTTP定制头
cookies 字典或CookieJar,Request中的cookie
auth 元组,支持HTTP认证功能
files 字典类型,传输文件
timeout 设定超时时间,秒为单位
proxies 字典类型,设定访问代理服务器,可增加登陆认证
allow_redirects Ture/False,默认为True,重定向开关
stream True/false,默认为True,获取内容立即下载开关
verify True/False,默认为True,认证SSL证书开关
cert 本地SSL证书路径
#构造一个向服务器请求资源的Request对象:requests.get()
#返回一个包含服务器资源的Response对象:r
Response属性 属性含义
r.status_code HTTP请求的返回状态
r.text HTTP响应内容的字符串形式,即url对应的页面内容
r.encoding 从HTTP header中猜测的响应内容编码方式。如果header中不存在charset,则认为是ISO-8859-1
r.apparent_encoding 从内容中分析出的响应内容编码方式(备选)
r.content HTTP响应内容的二进制形式
Requests库异常类型 异常含义
requests.ConnectionError 网络连接错误,如DNS查询失败、拒绝连接等
requests.HTTPError HTTP错误异常
requests.URLRequired URL缺失异常
requests.TooManyRedirects 超过最大重定向次数,产生重定向异常
requests.ConnectTimeout 连接远程服务器超时异常
requests.Timeout 请求URL超时
r.raise_for_status()
#如果不是200,产生异常requests.HTTPError

(3)status_code

#HTTP: Status 200 – 服务器成功返回网页
#HTTP: Status 404 – 请求的网页不存在
#HTTP: Status 503 – 服务不可用
-------------------------------------------
HTTP Status 2xx  (成功)
表示成功处理了请求的状态代码;

详细代码说明:
HTTP Status 200 (成功)
-> 服务器已成功处理了请求。 通常,这表示服务器提供了请求的网页。
HTTP Status 201 (已创建)
-> 请求成功并且服务器创建了新的资源。
HTTP Status 202 (已接受)
-> 服务器已接受请求,但尚未处理。
HTTP Status 203 (非授权信息)
-> 服务器已成功处理了请求,但返回的信息可能来自另一来源。
HTTP Status 204 (无内容)
-> 服务器成功处理了请求,但没有返回任何内容。
HTTP Status 205 (重置内容)
-> 服务器成功处理了请求,但没有返回任何内容。
HTTP Status 206 (部分内容)
-> 服务器成功处理了部分 GET 请求。
-------------------------------------------
HTTP Status 4xx (请求错误)
这些状态代码表示请求可能出错,妨碍了服务器的处理;

详细代码说明:
HTTP Status 400 (错误请求) 
->服务器不理解请求的语法。
HTTP Status 401 (未授权) 
->请求要求身份验证。 对于需要登录的网页,服务器可能返回此响应。
HTTP Status 403 (禁止)
-> 服务器拒绝请求。
HTTP Status 404 (未找到) 
->服务器找不到请求的网页。
HTTP Status 405 (方法禁用) 
->禁用请求中指定的方法。
HTTP Status 406 (不接受) 
->无法使用请求的内容特性响应请求的网页。
HTTP Status 407 (需要代理授权) 
->此状态代码与 401(未授权)类似,但指定请求者应当授权使用代理。
HTTP Status 408 (请求超时) 
->服务器等候请求时发生超时。
HTTP Status 409 (冲突) 
->服务器在完成请求时发生冲突。 服务器必须在响应中包含有关冲突的信息。
HTTP Status 410 (已删除)
-> 如果请求的资源已永久删除,服务器就会返回此响应。
HTTP Status 411 (需要有效长度) 
->服务器不接受不含有效内容长度标头字段的请求。
HTTP Status 412 (未满足前提条件) 
->服务器未满足请求者在请求中设置的其中一个前提条件。
HTTP Status 413 (请求实体过大) 
->服务器无法处理请求,因为请求实体过大,超出服务器的处理能力。
HTTP Status 414 (请求的 URI 过长) 请求的 URI(通常为网址)过长,服务器无法处理。
HTTP Status 415 (不支持的媒体类型) 
->请求的格式不受请求页面的支持。
HTTP Status 416 (请求范围不符合要求) 
->如果页面无法提供请求的范围,则服务器会返回此状态代码。
HTTP Status 417 (未满足期望值) 
->服务器未满足”期望”请求标头字段的要求。
-------------------------------------------
HTTP Status 5xx (服务器错误)
这些状态代码表示服务器在尝试处理请求时发生内部错误。 这些错误可能是服务器本身的错误,而不是请求出错;

代码详细及说明:
HTTP Status 500 (服务器内部错误) 
->服务器遇到错误,无法完成请求。
HTTP Status 501 (尚未实施) 
->服务器不具备完成请求的功能。 例如,服务器无法识别请求方法时可能会返回此代码。
HTTP Status 502 (错误网关) 
->服务器作为网关或代理,从上游服务器收到无效响应。
HTTP Status 503 (服务不可用)
-> 服务器目前无法使用(由于超载或停机维护)。 通常,这只是暂时状态。
HTTP Status 504 (网关超时) 
->服务器作为网关或代理,但是没有及时从上游服务器收到请求。
HTTP Status 505 (HTTP 版本不受支持)
-> 服务器不支持请求中所用的 HTTP 协议版本。

#爬取网页的通用代码框架#

#爬取网页的通用代码框架
import requests

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()	#如果状态不是200,引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"
    
if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

你可能感兴趣的:(Python-爬虫)