Python爬虫
在 request类库运行时,客户端给服务器发送一个请求Request对象
服务器回复了一个 Response对象
客户端 给服务器发送 Requests对象
服务器 给客户端反馈 Response对象
Request类库的主要方法
request.get() //获取HTML网页的方法
requests.head() // 获取网页头信息的方法
requests.post() // 向HTML网页提交POST头方法
reqyests.put() // 向 HTML网页提交PUT请求方法
requests.patch() //向网页提交局部修改请求
requests.delete() // 向网页提交删除请求
requests.request //构造一个请求,支撑上述个方法的基础方法
import requests
ret= requests.get('http://www.cqepc.cn')
print('HTTP状态码:',ret.status_code)
print('主页内容:,ret.text)
ret变量得到返回一个包含服务器资源的Request对象。
params: url中的额外参数,自带你或字节流格式可选
**kwargs: 12个控制访问的参数
常见访问属性
status _code
200 表示成功
400 表示失败
text http响应内容的字符串形式,url对应的页面内容
encoding 从HTTP header 中猜测的响应内容编码形式
apparent_encoding 从内容分析出的响应内容的编码方式
content http相应内容的二进制形式
headers 响应的头部
Requests.ConnectionError 遇到网络问题(DNS查询失败,拒绝链接)
Requests.HTTPError HTTP错误
Requests.URLRequired URL异常
Requests.timeout 请求超时
Requests TooManyRedurects 超过最大重定向次数,产生重定向异常
Requests.ConnectTimeout 链接服务器异常
get 请求指定的页面信息,并返回实体
head 类似get请求,只不过返回的响应中没有具体的内容,用于获取报文
Post 向指定资源提交数据 ,进行处理 数据被包含在请求体中
POst请求可能会导致新的资源新的建立
options 允许客户端查看服务器的性能
Trace 回显服务器收到的请求,主要用于测试和诊断
**kwargs
params 字典或字节序列,组为参数增加到url中
data url的内容
JSON 格式的数据 作为Request的 内容
headers 字典 HTTP定制头
cookies 字典 Cookiejar,Request中cookie
auth 元组 支持http认证功能
files 字典类型 传输文件
timeout 设置超出时间 单位秒
控制访问参数
proxies 字典类型 设定访问代理服务器 可以增加堵路认证
allow_redirects True/False 默认为True,重定向功能
Stream True / False 默认为True,获取内容立即下载开关
verify True False 默认为True,认证ssl证书开关
cert 本地SSl证书路径