Python爬虫会用到的相关方法和参数

Python爬虫

使用requests仓库

在 request类库运行时,客户端给服务器发送一个请求Request对象
服务器回复了一个 Response对象

客户端 给服务器发送 Requests对象

服务器 给客户端反馈 Response对象

Request类库的主要方法

  • request.get() //获取HTML网页的方法

  • requests.head() // 获取网页头信息的方法

  • requests.post() // 向HTML网页提交POST头方法

  • reqyests.put() // 向 HTML网页提交PUT请求方法

  • requests.patch() //向网页提交局部修改请求

  • requests.delete() // 向网页提交删除请求

  • requests.request //构造一个请求,支撑上述个方法的基础方法

import requests

ret= requests.get('http://www.cqepc.cn')
print('HTTP状态码:',ret.status_code)
print('主页内容:,ret.text)

ret变量得到返回一个包含服务器资源的Request对象。

params: url中的额外参数,自带你或字节流格式可选

**kwargs: 12个控制访问的参数

常见访问属性

status _code
200 表示成功
400 表示失败

text http响应内容的字符串形式,url对应的页面内容

encoding 从HTTP header 中猜测的响应内容编码形式

apparent_encoding 从内容分析出的响应内容的编码方式

content http相应内容的二进制形式

headers 响应的头部

常见异常

   Requests.ConnectionError 遇到网络问题(DNS查询失败,拒绝链接) 
Requests.HTTPError  HTTP错误 
Requests.URLRequired  URL异常
Requests.timeout   请求超时
Requests TooManyRedurects  超过最大重定向次数,产生重定向异常
Requests.ConnectTimeout 链接服务器异常

http相关方法

 get 请求指定的页面信息,并返回实体
 head 类似get请求,只不过返回的响应中没有具体的内容,用于获取报文
 Post 向指定资源提交数据 ,进行处理  数据被包含在请求体中
 POst请求可能会导致新的资源新的建立
 options 允许客户端查看服务器的性能
 Trace  回显服务器收到的请求,主要用于测试和诊断

**kwargs

params 字典或字节序列,组为参数增加到url中
 
data    url的内容

JSON 格式的数据 作为Request的 内容

headers  字典 HTTP定制头

cookies  字典 Cookiejar,Request中cookie

auth   元组 支持http认证功能

 files   字典类型  传输文件

timeout  设置超出时间  单位秒

控制访问参数

proxies   字典类型 设定访问代理服务器 可以增加堵路认证

allow_redirects  True/False 默认为True,重定向功能

Stream    True / False 默认为True,获取内容立即下载开关

verify    True False  默认为True,认证ssl证书开关

cert     本地SSl证书路径

你可能感兴趣的:(python作业,python,爬虫,开发语言)