Requests库入门

小白,请多多关照

    • 创建一个自定义列表



import requests	#导入库
r = requests.get("http://www.baidu.com")		#Response对象包含爬虫返回的内容
r.status_code	#状态码
r.encoding = 'utf-8'		#更改编码
------------
r.apparent_encoding		#根据网页内容分析出编码方式
r.text		#打印


爬取网页的通用代码框架:

import	requests		#导入库
def  getHtmltext(url):	#创建一个函数
       try:
	r = requests.get(url, timeout = 30)
	r.raise_for_status()		#如果状态不是200,引发HTTPRrror异常
	r.encoding = r.apparent_encoding	#更改为网页分析出来的编码
	return r.text	#打印	
       except:
	return "产生异常'’

if _name_ == "_main_":
	url = "http://www.baidu.com"
	print(getHtmltext(url))

创建一个自定义列表

Markdown
:
Authors
: John
: Luke
:requests.requests(method,url,**kwargs)
:method: 请求方式,对应get/put/post./OPTIONS…等7种
:url: 获取网页的url链接
**kwargs: 控制访问的参数,共13个

requests.get(url,params=None,**kwargs)
url: 获取页面的url链接
params: url中的额外参数,字典或字节流格式,可选
**kwargs: 12个控制访问的参数

requests.head(url,**kwargs)
url: 获取页面的url链接
**kwargs:13个控制访问的参数

requests.post(url, data=None, json=None, **kwargs)
url: 更新页面的yrl链接
data: 字典,字节序列或文件,Pequest的内容
json: JSON格式的数据,Requests
**kwargs: 11个控制访问的参数

requests.put(url,data=None,**kwargs)
url: 更新页面的url链接
data: 字典,字节序列或文件,Pequest的内容
**kwargs: 12个控制访问的参数

requests.patch(url,data=None,**kwargs)
url: 更新页面的url链接
data: 字典,字节序列或文件,Pequest的内容
**kwargs: 12个控制访问的参数

requests.delete(url,**kwargs)
url: 更新页面的url链接
**kwargs: 13个控制访问的参数

Pequests 库的7个主要方法:

requests.request() 构造一个请求,支持以下各方法的基础方法

方法 说明
requests.get() 获取HTML网页的主要方法,对应HTTP的GET
requests.head() 获取HTML网页头信息的主要方法,对应HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete() 向HTML页面提交删除请求,对应于HTTP的DELETE

HTTP协议对资源的操作:

方法 说明
GET 请求获取UPL位置资源
HEAD 请求获取URL位置资源的响应消息报告,即获得改资源的头部信息
POST 请求向URL位置的资源后附加新的数据
PUT 请求向UPL位置存储一个资源,覆盖原URL位置的资源
RATCH 请求局部更新URL位置的支援,即改变该资源的部分内容
DELETE 请求删除URL位置存储的资源

你可能感兴趣的:(python爬虫入门,爬虫入门)