虽然Python的标准库urllib模块已经包含了平常我们使用的大多数功能,但它的API使用起来不够简洁、明晰。第三方Requests库更加符合Python的精神,Requests库宣传口号是”HTTP for Humans(让 HTTP 服务人类)“,代码简洁,使用更迅捷、方便。
学习参考:
中文文档:https://requests.readthedocs.io/zh_CN/latest/
Github:https://github.com/requests/requests
我用的是win10,Win+R输入cmd进入控制台,输入下面命令安装:
pip install requests
Python官方源安装特别慢,还经常失败,我以前安装PyQt5就是这样,无论如何都不成功。通过百度发现,国内镜像安装速度快、成功率高,安装时使用 -i 参数指定镜像地址:
pip install requests -i https://pypi.douban.com/simple/
豆瓣:http://pypi.douban.com/simple/
阿里云:http://mirrors.aliyun.com/pypi/simple/
清华大学:https://pypi.tuna.tsinghua.edu.cn/simple
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学:http://pypi.hustunique.com/
山东理工大学:http://pypi.sdutlinux.org/
上面是临时使用镜像,也可以永久使用镜像源:
在win10系统中,打开用户目录,再打开你名字的用户(可能有人没有建立自己的用户帐号,那就直接打开Administrator目录),在其下建立pip子目录,再在pip目录下新建文件pip.ini,在其中输入如下内容、保存:
[global]
index-url = https://pypi.douban.com/simple/
[install]
trusted-host=mirrors.aliyun.com
获取HTML网页的主要方法,对应于HTTP的GET:
requests.get()
获取HTML网页头信息的方法,对应于HTTP的HEAD:
requests.head()
向HTML网页提交POST请求的方法,对应于HTTP的POST:
requests.post()
向HTML网页提交PUT请求的方法,对应于HTTP的PUT:
requests.put()
向HTML网页提交局部修改请求,对应于HTTP的PATCH:
requests.patch()
向HTML页面提交删除请求,对应于HTTP的DELETE:
requests.delete()
requests.get(url, params=None, **kwargs)
首先,必须导入requests模块:
import requests
通过requests.get()发送最基本的get请求,建立Response对象:
import requests
response = requests.get('http://www.baidu.com/')
通过requests.get()发送带有headers和查询参数的请求,可以指定header参数、params参数:
# -*- encoding: utf-8 -*-
import requests
# 定义参数字典
kw = {'wd': 'python'}
# 定义请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}
# 发送get请求
response = requests.get('http://www.baidu.com/s', params=kw, headers=headers)
#查看Response对象属性:
print(response.status_code) # 状态码 200
print(response.headers['content-type']) # 请求头 text/html
print(response.encoding) # 网页编码 'ISO-8859-1'
print(response.text) # 查看网页内容,自动解码Unicode格式
print(response.content) # 查看网页内容,返回bytes格式
# print(response.json()) # 如果是json格式
print(response.url) # 查看完整url
print(response.cookies) # 查看cookie
在某些情况下来说,response.text 与 response.content 都是来获取response中的数据信息,效果看起来差不多。那么response.text 和 response.content 到底有哪些差别? 什么情况下该用 response.text 什么情况下该用 response.content ?
也就是说如果想取文本数据可以通过response.text 如果想取图片、文件,则可以通过 response.content
response.content.decode('utf-8')
response.text 则是自动猜测网页编码,服务器不指定的话是根据网页的响应来猜测编码。修改编码方式:
response.encoding = 'utf-8'
代码示例:
# -*- coding: utf-8 -*-
import requests
response=requests.get('https://www.baidu.com/')
# print(response.cookies)
print(response.content.decode('utf-8'))
print('-'*30)
print(response.text)
简言之,post请求就是向服务器提交数据。
requests.post(url, data=None, json=None, **kwargs)
response = resquests.post(url, data=data)
使用requests.post()方法,如果返回的是jaon数据,可以调用"requests.json()"方法将json字符串转换为字典或者是列表。
以拉钩网为例发送post请求。在浏览器(Google Chrome)打开拉钩网站,按F12进行网页分析,发现该网站要求post请求,需要传递表单参数first、pn、kd,示例如下:
# -*- encoding: utf-8 -*-
import requests
# 定义表单数据
data = {
'first': 'true',
'pn': '1',
'kd': 'python'
}
# 定义请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}
url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
# 发送post请求
response = resquests.post(url, data=data, headers=headers)
print(type(response.json()))
print(response.json()) # 调用json()方法
百度百科:代理服务器(Proxy Server)的功能是代理网络用户去取得网络信息。形象地说,它是网络信息的中转站,是个人网络和Internet服务商之间的中间代理机构,负责转发合法的网络信息,对转发进行控制和登记。
requests.get(url,data=data,headers=headers,proxies=proxy)
在请求get()或post()方法中,传递"proxies="参数,参数可以是一个字符串,也可以是字典。
# -*- encoding: utf-8 -*-
import requests
from fake_useragent import UserAgent
url = 'https://nanning.anjuke.com/sale/p1/#filtersort' # 南宁安居客二手房第一页
# 定义代理IP字典,如果代理足够多,可从文件中读取
proxy = {
'http://': '113.120.38.24:9999',
'https://': '113.120.38.24:9999',
'http://': '110.243.28.67:9999',
'https://': '110.243.28.67:9999'
}
ua = UserAgent() # 自动生成请求头
headers = {'User-Agent': ua.random}
# 发送请求
response = requests.get(url, headers=headers, proxies=proxy)
text = response.text
print(text) # 查看内容
百度百科:Cookie 并不是它的原意“甜饼”的意思, 而是一个保存在客户机中的简单的文本文件, 这个文件与特定的 Web 文档关联在一起, 保存了该客户机访问这个Web 文档时的信息, 当客户机再次访问这个 Web 文档时这些信息可供该文档使用。
1)打开浏览器,按F12,选择Network,输入目标网址,一般是选择刷出来的第一项,然后选Header,找到Cookie复制就行了;
2)代码获取:
# -*- encoding: utf-8 -*-
import requests
response = requests.get('http://www.baidu.com/')
cookie = response.cookies.get_dict()
print(cookie)
如果要在多次请求中共享cookie,需要使用Session()方法建立会话、发送请求:
# -*- encoding: utf-8 -*-
import requests
url = 'http://www.renren.com/PLogin.do'
data = {'email': '[email protected]', 'password': 'pythonspider'}
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}
# 建立Session会话
session = requests.Session()
# 用Session对象发送请求
session.post(url,data=data, headers=headers)
#请求二级页面查看是否登录成功
response = session.get('http://www.renren.com/880151247/profile')
# 将源码保存到文件以便使用
with open('renren.html', 'w', encoding='utf-8') as f:
f.write(response.text)
response = requests.get(url,verify=False)
说明:本学习笔记根据晚上观看学习B站乐林贝斯发布的视频《Python爬虫】新手强烈推荐:Python爬虫教程,学爬虫这一套就够了》,白天学习CSDN博主【[数挖小飞飞]的《Python网络爬虫数据采集实战》博客所记录,非常感谢!
笔记系列:
Python3爬虫编程学习笔记(一)缘由
Python3爬虫编程学习笔记(二)爬虫原理
Python3爬虫编程学习笔记(三)学习urllib库基本用法