Request库丨Python爬虫基础入门系列(1)

提示:文末戳我名片>>Free领>>最新Python爬虫资料

文章目录

  • 前言
  • Requests库
    • 1、requests库安装
    • 2、Requests库的7个主要方法
    • 3、Response对象的属性
    • 4、Requests库异常
    • 5、理解Requests库的异常
    • 6、http协议
  • 总结


前言

爬虫的原理和requests库的作用
爬虫本质上是模拟人浏览信息的过程,只不过他通过计算机来达到快速抓取筛选信息的目的。所以,我们想要写一个爬虫,最基本的就是要将我们需要抓取信息的网页“原原本本”地抓取下来,这个时候就要用到requests库了。


话不多说,开始学习
Request库丨Python爬虫基础入门系列(1)_第1张图片

Requests库

1、requests库安装

①同时按下win+R,输入cmd,打开命令行

②输入pip install requests

③输入python,启动python,再输入import requests。若不报错则安装成功

2、Requests库的7个主要方法

requests.request():构造一个请求,支撑一下各方法的基础方法。

requests.get():获取html网页的主要方法,对应于http的get。

requests.head():获取html网页头信息的方法,对应于http的head。

requests.post():向html网页提交post请求的方法,对应于http的post。

requests.put():向html网页提交put请求的方法,对应于http的put。

requests.patch():向html网页提交patch请求的方法,对应于http的patch。

requests.delete():向html页面提交删除请求,对应于http的DELETE。

3、Response对象的属性

r.status_code:http请求的返回状态,200表示连接成功,404表示失败,。

r.text:http响应内容的字符串形式,即url对应的页面内容。

r.encoding:从http header中猜测的相应内容编码方式

r.apprent_encoding:从内容中分析出的响应内容编码方式(备选编码方式)。

r.content:http响应内容的二进制形式。

4、Requests库异常

requests.ConnectionError:网络连接错误异常,如DNS查询失败、拒绝连接等。

requests.HTTPError:HTTP错误异常。

requests.URLRequired:URL缺失异常。

requests.TooManyRedirects:超过最大重定向次数,产生重定向异常。

requests.ConnectTimeout:连接远程服务器超时异常。

requests.Timeout:请求URL超时,产生超时异常。

5、理解Requests库的异常

r.raise_for_status():如果不是200,产生异常requests.HTTPError。

6、http协议

URL格式:http://host[:port][path]

host:合法的Internet主机域名或IP地址

port:端口号,可不写,默认为80

path:请求资源的路径


Request库丨Python爬虫基础入门系列(1)_第2张图片

总结

requests库是一个非常强大的库,更多的功能可以去逛一逛官方的文档:https://docs.python-requests.org/zh_CN/latest/user/quickstart.html
Python爬虫基础入门系列(1)就到这,希望大家顺利入门Python爬虫,修炼成为爬虫大佬,早日当上“虫王”WoW!当然,如果你准备系统地来学网络爬虫及更多Python编程技术,可戳我的名片,Free领取最新Python爬虫资料/免费咨询/学习规划指导~
Request库丨Python爬虫基础入门系列(1)_第3张图片

你可能感兴趣的:(python,爬虫,网络爬虫,网络协议,数据挖掘)