提示:文末戳我名片>>Free领>>最新Python爬虫资料
爬虫的原理和requests库的作用
爬虫本质上是模拟人浏览信息的过程,只不过他通过计算机来达到快速抓取筛选信息的目的。所以,我们想要写一个爬虫,最基本的就是要将我们需要抓取信息的网页“原原本本”地抓取下来,这个时候就要用到requests库了。
①同时按下win+R,输入cmd,打开命令行
②输入pip install requests
③输入python,启动python,再输入import requests。若不报错则安装成功
requests.request():构造一个请求,支撑一下各方法的基础方法。
requests.get():获取html网页的主要方法,对应于http的get。
requests.head():获取html网页头信息的方法,对应于http的head。
requests.post():向html网页提交post请求的方法,对应于http的post。
requests.put():向html网页提交put请求的方法,对应于http的put。
requests.patch():向html网页提交patch请求的方法,对应于http的patch。
requests.delete():向html页面提交删除请求,对应于http的DELETE。
r.status_code:http请求的返回状态,200表示连接成功,404表示失败,。
r.text:http响应内容的字符串形式,即url对应的页面内容。
r.encoding:从http header中猜测的相应内容编码方式
r.apprent_encoding:从内容中分析出的响应内容编码方式(备选编码方式)。
r.content:http响应内容的二进制形式。
requests.ConnectionError:网络连接错误异常,如DNS查询失败、拒绝连接等。
requests.HTTPError:HTTP错误异常。
requests.URLRequired:URL缺失异常。
requests.TooManyRedirects:超过最大重定向次数,产生重定向异常。
requests.ConnectTimeout:连接远程服务器超时异常。
requests.Timeout:请求URL超时,产生超时异常。
r.raise_for_status():如果不是200,产生异常requests.HTTPError。
URL格式:http://host[:port][path]
host:合法的Internet主机域名或IP地址
port:端口号,可不写,默认为80
path:请求资源的路径
requests库是一个非常强大的库,更多的功能可以去逛一逛官方的文档:https://docs.python-requests.org/zh_CN/latest/user/quickstart.html
Python爬虫基础入门系列(1)就到这,希望大家顺利入门Python爬虫,修炼成为爬虫大佬,早日当上“虫王”WoW!当然,如果你准备系统地来学网络爬虫及更多Python编程技术,可戳我的名片,Free领取最新Python爬虫资料/免费咨询/学习规划指导~