python爬虫学习笔记(一)

HTTP协议与requests库

HTTP(Hypertext Transfer Protocol)超文本传输协议

HTTP是一个基于“请求与响应”模式的,无状态的应用层协议

HTTP协议采用URL作为定位网络资源的标识

URL格式     http://host [:port] [path]

host:表示合法的Internet主机域名或IP地址

port:端口号,缺省为80

path:请求资源的路径(服务器内部路径)

HTTP URL理解:

URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。就好比电脑里一个文件的路径,只不过这个文件是存在互联网上。

python爬虫学习笔记(一)_第1张图片

python爬虫学习笔记(一)_第2张图片

在HTTP协议的“世界”里,网络通道和服务器就是一个黑盒子,它能看到的就是URL链接和对URL链接的相关操作

python爬虫学习笔记(一)_第3张图片

requests库介绍

requests库是目前爬取网页比较好的第三方库,http://www.python-requests.org

python爬虫学习笔记(一)_第4张图片

python爬虫学习笔记(一)_第5张图片

requests库其实只有“一个”方法,其余方法都是由request方法封装的

python爬虫学习笔记(一)_第6张图片

python爬虫学习笔记(一)_第7张图片

python爬虫学习笔记(一)_第8张图片

python爬虫学习笔记(一)_第9张图片

requests库的方法跟HTTP协议一一对应

python爬虫学习笔记(一)_第10张图片

python爬虫学习笔记(一)_第11张图片

 

你可能感兴趣的:(python爬虫学习笔记(一))