python爬虫自学第14天(第二章,有疑问未解决不耽误学习)

第二章 爬虫基础

今天工作比较忙,现在才开始学习。
2.1HTTP基本原理
2.1.1 URI 统一资源定位符
URN 不指定如何定位资源(用法比较少)
URL是URI的子集
URI包含URL和URN

2.1.2超文本

网页是由源代码写成的(一系列HTML代码),网页展示给我们的,是由超文本解析,而HTML代码中包含了一系列标签,例如img显示图片,p显示段落等组成。这里面的源代码就是超文本。
查看超文本,例如,任意网址,右键检查项(F12)即开发者工具,就能看到源代码,这就是超文本。

2.1.3HTTP和HTTPS

HTTP是超文本传输协议(保证数据的准确和高效的超文本)
是由万维网和Internet共同制定的规范
HTTPS是以安全为目标的HTTP通道(HTTP的安全版)
经过SSL加密的
(越来越多的公司要求用HTTPS)
2.1.4
在这一小节中,讲的主要是请求过程,意思就是:
客户端发动请求给服务器 服务器响应返回给客户端,在由浏览器解析便是网页的呈现状态。

文中用谷歌浏览器演示了在URL内输入www.baidu.com之后网络请求,网页内响应数据。
书中有name status type initiator size time waterfall
python爬虫自学第14天(第二章,有疑问未解决不耽误学习)_第1张图片
没有找到name在哪,智能把我的所有都翻译了。去翻译。

把我能看到的英文都翻译了,没有找到书中说的7个单词在哪。7个单词是 name 请求的名称,status 响应的状态码,type 请求的文档类型,initiator 请求源,size文件资源大小,time响应总时间,waterfall网络请求可视化瀑布流。而我的界面中有,Elements 项目 Sources 来源 Console 控制台 Network 网络 Performance性能 Memcry 记忆 APPlication 应用程序 Security 安全性 Audits 审计 styules 样式 computed 计算机 Event Listeners 事件列表 DOM breakpoints DOM断点 properties 属性 Accessibility 检查。(暂时这样,不会影响后续学习)

2.1.5 请求
由客户端向服务器发出可分为4部分内容
(1)请求方法(Request Method)
(2)请求网址(Request URL)
(3)请求头(Request Headers)
(4)请求体(Request Body)
1,请求方法,常见的有两种
GET和 POST
GET 浏览器在请求的URL中能看到,
POST登陆表单(用户名和密码)请求登陆,没有限制,最多1024字节。
2其他请求方法
GET 请求页面,并返回内容
HEAD 类似GET请求,只不过返回的响应没有具体内容,用于获取报头
POST 大多用于提交表单或上传文件,数据包含请求中
PUT 从客户端向服务器传送的数据取代指定文档中的内容
DELETE 请求服务器删除指定的页面
CONNECT 把服务器当作跳板,让服务器代替客户端访问其他网页
OPTIONS 允许客户端查看服务器的性能
TRACE 回显服务器收到的请求,主要用于测试或诊断
2,请求的网址
URL 统一资源定位符,唯一请求资源
3,请求头
(用来说明服务器要使用的附加信息)
重要的信息有(cookie,Referer,User-Agent等)
Accept:请求报头域 指定客户端可接受的语言类型
Accept-Language 指定客户端可接受的语言类型
Accept-Encoding 指定客户端可接受的内容编码
Host 指定请求资源的主机IP和端口号
Cookie(复数形式Cookies) 辨别用户进行会话跟踪和存储在用户本地的数据。(功能维持当前访问会话)
Referer 标识请求从哪个页面发过来的,服务器可以拿这一信息做相应的处理
User-Agent 简称UA (特殊的字符串头)使服务器识别客户使用的操作系统及版本浏览器信息及版本等信息
Gontent-Type 互联网媒体类型
(写爬虫的重要组成部分)
4,请求体
请求体一般承载的内容是POST请求中的表单数据
GET请求,请求体为空
在爬虫中 如果要构造POST请求,需要正确使用Content-Type,并了解各种请求库的各种参数设置时使用的哪种Content-Type,不然POST提交后无法正常响应。(此话不懂,后续再说)
2.1.6响应
1,响应,由服务器返回给客户端,分为三个部分
响应状态码 (Responsr Status Code)
响应头(Responsr Headers)
响应体(Responsr Body)
(1) 响应状态码(服务器的响应状态,可以根据状态码,调整爬虫)
(2)响应头(包含了服务器对请求的应答信息)
(如Content-Type,Server,Ser-Cookie等)
Date 标识响应产生的时间
Last-Modified 指定资源的最后修改时间
Content-Encoding 指定响应的内容编码
Server 包含服务器的信息 (比如名称,版本号)
Content-Type 文档类型,指定返回的数据类型是什么。
Set-Cookie 设置cookies
Expires 指定响应的过期时间
(3)响应体
通过响应体得到的网页内容,源代码,JSON数据等,在解析。

2019年11月28日 晚结束学习,睡觉。

你可能感兴趣的:(python爬虫自学第14天(第二章,有疑问未解决不耽误学习))