网络爬虫---HTTP基础(1)

目录

1.HTTP基本原理

1.1 URL \ URI \ URN

1.2HTTP和HTTPS

1.3HTTP请求过程

1.3.1GET和POST请求

1.3.2请求头

1.3.3请求体

1.3.4响应


1.HTTP基本原理

1.1 URL \ URI \ URN

URL:统一资源定位符,URI统一资源标志符,URN:统一资源名称

1.2HTTP和HTTPS

超文本,网页的源代码的HTML就称为超文本协议

HTTP:超文本传输​​协议

HTTPS:安全套接字层上的超文本传输​​协议HTTP的安全版本,加入了ssl层,传输的内容都是通过SSL加密的

  •   建立了一个信息安全通达来保证数据传输的安全
  •  确认网站的真实信息,可通过CA机构把那的安全签章来查询

1.3HTTP请求过程

1.3.1GET和POST请求

  • GET请求包含在URL中,而POST一般都是表单请求包含在请求体
  • GET提交的数据最多为1024字节,而POST没有限制
其他请求方法
方法 描述
得到 请求页面,并返回内容
类似于GET,但会没有响应体,用于获取报头
POST 大多用于彪悍或上传文件,数据包含在请求体重
从客户端想服务器发送数据取代指定文档的内容
删除 请求服务器删除页面
CONNECT b吧服务器当做跳板,让服务器访问其他页面
OPTIONS 允许客户端查看服务器的性能
跟踪 回显服务器收到的请求,用于测试和诊断

1.3.2请求头

  • 接受:请求报头域,用于指定客户端可接受数据的类型
  • Accept_Language:指定客户端可接受的语言类型
  • Accept_Encoding:客户端可接受编码
  • 主持人:指定请求的IP和端口号
  • 饼干:辨别用户进行绘画跟踪而存储在用户本地的数据,例如密码登录网址,保存的登录状态
  • 引用者:表示这个请求从哪个页面发过来的
  • 用户代理:是一个特殊的字符串头,用于识别操作系统,浏览器等信息做爬虫加上此信息,可伪装成浏览器
  • 内容类型:互联网媒体类型

1.3.3请求体

承载着POST请求的表单数据,而GET为空。

内容类型和岗位的关系
应用程序/ x-WWW窗体-urlencoded 表单数据
nultipart /格式数据 表单文件
aoolication / JSON 序列化JSON数据
文/ XML XML数据

1.3.4响应

分为三部分:响应状态码,响应头和响应体

1.响应状态码:https://blog.csdn.net/ddhsea/article/details/79405996

2.响应头

  •        日期:标识响应产生的时间
  •       最后一次修改:指定响应内容编码
  •       编码内容:指定响应内容的编码
  •      服务器:包含服务器的信息
  •      内容类型:文档类型
  •      设置Cookie:设置cookie时,告诉浏览器需要将此内容放置的cookie中
  •     到期:指定响应的过期时间,用于加载内容的缓存”

3.响应体

 浏览器中点击预览,可以看到源代码,也就是响应体的内容

你可能感兴趣的:(Python,网络爬虫)