Python爬虫基础-HTTP基本原理-HTTP和HTTPS

在网页中,URL的开头会有http或https,这就是访问资源需要的协议类型。有时,我们还会看到ftp、sftp、smb开头的URL,它们都是协议类型。
**HTTP的全称是Hyper Text Transfer Protocol,中文名叫作超文本传输协议。**HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确地传送超文本文档。HTTP由万维网(World Wide Web Consortium)和Internet工作小组IETF(Internet Engineering Task Force)共同合作指定的规范。目前广泛使用的是HTTP 1.1版本。
HTTPS的全称是 Hyper Text Transfer Protocol over Secure Socket Layer,是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,简称为HTTPS。
HTTPS的安全基础是SSL,因此通过它传输的内容都是经过SSL加密的,它的主要作用可以分为两种。
1.建立一个信息安全通道来保证数据传输的安全。
2.确认网站的真实性,凡是使用了HTTPS的网站,都可以通过点击浏览器地址栏的锁头标志来查看网站认证之后的真实信息,也可以通过CA机构颁发的安全签章来查询。
而某些网站索然使用了HTTPS协议,但还是会被浏览器提示不安全,如果要爬取这样的站点,就需要设置忽略证书的选项,否则会提示SSL连接错误。
Python爬虫基础-HTTP基本原理-HTTP和HTTPS_第1张图片

你可能感兴趣的:(Python爬虫基础)