http 应该是从哪个几个方面掌握?
0》http背景
web数据交互的时候需要数据的简单传输而产生的
1》http是什么?
无状态、无连接的应用层的传输协议
2》为什么需要使用http
简单、易容
3》http使用在哪些场景
基本上,互联网上的数据传输都用到了http
4》 http的原理
http经过dns解析,然后根据ip地址去请求服务器而获取的内容。
5》 http的有关细节
头部 + 主体,
头部: 通用、请求、响应、主体 的首部
主体:报文的内容
6》 http 不同版本差异
http 1.1 使用的情况最多, http 0.9、1.0 暂时先不管
http 2.0 增加了有关的websocket的方案
http 3.0 底部推荐使用了udp
https基于http在应用层和tcp层加入了一层ssl/tls 的加密验证协议。
0》 背景
文档之间相互关联形成的超文本、浏览器大战
http/0.9 包含了http 1.0之前的版本
http/1.o 初期的标准
http/ 1.1 该版本基本上没有更新
http/2.0 要求达到更加高的使用覆盖率
现在http已经超出了web的这个框架局限, 被用到了各个场景里面了。
http是基于TCP/IP 协议族的基础上建立的应用层协议。
http依赖于:DNS、TCP、IP协议
1》IP协议负责传输, arp,rarp、mac地址、ip地址 (网络层)
2》TCP协议确保可靠性,提高可靠的字节流服务。 TCP的连接与终止
3》DNS服务 服务则域名解析 DNS解析系统
URI 和URL的关系,URI包括URL。
URI:用字符串标识某一互联网资源
URL:标识资源的地点(互联网上所处的位置)
小结: http是基于DNS、TCP、IP协议,同时也是基于URI进行的有关查询。
1》http是什么?
http(hyper text transfer protocol) 超文本传输协议
1》应用层的协议
2》主要负客户端与服务器之间的通讯。【HTTP 把客户端的请求发送到服务器,并把相应的网页内容由服务器返回客户端浏览器。】
3》 默认端口: 80
4》 特点:无状态、 无连接
::1》无状态
: 每次请求都是独立的, 两个请求之间没有联系, 但是会引入 Cookie 和 Session 机制来关联请求。
::2》无连接
:服务端收到客户端请求后, 响应完成并收到客户端的应答之后, 立即断开连接
无状态、无连接的解释
2》 为什么需要http?
http更加简单,可靠的传输协议
请求结构 & 响应结构
Http是不保存状态的协议 (stateless)
http协议自身对请求和响应之间的通讯状态进行保存。 也就是说http这个级别,协议对于发送过的请求或响应都不做持久化处理。
原因:每当有新的请求发送时,就会有对应的新响应产生。 协议本身并不保留之前一切的请求和响应报文的信息。 这是为了更快地处理大量事务,确保协议的可伸缩性, 而特意把http协议设计成如此简单的。
无状态导致的问题:
无状态而导致业务处理变得棘手的情况增多了。eg:用于登录到一家购物网站,即使他跳转到该站的其他页面后,也需要能欧股继续保持登录状态。针对这一实例,网站为了能够掌握是谁送出的请求,需要保存用户的状态。 —— 用户的登录状态
HTTP/1.1 虽是无状态协议, 但为了实现期望的保持状态功能,于是引入了cookie技术。有了Cookie再用http协议通信,就可以管理状态了。
http协议使用URI定位互联网上的资源。
如果不是访问特定资源而是对服务器本身发起请求,可以用一个 * 代替请求URI。
eg:OPTIONS * HTTP/1.1
http的请求方法
get
: 获取资源, 主要目的是获取响应主体内容
post
:传输实体主体,主要目的不是获取响应主体内容
put
:传输文件, 自身不带有验证机制。web一般不使用该方法。 可以配置web应用程序的验证机制、或架构设计采用REST(Respresentational State Transfer:表征状态转移)标准的同类web网站,就可能会放开使用PUT方法
head
:获的报文首部, 和get一样,但是不返回报文主体部分。 用于确认URI的有效性以及资源更新的日期时间等。
Delete
: 删除文件,
options
: 询问支持的方法,
trace
: 追踪路径 【我们的问题是否可以使用trace来进行追踪内容?】
connect
:要求用隧道协议链接代理。
因为返回的数据量变多:不持久的连接将会导致每次都要重新建立和断开
持久连接节省通信量: http/1.1 和一部分1.0 支持了持久连接(http persistent connections) , 也成为HTTP keep-alive 或者 http connection reuse .
特点:主要任意一段没有明确提出断开连接,则保持TCP连接状态。
优点:
持久连接的好处在于减少了 TCP 连接的重复建立和断开所造成的额 外开销,减轻了服务器端的负载。另外,减少开销的那部分时间,使 HTTP 请求和响应能够更早地结束,这样 Web 页面的显示速度也就相 应提高了。
在 HTTP/1.1 中,所有的连接默认都是持久连接,但在 HTTP/1.0 内并 未标准化。虽然有一部分服务器通过非标准的手段实现了持久连接, 但服务器端不一定能够支持持久连接。毫无疑问,除了服务器端,客 户端也需要支持持久连接。
管线化: 持久连接使得多数请求以管线化(pipelining)方式发送成为可能。从 前发送请求后需等待并收到响应,才能发送下一个请求。管线化技术 出现后,不用等待响应亦可直接发送下一个请求。
这样就能够做到同时并行发送多个请求,而不需要一个接一个地等待
响应了。
使用Cookie 的状态管理
http 无状态协议, 它不对之前发生过的请求和响应的状态进行管理。 也就是说:无法根据之前的状态进行本次的请求处理。
假设要求登录认证的 Web 页面本身无法进行状态的管理(不记录已 登录的状态),那么每次跳转新页面不是要再次登录,就是要在每次 请求报文中附加参数来管理登录状态。 —— 这个实现就很恶心了。
不可否认,无状态协议当然也有它的优点。由于不必保存状态,自然 可减少服务器的 CPU 及内存资源的消耗。从另一侧面来说,也正是 因为 HTTP 协议本身是非常简单的,所以才会被应用在各种场景里。
cookie 就是服务器记录客户端的状态的id。
服务器应该可以实现这个cookie的内容的设置。
第三章: http报文内的http信息
请求和响应是怎么运作的?
HTTP 报文大致可分为
报文首部和报文主体
两块。两者由最初出现的 空行(CR+LF)来划分。通常,并不一定要有报文主体。
请求行:
方法、url、http版本
状态行:
响应结果的状态码、原因短语、http版本
首部字段:
1、 表示请求和响应的各种条件和属性的各类首部。
一般4中首部: 通用首部、请求首部、响应首部、实体首部【这个是啥?】。
3.3 编码提升传输速率
提升了传输的速率,计算机的编码,消耗了计算机的CPU。
3.3.1 报文主体和实体主体的差异
1》 报文(message): 是http通信中的基本单位, 由8bit字节流(octet sequence ,其中octet 为8个bit)组成,通过http通信传输。
2》实体(entity): 作为请求和响应的有效载荷数据(补充项)被传输, 其内容由实体首部和实体主体组成。
http报文的主体用于传输请求或响应的实体主体。
3.3.2 压缩传输的内容编码
常见的内容编码有: gzip、compress, deflate , identity[不进行编码]
3.3.3 分割发送的分块传输编码
PS: 上面的内容,就是可以进行压缩编码以及分块的编码的内容处理。
3.4 发送多种数据的多部分对象发送邮件时,我们可以在邮件里写入文字并添加多份附件。这是因为 采用了 MIME(Multipurpose Internet Mail Extensions,多用途因特网邮 件扩展)机制,它允许邮件处理文本、图片、视频等多个不同类型的数据。例如,图片等二进制数据以 ASCII 码字符串编码的方式指明, 就是利用 MIME 来描述标记数据类型。而在 MIME 扩展中会使用一 种称为多部分对象集合(Multipart)的方法,来容纳多份不同类型的 数据。
3.5 获取部分内容的范围请求
所谓恢复是指能从之前下载中断处恢复下载。
部分区域请求,返回的状态码是206, 如果总体返回的是200,OK。
3.6 内容协商返回最合适的内容
内容协商机制
是指客户端和服务器端就响应的资源内容进行交涉,然后提供给客户端最为适合的资源。内容协商会以响应资源的语言、字符集、编码方式等作为判断的基准。
包含在请求报文中的某些首部字段(如下)就是判断的基准。
Accept 、Accept-Charset、Accept-Encoding、 Accept-Language 、Conte nt-Language
4 返回结果的http 状态码
5、 与http协作的web服务器
代理、网关、隧道
代理
:代理是一种有转发功能的应用程序,它扮演了位于服务器和客户端“中间人”的角色, 接收由客户端发送的请求并转发给服务器,同时也接收服务器返回的响应并转发给客户端。
使用代理理由:
1》利用缓存技术减少网络带宽的流量. (缓存代理
)
2》组织内部针对特定网站的访问控制
3》为了获取访问日志为主要的目的。 等。。。
分类: 缓存、是否修改报文
缓存代理: 缓存请求的服务器资源,便于下次直接返回。
透明代理: 转发请求响应是偶不修改报文; 修改报文就叫做不透明代理。
5.2.2 网关
和代理类似, 但是网关能使通信线路上的服务器提供非http协议服务器。
网关可以提高安全性,(客户端用于网关之间通信线路加密): eg:网关可以连接数据库,使用SQL语句查询数据。
5.2.3 隧道
隧道可按要求建立起一条与其他服务器的通信线路,届时使用 SSL 等 加密手段进行通信。隧道的目的是确保客户端能与服务器进行安全的 通信
。
网关
: 转发其他服务器通信数据的服务器, 接收从客户端发送来的请求时,它就像自己拥有资源的源服务器一样对请求进行处理。 有时客户端可能都不会察觉,自己的通信目标是一个网关。
隧道
: 在相隔甚远的客户端和服务器两者之间进行中转, 并保持双方通信连接的应用程序。
web缓存: 客户端缓存和服务器缓存
6 : http首部
http首部内容为客户端和服务器分别处理请求和响应提供所需的信息。
若 HTTP 首部字段重复了会如何?
当 HTTP 报文首部中出现了两个或两个以上具有相同首部字段名时 会怎么样?这种情况在规范内尚未明确,根据浏览器内部处理逻辑 的不同,结果可能并不一致。有些浏览器会优先处理第一次出现的 首部字段,而有些则会优先处理最后出现的首部字段。
HTTP/1.1 有47种首部字段
还有非http/1.1 首部字段: eg: Cookie ,, Set-Cookie Content-Disposition 等也很常用
6.2.6 End-to-end 首部 和Hop-by-hop 首部
首部字段定义的缓存代理和非缓存代理的行为 , 两种类型:
1》 端到端首部(end-to-end header)
分在次类别中的首部会转发给请求/响应对应的最终接收目标, 且必须保存在由缓存生成的响应中, 另外规定它必须被转发。
2》逐跳首部(Hop-by-hop header)
此类别中的首部只对单词转发有效, 会因通过缓存和代理而不再转发。 http1.1中如果要使用hop-by-hop首部,需提供Connection首部字段。
有关里面的字段理解: 可以一个个查阅。
6.7 为Cookie服务的首部字段
Cookie 的工作机制是用户识别及状态管理。 web网站为了管理用户的状态会通过web浏览器,把一些数据临时写入用户的计算机内。接着当用户访问该web网站时,可通过通信方式取回之前发放的Cookie 。
调用cookie时,由于可校验Cookie的有效期, 以及发送方的域、路径、协议等信心,所以正规发布的cookie内的数据不会因来自其他web站点和攻击者的攻击而泄漏。
第7章: 确保Web安全的https
http的缺点:
1》通信使用明文(不加密),内容可能会被窃听
2》不验证通信方的身份, 因此有可能遭遇伪装
3》无法证明报文的完整性, 所以有可能已遭篡改
4》脆弱性和安全漏洞
5》编程语言开发web应用可能存在安全漏洞
7.1.1 通信使用明文可能会被窃听
1》TCP/IP 是可能被窃听的网络。 消息传递的各个缓解都有可能被监听到。常用抓包工具:wireshark
2》加密处理防止被窃听。
加密对象:
1》通信加密:通过SSL(secure socket Layer 安全套接层) 或者TLS(transoport layer security 安全层传输协议) 的组合使用,加密http的通信内容。
用 SSL 建立安全通信线路之后,就可以在这条线路上进行 HTTP 通信了。与 SSL 组合使用的 HTTP 被称为 HTTPS(HTTP Secure,超文本传输安全协议)或 HTTP over SSL。
2》 内容加密:把http报文里锁包含的内容进行加密处理。
要求客户端和服务器同时具备加密和解密机制。
7.1.2 不验证通信方的身份就可能遭遇伪装
HTTP 协议中的请求和响应不会对通信方进行确认。
也就是说存在“服 务器是否就是发送请求中 URI 真正指定的主机,返回的响应是否真的返回到实际提出请求的客户端”等类似问题。
1》 任何人都可发起请求
存在的问题:
1》无法确定请求发送至目标的web服务器是否按真实意图返回响应的那台服务器。 有可能是已伪装的web服务器
2》无法确定响应返回到的客户端是否是按照真实意图接收响应的那个客户端。有可能是已伪装的客户端。
3》无法确定正在通信的对象是否具备范文权限。 因为某些web服务器上保存着重要的信心,指向发给特定用户通信的权限。
4》无法判定请求是来自何方、出自谁的手
5》即使是无意义的请求会照单全收。 无法组织海量请求下的DOS攻击。
2》查明对手的证书 —— 证书手段:证明对方就是对象
SSL可以让http协议确定通信对方。 SSL不仅提供加密处理, 而且还是用了一种被称为证书的手段,可用于确认对方。 ——认证、加密
《1》证书是指的
信赖的第三方机构颁发,用以证明服务器和客户端是实际存在的
。 另外,伪造证书从技术角度来说是异常困难的一件事。 所以只要能够确认通信方(服务器或客户端)持有证书,既可以判断通信方的真实意图。
《2》通过使用证书,以证明通信方就是意料中的服务器。这对使用者个人来讲,也减少了个人信息泄露的危险性。
《3》另外,客户端持有证书即可完成个人身份的确认,也可用于对 Web 网站的认证环节。
3》 无法证明报文完整性,可能已遭篡改 —— 加密秘:证明数据完整没有被修改过
报文完整性: 信息的准确度
1》 接收到的内容可能有误
在http中没有任何办法确认发出的请求、响应和接收到的请求/ 响应是前后相同的。
在传输途中,遭攻击者拦截并篡改内容的攻击称为中间人攻击(Man-in-the-Midde attack , MITM)
2》如何防止篡改
虽然使用http协议确定报文完整性的方法,但事实上并不便捷、可靠。其中常用的是MD5和SHA-1等散列校验的方法,以及用来确认文件的数字签名方法。
Good Privacy,完美隐私)创建的数字签名及 MD5 算法生成的散 列值。PGP 是用来证明创建文件的数字签名,MD5 是由单向函 数生成的散列值。不论使用哪一种方法,都需要操纵客户端的用 户本人亲自检查验证下载的文件是否就是原来服务器上的文件。 浏览器无法自动帮用户检查。
可惜的是,用这些方法也依然无法百分百保证确认结果正确。因 为 PGP 和 MD5 本身被改写的话,用户是没有办法意识到的。
有必要使用https。 SSL提供认证和加密处理以及摘要功能。
7.2 HTTP + 加密 + 认证 + 完整性保护 = https
考虑的问题:1》确认通信对方 2》加密确保数据完整
7.2.2、HTTPS是身披SSL外壳的http
http直接和TCP通信的。——> 当使用ssl时,则变成htttp先和SSL通信,再由SSL和TCP通信。
SSL是独立于HTTP的协议。
7.2.3、相互交换秘钥的公开秘钥加密技术
SSL采用一种叫做 公开秘钥加密(public-key crytography)的加密处理方式
近代的加密方法中加密算法是公开的,而秘钥却是保密的。 通过这种方式得以保持加密方法的安全性。
1》 共享秘钥加密的困境
加密和解密同一个秘钥的方式成为共享秘钥
(common key crypto system), 也称为:对称秘钥加密
。
2》 使用公开秘钥加密[非对称加密]
解决上面的困境。
公开密钥加密使用一对非对称的密钥。一把叫做私有密钥 (private key),另一把叫做公开密钥(public key)。
私有密钥不能让其他任何人知道,而公开密钥则可以随意发布
,任何人都可以获得。
解密
:使用公开密钥加密方式,发送密文的一方使用对方的公开密钥进行加密处理,对方收到被加密的信息后,再使用自己的私有密钥进行解密。利用这种方式,不需要发送用来解密的私有密钥
,也不必担心密钥被攻击者窃听而盗走。
为什么不需要传输私有秘钥? 我自己的公私秘钥,应该是要传给它们的吧?
AN: 也就是我产生一对钥匙,然后我发出我的公钥,我自己持有私钥。谁都可以拥有公钥。
3》 HTTPS 采用混合加密机制
HTTPS采用共享密钥加密和公开密钥加密两者并用的混合加密 机制。若密钥能够实现安全交换,那么有可能会考虑仅使用公开 密钥加密来通信。但是公开密钥加密与共享密钥加密相比,其处 理速度要慢。
——>非对称加密(慢)和对称加密的组合(快)
非对称加密用来加密对称加密的秘钥,对称加密是对信息的加密。
7.2.4 证明公开秘钥正确性的证书
遗留问题:
无法证明公开秘钥本身是货真价实的公开秘钥。
eg:正准备和某台服务器建立公开秘钥加密方式下的通信时,如何证明收到的公开秘钥就是原本预想的那台服务器发行的公开秘钥? 很可能是在公开秘钥传输途中,真正的公开秘钥已经被攻击者替换掉。
这里好像不考虑服务器对客户端的验证?好像只要客户端难道这个加密,能够请求服务器解密就行了的? 这个不属于https的范畴内容。
使用由
数字证书认证机构(CA,Certificate Authority)
和其相关机关颁发的公开密钥证书。 —— 解决公钥是正确的
,想要的。
数字证书认证机构处于
客户端与服务器双方都可信赖
的第三方机构的立场上。 威瑞信(veriSign) 就是其中一家非常有名的数字证书认证机构。
数字认证机构的业务流程
:服务器的运营人员向数字证书认证机构提出公开秘钥的申请。数字证书认证机构在判明提出申请的身份之后,会对已申请的公开秘钥做数字签名,然后分配这个已签名的公开秘钥,并将该公开秘钥放入公钥证书后绑定在一起。
服务器会将这份数字认证机构颁发的公钥证书发给客户端, 以进行公开秘钥加密方式通信。 公钥证书也可可叫做数字证书或直接成为证书。
验证过程: 接到证书的客户端可使用证书认证机构的公开秘钥,对那张证书上的数字签名进行验证,一旦验证通过,客户端便可以明确两件事情:
1》认证服务器的公开秘钥的是真实有效的数字证书认证机构
2》服务器的公开秘钥是值得信赖的。
参考内容
此处认证机关的公开密钥必须安全地转交给客户端。使用通信方式时,如何安全转交是一件很困难的事,因此,多数浏览器开发商发布版本时,会事先在内部植入常用认证机关的公开密钥。—— 操作系统和浏览器常常会持有根的证书。
eg:浏览器不是内置了公开证书么? 直接使用的时候验证就可以了,为什么还有服务器的公开秘钥+数字证书认证机构的数字签名发送到客户端? 这里有点不太理解了。
1》可证明组织真实性的 EV SSL 证书
证书的一个作用是用来证明作为通信一方的服务器是否规范,另 外一个作用是可确认对方服务器背后运营的企业是否真实存在。 拥有该特性的证书就是 EV SSL证书(Extended Validation SSL Certificate)。
2》 用以确认客户端的客户端证书
HTTPS 中还可以使用客户端证书。以客户端证书进行客户端认 证,证明服务器正在通信的对方始终是预料之内的客户端,其作用跟服务器证书如出一辙。
客户端证书仍存在问题,
《1》证书获取以及发布
。
想获取证书时,用户得自行安装客户端证书。但由于客户端证书是要付费购买的,且每张证书对应到每位用户也就意味着需支付和用户数对等的费用。另外,要让知识层次不同的用户们自行安装证书,这件事本身也充满了各种挑战。
现状是,安全性极高的认证机构可颁发客户端证书但仅用于特殊用途的业务。比如那些可支撑客户端证书支出费用的业务。
例如,银行的网上银行就采用了客户端证书。在登录网银时不仅 要求用户确认输入 ID 和密码,还会要求用户的客户端证书,以 确认用户是否从特定的终端访问网银。
《2》只能用来证明客户端实际存在,而不能用来证明用户本人的真实有效性
也就是说,只要获得了安装有客户端证书的计算机的使用权限,也就意味着同时拥有了客户端证书的使用权限。
《3》认证机构信誉第一
SSL 机制中介入认证机构之所以可行,是因为建立在其信用绝对 可靠这一大前提下的。
虽然存在可将证书无效化的证书吊销列表(Certificate Revocation List,CRL)机制,以及从客户端删除根证书颁发机构(Root Certificate Authority,RCA)的对策,但是距离生效还需要一段 时间,而在这段时间内,到底会有多少用户的利益蒙受损失就不 得而知了。
《4》由自认证机构颁发的证书称为自签名证书
如果使用 OpenSSL 这套开源程序,每个人都可以构建一套属于 自己的认证机构,从而自己给自己颁发服务器证书。但该服务器 证书在互联网上不可作为证书使用,似乎没什么帮助。
值得信赖的第三方机构介入认证,才能让已植入在浏览器内的认证机构颁布的公开密钥发挥作用,并借此证明服务器的真实性。
中级认证机构的证书可能会变成自认证证书
多数浏览器内预先已植入备受信赖的认证机构的证书,但也有一小部分浏览器会植入中级认证机构的证书。对于中级认证机构颁发的服务器证书,某些浏览器会以正规的证书来对待,可有的浏览器会当作自签名证书。
CA证书是一个帧数链, 根证书曾明子证书的合法性。
7.2.5》 HTTPS 的安全通信机制
http主要的问题: 1》客户端知道对方就是对方 2》加密保持数据的完整
步骤 1
: 客户端通过发送 Client Hello 报文开始 SSL 通信。报文中包 含客户端支持的 SSL 的指定版本、加密组件(Cipher Suite)列表(所 使用的加密算法及密钥长度等)。
步骤 2
: 服务器可进行 SSL 通信时,会以 Server Hello 报文作为应答。和客户端一样,在报文中包含 SSL 版本以及加密组件。服务器的加密组件内容是从接收到的客户端加密组件内筛选出来的。
步骤 3
: 之后服务器发送 Certificate 报文。报文中包含公开密钥证书。
步骤 4
: 最后服务器发送 Server Hello Done 报文通知客户端,最初阶段的 SSL 握手协商部分结束。
步骤 5
: SSL 第一次握手结束之后,客户端以 Client Key Exchange 报文作为回应。报文中包含通信加密中使用的一种被称为 Pre-master secret 的随机密码串。该报文已用步骤 3 中的公开密钥进行加密。
步骤 6
: 接着客户端继续发送 Change Cipher Spec 报文。该报文会提 示服务器,在此报文之后的通信会采用 Pre-master secret 密钥加密。
步骤 7
: 客户端发送 Finished 报文。该报文包含连接至今全部报文的 整体校验值。这次握手协商是否能够成功,要以服务器是否能够正确 解密该报文作为判定标准。
步骤 8
: 服务器同样发送 Change Cipher Spec 报文。
步骤 9
: 服务器同样发送 Finished 报文。
步骤 10
: 服务器和客户端的 Finished 报文交换完毕之后,SSL 连接 就算建立完成。当然,通信会受到 SSL 的保护。从此处开始进行应用 层协议的通信,即发送 HTTP 请求。
步骤 11
: 应用层协议通信,即发送 HTTP 响应。
步骤 12
: 最后由客户端断开连接。断开连接时,发送 close_notify 报 文。上图做了一些省略,这步之后再发送 TCP FIN 报文来关闭与 TCP 的通信。
应用层发送数据时会附加一种叫做 MAC(Message Authentication Code)的报文摘要。MAC 能够查知报文是否遭到篡改,从而保护报文的完整性。
SSL 和TLS
IETF 以 SSL3.0 为基准,后又制定了 TLS1.0、TLS1.1 和 TLS1.2。TSL 是以 SSL 为原型开发的协议,有时会统一称该协议 为 SSL。当前主流的版本是 SSL3.0 和 TLS1.0。
HTTPS 也存在一些问题,那就是当使用 SSL 时,它的处理速度 会变慢。HTTPS比HTTP要慢2到100倍
SSL 的慢分两种。一种是指通信慢。另一种是指由于大量消耗CPU 及内存等资源,导致处理速度变慢。
和使用 HTTP 相比,网络负载可能会变慢 2 到 100 倍。除去和 TCP 连接、发送 HTTP 请求 • 响应以外,还必须进行 SSL 通信, 因此整体上处理通信量不可避免会增加。
另一点是 SSL 必须进行加密处理。在服务器和客户端都需要进行 加密和解密的运算处理。因此从结果上讲,比起 HTTP 会更多地 消耗服务器和客户端的硬件资源,导致负载增强。
针对速度变慢这一问题,并没有根本性的解决方案,我们会使用 SSL 加速器这种(专用服务器)硬件来改善该问题。该硬件为 SSL 通信专用硬件,相对软件来讲,能够提高数倍 SSL 的计算速 度。仅在 SSL 处理时发挥 SSL 加速器的功效,以分担负载。
为什么不一直使用https?
1》这个过程需要加密,消耗时间,同事消耗cp资源
2》 有些不是敏感的信心
3》购买证书需要消费。
第8章节: 确认访问者用户身份的认证
web页面让特定的人浏览。
8.1 何为认证:
需要用户输入对应的信息以确认登陆者的身份
1》密码:只有本人才知道的字符串的信心
2》动态令牌:进限本人持有的设备内显示的一次性密码
3》数字证书:仅限本人(终端)持有的信心
4》生物认证:指纹和虹膜等本人的生理信息
5》IC卡等:仅限本人持有的信息
http/1.1 的认证方式有:
1》BASIC认证(基本认证)
2》DIGEST认证 (摘要认证)
3》SSL客户端认证
4> FormBase 认证(基于表单认证)
8.2 BASIC认证
是 Web 服务器与通信 客户端之间进行的认证方式。
步骤 1:
当请求的资源需要 BASIC 认证时,服务器会随状态码 401 Authorization Required,返回带 WWW-Authenticate 首部字段的响应。 该字段内包含认证的方式(BASIC) 及 Request-URI 安全域字符串 (realm)。
步骤 2:
接收到状态码 401 的客户端为了通过 BASIC 认证,需要将 用户 ID 及密码发送给服务器。发送的字符串内容是由用户 ID 和密码 构成,两者中间以冒号(:)连接后,再经过 Base64 编码处理。
假设用户 ID 为 guest,密码是 guest,连接起来就会形成 guest:guest 这 样的字符串。然后经过 Base64 编码,最后的结果即是 Z3Vlc3Q6Z3Vlc3Q=。把这串字符串写入首部字段 Authorization 后, 发送请求。
当用户代理为浏览器时,用户仅需输入用户 ID 和密码即可,之后, 浏览器会自动完成到 Base64 编码的转换工作。
步骤 3:
接收到包含首部字段 Authorization 请求的服务器,会对认证 信息的正确性进行验证。如验证通过,则返回一条包含 Request-URI 资源的响应。
BASIC 认证使用上不够便捷灵活,且达不到多数 Web 网站期望的安 全性等级,因此它并不常用。
8.3 DIGEST 认证
步骤 1: 请求需认证的资源时,服务器会随着状态码 401 Authorization Required,返 回带 WWW-Authenticate 首部字段的响应。 该字段内包含质问响应方式认证所需的临时质询码(随机数, nonce)。
首部字段 WWW-Authenticate 内必须包含 realm 和 nonce 这两个字段的 信息。客户端就是依靠向服务器回送这两个值进行认证的。
nonce 是一种每次随返回的 401 响应生成的任意随机字符串。该字符 串通常推荐由 Base64 编码的十六进制数的组成形式,但实际内容依 赖服务器的具体实现。
步骤 2: 接收到 401 状态码的客户端,返回的响应中包含 DIGEST 认 证必须的首部字段 Authorization 信息。
首部字段 Authorization 内必须包含 username、realm、nonce、uri 和 response 的字段信息。其中,realm 和 nonce 就是之前从服务器接收到 的响应中的字段。
username 是 realm 限定范围内可进行认证的用户名。
uri(digest-uri)即 Request-URI 的值,但考虑到经代理转发后 Request-URI 的值可能被修改,因此事先会复制一份副本保存在 uri 内。
response 也可叫做 Request-Digest,存放经过 MD5 运算后的密码字符 串,形成响应码。
响应中其他的实体请参见第 6 章的请求首部字段 Authorization。另 外,有关 Request-Digest 的计算规则较复杂,有兴趣的读者不妨深入 学习一下 RFC2617。
步骤 3: 接收到包含首部字段 Authorization 请求的服务器,会确认认 证信息的正确性。认证通过后则返回包含 Request-URI 资源的响应。
并且这时会在首部字段 Authentication-Info 写入一些认证成功的相关信 息。
DIGEST 认证提供了高于 BASIC 认证的安全等级,但是和 HTTPS 的 客户端认证相比仍旧很弱。DIGEST 认证提供防止密码被窃听的保护 机制,但并不存在防止用户伪装的保护机制。
DIGEST 认证和 BASIC 认证一样,使用上不那么便捷灵活,且仍达不 到多数 Web 网站对高度安全等级的追求标准。因此它的适用范围也 有所受限。
8.4 SSL 客户端认证
SSL 客户端认证是借由 HTTPS 的客户端证书完成认证的方式。凭借客户端证书认证,服务器可确认访问是否来自已登录的客户端。
8.4.1 SSL 客户端认证的认证步骤
为达到 SSL 客户端认证的目的,需要事先将客户端证书分发给客户端,且客户端必须安装此证书。
步骤 1: 接收到需要认证资源的请求,服务器会发送 Certificate
Request 报文,要求客户端提供客户端证书。
步骤 2: 用户选择将发送的客户端证书后,客户端会把客户端证书信
息以 Client Certificate 报文方式发送给服务器。
步骤 3: 服务器验证客户端证书验证通过后方可领取证书内客户端的公开密钥,然后开始 HTTPS 加密通信。
8.4.2 SSL 客户端认证采用双因素认证
在多数情况下,SSL 客户端认证不会仅依靠证书完成认证,一般会和 基于表单认证(稍后讲解)组合形成一种双因素认证(Two-factor authentication)来使用。所谓双因素认证就是指,认证过程中不仅需 要密码这一个因素,还需要申请认证者提供其他持有信息,从而作为 另一个因素,与其组合使用的认证方式。
第一个认证因素的 SSL 客户端证书用来认证客户端计算机, 另一个认证因素的密码则用来确定这是用户本人的行为。
通过双因素认证后,就可以确认是用户本人正在使用匹配正确的计算机访问服务器。
8.4.3 SSL 客户端认证必要的费用
使用 SSL 客户端认证需要用到客户端证书。而客户端证书需要支付一
定费用才能使用。
这里提到的费用是指,从认证机构购买客户端证书的费用,以及服务
器运营者为保证自己搭建的认证机构安全运营所产生的费用。
每个认证机构颁发客户端证书的费用不尽相同,平摊到一张证书上,
一年费用约几万至十几万日元。服务器运营者也可以自己搭建认证机
构,但要维持安全运行就会产生相应的费用。
8.5 基于表单认证
基于表单的认证方法并不是在 HTTP 协议中定义的。客户端会向服务 器上的 Web 应用程序发送登录信息(Credential),按登录信息的验 证结果认证。
8.5.1 认证多半为基于表单认证
由于使用上便利性及安全性问题
,HTTP 协议标准提供的 BASIC 认 证和 DIGEST 认证几乎不怎么使用。另外,SSL 客户端认证虽然具有 高度的安全等级,但因为导入及维持费用等问题,还尚未普及。
比如 SSH 和 FTP 协议,服务器与客户端之间的认证是合乎标准规范 的,并且满足了最基本的功能需求上的安全使用级别,因此这些协议 的认证可以拿来直接使用。但是对于 Web 网站的认证功能,能够满 足其安全使用级别的标准规范并不存在,所以只好使用由 Web 应用 程序各自实现基于表单的认证方式。
不具备共同标准规范的表单认证,在每个 Web 网站上都会有各不相 同的实现方式。如果是全面考虑过安全性能而实现的表单认证,那么 就能够具备高度的安全等级。但在表单认证的实现中存在问题的 Web 网站也是屡见不鲜。
8.5.2 Session 管理及 Cookie 应用
基于表单认证的标准规范尚未有定论,一般会使用 Cookie 来管理
Session(会话)。
基于表单认证本身是通过服务器端的 Web 应用,将客户端发送过来
的用户 ID 和密码与之前登录过的信息做匹配来进行认证的。
但鉴于 HTTP 是无状态协议,之前已认证成功的用户状态无法通过协 议层面保存下来。即,无法实现状态管理,因此即使当该用户下一次 继续访问,也无法区分他与其他的用户。于是我们会使用 Cookie 来 管理 Session,以弥补 HTTP 协议中不存在的状态管理功能。
步骤 1: 客户端把用户 ID 和密码等登录信息放入报文的实体部分, 通常是以 POST 方法把请求发送给服务器。而这时,会使用 HTTPS 通信来进行 HTML 表单画面的显示和用户输入数据的发送。
步骤 2: 服务器会发放用以识别用户的 Session ID。通过验证从客户 端发送过来的登录信息进行身份认证,然后把用户的认证状态与 Session ID 绑定后记录在服务器端。 向客户端返回响应时,会在首部字段 Set-Cookie 内写入 Session ID(如 PHPSESSID=028a8c...)。[你可以把 Session ID 想象成一种用以区分不同用户的等位号。]
然而,如果 Session ID 被第三方盗走,对方就可以伪装成你的身份进 行恶意操作了。因此必须防止 Session ID 被盗,或被猜出。为了做到 这点,Session ID 应使用难以推测的字符串,且服务器端也需要进行 有效期的管理,保证其安全性。
另外,为减轻跨站脚本攻击(XSS)造成的损失,建议事先在 Cookie 内加上 httponly 属性。
步骤 3: 客户端接收到从服务器端发来的 Session ID 后,会将其作为 Cookie 保存在本地。下次向服务器发送请求时,浏览器会自动发送 Cookie,所以 Session ID 也随之发送到服务器。服务器端可通过验证 接收到的 Session ID 识别用户和其认证状态。
另外,不仅基于表单认证的登录信息及认证过程都无标准化的方法,
服务器端应如何保存用户提交的密码等登录信息等也没有标准化。
通常,一种安全的保存方法是,先利用给密码加盐(salt)1 的方式增 加额外信息,再使用散列(hash)函数计算出散列值后保存。但是我 们也经常看到直接保存明文密码的做法,而这样的做法具有导致密码 泄露的风险。
第9章: 基于http的功能追加协议
为了提升http的性能
9.2》 消除http瓶颈的spdy
spdy 缩短了web加载时间的50%
9.2.1 》 http的瓶颈
QA ? : 当几百、几千万的用户发布内容 时,Web 网站为了保存这些新增内容,在很短的时间内就会发生大量 的内容更新。为了尽可能的实时显示更新,http没办法妥善处理好这项任务
http 的处理方式:使用 HTTP 协议探知服务器上是否有内容更新,就必须频繁地从客户 端到服务器端进行确认。如果服务器上没有内容更新,那么就会产生 徒劳的通信。
1》一条连接上只可发送一个请求
2》请求只能从客户端开始。 客户端不可以接收除响应意外的指令
3》请求/响应首部未经压缩就发送。首部信息越多延迟越大。
4》发送冗长的首部。每次互相发送相同的首部造成的浪费较多。
5》可任意选择数据压缩格式。非强制压缩发送。
Ajax 的解决方法:
1》Ajax(Asynchronous JavaScript and XML, 异 步 JavaScript 与 XML 技 术)是一种有效利用 JavaScript 和 DOM(Document Object Model,文 档对象模型)的操作,以达到局部 Web 页面替换加载的异步通信手 段。和以前的同步通信相比,由于它只更新一部分页面,响应中传输 的数据量会因此而减少,这一优点显而易见。
2》Ajax 的核心技术是名为 XMLHttpRequest 的 API,通过 JavaScript 脚本 语言的调用就能和服务器进行 HTTP 通信。借由这种手段,就能从已 加载完毕的 Web 页面上发起请求,只更新局部页面。
3》而利用 Ajax 实时地从服务器获取内容,有可能会导致大量请求产 生。另外,Ajax 仍未解决 HTTP 协议本身存在的问题。
Comet 的解决方法
一旦服务器端有内容更新了,Comet 不会让请求等待,而是直接给客 户端返回响应。这是一种通过延迟应答,模拟实现服务器端向客户端 推送(Server Push)的功能。
通常,服务器端接收到请求,在处理完毕后就会立即返回响应,但为 了实现推送功能,Comet 会先将响应置于挂起状态,当服务器端有内 容更新时,再返回该响应。因此,服务器端一旦有更新,就可以立即 反馈给客户端。
内容上虽然可以做到实时更新,但为了保留响应,一次连接的持续时 间也变长了。期间,为了维持连接会消耗更多的资源。另外,Comet 也仍未解决 HTTP 协议本身存在的问题。
SPDY的目标
陆续出现的 Ajax 和 Comet 等提高易用性的技术,一定程度上使 HTTP 得到了改善,但 HTTP 协议本身的限制也令人有些束手无策。为了进 行根本性的改善,需要有一些协议层面
上的改动。
处于持续开发状态中的 SPDY 协议,正是为了在协议级别消除 HTTP 所遭遇的瓶颈。
9.2.2> SPDY 的设计与功能
在应用层和传输层之间通过新加会话层的形式运作。同事考虑到安全性问题,SDPD规定通信使用SSL。
使用SPDY获得的额外功能:
1》多路复用流
通过单一的TCP连接,可以无限制处理多个http请求。所有请求的处理都在一条tcp连接上完成,tcp的处理效率提高。
2》赋予请求优先级
可以给逐个请求分配优先级。
3》压缩http首部
通信新产生的数据包数量和发送的字节变少了。
4》推送功能
支持服务器主动
向客户端推送数据的功能。 (g感觉和websocket一样)
5》服务器提示功能
服务器可以主动提示客户端请求所需的资源。由于在客户端发现资源之前就可以获知资源的存在,因此在资源已缓存等情况下,可以避免发送不必要的请求。
SPDY是否消除了web瓶颈?
SPDY 的确是一种可有效消除 HTTP 瓶颈的技术,
但是,因为 SPDY 基本上只是将单个域名( IP 地址)的通信多路复用,所 以当一个 Web 网站上使用多个域名下的源,改善效果就会受到限制。
9.3 使用浏览器进行全双工通信的websocket
利用 Ajax 和 Comet 技术进行通信可以提升 Web 的浏览速度。但问题 在于通信若使用 HTTP 协议,就无法彻底解决瓶颈问题。WebSocket 网络技术正是为解决这些问题而实现的一套新协议及 API。
websocket 主要为了解决Ajax 和Comet里的XMLHttpReqeust 附带的缺陷锁引起的问题。
9.3.2 WebSocket 协议
一旦 Web 服务器与客户端之间建立起 WebSocket 协议的通信连接, 之后所有的通信都依靠这个专用协议进行。通信过程中可互相发送 JSON、XML、HTML 或图片等任意格式的数据。
由于是建立在 HTTP 基础上的协议
,因此连接的发起方仍是客户端, 而一旦确立 WebSocket 通信连接,不论服务器还是客户端,任意一方 都可直接向对方发送报文。
9.4 期盼已久的 HTTP/2.0
9.5 Web 服务器管理文件的 WebDAV 【暂时先不管】
11、web的攻击技术 【暂时略】
还是需要深入理解websocket的内容
websocket的参考链接
https://www.imooc.com/video/15321
https://www.imooc.com/learn/882
https://www.imooc.com/learn/885
https://www.1024sou.com/article/9821.html
https://www.cnblogs.com/fuqiang88/p/5956363.html
https://segmentfault.com/a/1190000012948613
https://xie.infoq.cn/article/cf37aed6cb4410719f112d587
https 双向验证以及单向验证等内容的参考
https://juejin.cn/post/6953449442418622478
https://cloud.tencent.com/developer/article/1171381
https://www.dazhuanlan.com/odelette914304/topics/968038
iOS 对于https的单向验证以及双向验证
charles 抓包https的原理
https://zhuanlan.zhihu.com/p/67199487
https://www.jianshu.com/p/f6f6a21e17c0
charles能够抓包https的原因, 前提是: 客户端选择新人并安装Charles的CA证书。