早期很多公司刚起步的时候,使用的应用层协议都是HTTP,而HTTP无论是用GET方法还是POST方法传输,都是明文传输的,因此早期很多的信息都是可以通过抓包工具抓到的。
为了解决数据安全这个问题,于是出现了HTTPS协议,HTTPS实际就是在应用层和传输层协议之间加了一层加密层(SSL&TLS),这层加密层本身也是属于应用层的,它会对用户的个人信息进行各种程度的加密。HTTPS在交付数据时先把数据交给加密层,由加密层对数据加密后再交给传输层。
当然,通信双方使用的应用层协议必须是一样的,因此对端的应用层也必须使用HTTPS,当对端的传输层收到数据后,会先将数据交给加密层,由加密层对数据进行解密后再将数据交给应用层。
对称加密
例如下面的加密过程,我们将服务器端对数据10进行异或7进行加密形成X,客户端再对数据进行异或7进行解密拿到数据10,这样的过程就是简单的对称加密和解密。
采用单钥密码系统的加密方法,同一个密钥可以同时用作信息的加密和解密,这种加密方法称为对称加密,也称为单密钥加密,特征:加密和解密所用的密钥是相同的。
常见对称加密算法(了解):DES、3DES、AES、TDEA、Blowfish、RC2等
特点:算法公开、计算量小、加密速度快、加密效率高。
对称加密其实就是通过同一个 “密钥” , 把明文加密成密文, 并且也能把密文解密成明文。
非对称加密
需要两个密钥来进行加密和解密,这两个密钥是公开密钥(public key
,简称公钥)和私有密钥(private key
,简称私钥),非对称加密的数学原理比较复杂, 涉及到一些数论相关的知识。
常见非对称加密算法(了解):RSA,DSA,ECDSA
特点:算法强度复杂、安全性依赖于算法与密钥。但是由于其算法复杂,而使得加密解密速度远远低于对称加密解密的速度。
非对称加密有两种使用方式:
注意:公钥加密,不能公钥解密,私钥加密,不能私钥解密。
这里以 MD5 为例, 我们不需要研究具体的计算签名的过程, 只需要了解 MD5 的特点:
- 定长: 无论多长的字符串, 计算出来的 MD5 值都是固定长度 (16字节版本或者32字节版本)
- 分散: 源字符串只要改变一点点,最终得到的 MD5 值都会差别很大。
- 不可逆: 通过源字符串生成 MD5 很容易, 但是通过 MD5 还原成原串理论上是不可能的。
正因为 MD5 有这样的特性, 我们可以认为如果两个字符串的 MD5 值相同, 则认为这两个字符串相同.
例如网盘中的一个应用场景:
当用户上传数据的时候有时候很快,能够达到"秒传"的效果,其大致原理就是:因为在服务器端网盘中存在大量的文件,服务器端对这些文件进行提取其数字摘要,当你上传一个文件时,先在你本地客户端对文件提取其摘要,然后将此摘要与服务器端的摘要进行一 一对比,如果服务器端存在相同的数据摘要,那么就不需要用户上传了此文件了,直接在服务器后台设置一个软链接指向服务器中已经存在的文件就行了,这样服务器中也不必保存多份相同的文件了,提高了效率的同时,也节省了服务器的存储资源。
对数据摘要经过加密,就得到数字签名。
既然要保证数据安全, 就需要进行 “加密”,网络传输中不再直接传输明文了, 而是加密之后的 “密文”,加密的方式有很多, 但是整体可以分成两大类: 对称加密和非对称加密。
下面我们来讨论使用怎样的方案能够保证数据传输过程中数据的安全性。
如果通信双方都各自持有同一个密钥X,且没有别人知道,这两方的通信安全当然是可以被保证的(除非密钥被破解),但是实际在使用时会存在下面的问题:
怎么保证第一次明文通信时的安全性呢?
例如:第一次当客户端向服务器端发起请求时告诉服务端,我们以后通信采用密钥X进行加密,但是第一次的通信数据是明文的,所以黑客是能够获取这个密钥的,所以以后双方的通信的安全性是没有办法保证的。
当然我们可以在客户端里面内置密钥来保证第一次明文通信时的安全性,但是如果是这样的话,每个客户端用的秘钥都必须是不同的(如果是相同那密钥就太容易扩散了,而且被破解后危害巨大)。
因此服务器就需要维护每个客户端和每个密钥之间的关联关系,这是个很麻烦的事情,而且对于流量巨大的APP来说维护成本很大。
所以对称加密并不能很好的解决数据安全问题。
服务端拥有公钥S与对应的私钥S’。
鉴于非对称加密的机制:
服务端拥有公钥S与对应的私钥S’,客户端拥有公钥X与对应的私钥X’。
刚开始通信时,客户端和服务端先交换公钥,确保双方能够拿到加密钥匙。
客户端给服务端发信息:先用公钥S对数据加密再发送,由于黑客没有私钥S’无法解密,因为只有服务器有私钥S’所以只能由服务器解密。
服务端给客户端发信息:先用公钥X对数据加密再发送,由于黑客没有私钥X’无法解密,因为只有客户端有私钥X’所以只能由客户端解密。
所以从客户端到服务器信道,和从服务器到客户端信道似乎都是安全的(有安全问题)
这样的解决方案貌似解决了我们通信过程中的数据安全问题,但是其又带来了新的问题,由于非对称加密的特点是加密速度慢,而通信双方均采用非对称加密,这就会导致通信的效率下降的问题。
服务端具有非对称公钥S和私钥S’,客户端拥有对称密钥C。
https
请求,获取服务端公钥S(这个过程中黑客是可以拿到公钥S的!)。由于对称加密的效率比非对称加密高很多, 因此只是在开始阶段协商密钥的时候使用非对称加密, 后续的传输仍然使用对称加密,这样就提高了通信效率。
虽然上面的方案4已经比较接近与正确答案了,但是依旧有安全问题,假设中间人的攻击,如果在最开始通信双方握手协商之前的时候就进行攻击了,那就不一定能够保证数据的安全性了。
假设下面的场景:
小明正在逛商场,但是由于自己没有了流量,于是打开WIFI看到了一个没有密码的WIFI,于是小明高兴的连接上此WIFI进行上网,那么如果此WIFI是黑客部署的WIFI,那么黑客就已经成功成为了中间人,黑客可以在此网络设备中安装一些抓包工具,来获得你要传输的信息,因为你连接的是黑客的网络设备,所以你的的通信必定会经过黑客的网络设备,服务器对你的响应也必须经过此WIFI。
假设hacker已经成功成为中间人。
服务器具有非对称加密算法的公钥S,私钥S’,客户端具有对称密钥C,hacker拥有公钥M和私钥M’。
上面的攻击方案,同样适用于方案2,方案3。
问题本质出在哪里了呢?
本质:客户端无法确定收到的公钥,就是目标服务器发送过来的!即:Client无法验证公钥的合法性!
为了解决上面的问题,出现了一个机构叫做CA机构。
服务端在使用HTTPS前,需要向CA机构申领一份数字证书,数字证书里含有证书申请者信息、公钥信息等。浏览器和服务器通信时,服务器先把证书传输给浏览器,浏览器从证书里获取公钥就行了,证书就如身份证,证明服务端公钥的权威性。
这个证书可以理解成是一个结构化的字符串, 主要包含两部分:
例如下面我们在Edge浏览器中的设置界面进行搜索,打开管理证书:
我们看到,我们有一个百度的证书:我们点击查看:
我们可以看到一些基本情况,我们还可以点击详细信息:
或者我们可以直接在地址栏中点击小锁进行查看:
申请证书的时候,需要在特定平台生成CSR文件,在生成的同时会生成一对儿密钥对儿,即公钥和私钥。这对密钥对儿就是用来在网络通信中进行加密和解密的。
这是一个在线生成CSR和私钥的网站
其中公钥会随着CSR文件,一起发给CA进行权威认证,私钥服务端自己保留,用来后续进行通信(其实主要就是用来交换对称秘钥)
形成CSR之后,后续就是向CA进行申请认证,不过一般认证过程很繁琐(有的还有上门寻访),网络上有各种提供代理证书申请的服务商,一般真的需要,直接找平台解决就行。
当服务器端申请CA证书的时候,CA机构会对该服务器端进行审核,并专门为该网站形成数字签名,过程如下:
hash
,形成数据摘要因为CA是权威机构,为了保证合法性,一般OS和浏览器内部,在出厂下载的时候,就已经内置了CA的公钥。
在客户端和服务器刚一建立连接的时候, 服务器给客户端返回一个证书,证书包含了服务端的公钥, 也包含了网站的身份信息。
当客户端获取到这个证书之后, 会对证书进行校验(防止证书是伪造的)。
接下来我们继续讨论上面的中间人攻击的场景:
https
请求,获取服务端证书(这个过程中黑客是可以拿到证书的!)。同理也会失败,因为浏览器只会使用CA的公钥进行对签名解密,这会导致解密失败,进而影响散列值的对比。
首先因为hacker没有CA私钥,所以无法制作假的数字签名,进而就无法伪造CA证书,所以hacker只能向CA申请真证书,然后用自己申请的证书进行掉包
这个确实能做到证书的整体掉包,但是别忘记,证书明文中包含了域名等服务端认证信息,如果整体掉包,客户端依旧能够识别出来。(这种做法非常愚蠢,因为证书是实名制的,可以根据证书找到其本人)。
1. 为什么摘要内容在网络传输的时候一定要加密形成签名?
因为如果不进行加密形成签名,黑客就可以修改证书中的公钥,并将修改后的数据重新进行哈希形成新的摘要,然后伪造一个证书,这样就会出现数据安全的问题。
2.为什么签名不直接加密,而是要先hash形成摘要?
HTTPS 工作过程完整流程:(左侧是客⼾端,右侧是服务器)
HTTPS 工作过程中涉及到的密钥有三组
第一组(非对称加密): 用于校验证书是否被篡改. 服务器持有私钥(私钥在形成CSR文件与申请证书时获得), 客户端持有公钥(操作系统包含了可信任的 CA 认证机构有哪些, 同时持有对应的公钥). 服务器在客户端请求时,返回携带签名的证书. 客户端通过CA的公钥进行证书验证, 保证证书的合法性,进一步保证证书中携带的服务端公钥权威性。
第二组(非对称加密): 用于协商生成对称加密的密钥,客户端用收到的CA证书中的公钥(是可被信任的)给随机生成的对称加密的密钥加密, 传输给服务器, 服务器通过私钥解密获取到对称加密密钥。
第三组(对称加密): 客户端和服务器后续传输的数据都通过这个对称密钥加密解密。
其实一切的关键都是围绕这个对称加密的密钥,其他的机制都是辅助这个密钥工作的,第二组非对称加密的密钥是为了让客户端把这个对称密钥传给服务器,第一组非对称加密的密钥是为了确保让客户端拿到第二组非对称加密的公钥。