爬虫中遇到的几种密码学问题及python实现

1、ASCII编码

ASCII编码虽然不是加密,但是是后边的基础。因此先铺垫一下。

ASCII编码是基于拉丁字母表的一套计算机编码系统,主要用来表示英语和其他西欧语言,约定了字符与二进制之间的映射关系。用8为二进制数来表示单个字符。如小写字母a,其ASCII码为97,其对应的二进制数位01100001。

ASCII码默认使用7为二进制数来表示所有的大写字母、小写字母、数字(0-9)、标点符号和特殊的控制符。8位中的最高位始终为0。据说是因为8是2的三次,所以选用8位而不是7位来表示。

2 、Base64

Base64的出现是为了解决不可打印的字符(如非英文字符)在网络传输过程中造成的乱码现象。于是用64个可打印的字符来表示8位二进制数据。

将字符进行base64编码,首先将字符转化成对用的ASCII码,然后得出对应的8位二进制数,接着连接3个8位输入,形成字节数为24的输入组,再将24位输入组拆分成4组6位的二进制数,将6位的二进制数转化为10进制数,最后找到十进制数在Base64编码中对应的字符,并将这些字符组合成新的字符串,则这个字符串就是Base64编码后的结果。如果字符串位数少于24位,则在编码结果的末尾用‘=’符号填充。

爬虫中遇到的几种密码学问题及python实现_第1张图片

Base64的python实现:

爬虫中遇到的几种密码学问题及python实现_第2张图片

3、MD5消息摘要算法

将任意长度的消息转换成128位的消息摘要,与Base64不同的是,MD5具有不可逆性,意味着我们可以将字符串转为MD5值,但无法将MD5值转化成字符串。

Python实现:

爬虫中遇到的几种密码学问题及python实现_第3张图片

4、sha1加密

SHA-1是一种数据加密算法,该算法的思想是接收一段明文,然后以一种不可逆的方式将它转换成一段(通常更小)密文,也可以简单的理解为取一串输入码(称为预映射或信息),并把它们转化为长度较短、位数固定的输出序列即散列值(也称为信息摘要或信息认证代码)的过程。

其Python实现:

爬虫中遇到的几种密码学问题及python实现_第4张图片

以上就是目前我爬虫时遇到的加密方式以及Python的简单实现。以后遇到新的继续回来记录。

你可能感兴趣的:(爬虫)