1. 什么是 quoted-printable 编码
2. 举例说明
3. 具体代码
4. 代码运行展示
5. 使用 quopri 库
6. 心得总结
quoted-printable 编码方法适用于所传送的数据中只有少量的非 ASCII 码,例如汉字。这种编码方法的要点就是对于可打印的 ASCII 码,除特殊字符等号 “=” 外,都不改变。等号 “=” 和不可打印的 ASCII 码以及非 ASCII 码的数据的编码方法是:现将每个字节的二进制代码用两个十六进制数字表示,然后在前面加上一个等号 “=”。
例如,汉字的 “系统” 的二进制编码是:1100111 10110101 11001101 10110011(共有 32 位,但这四个字节都不是 ASCII码),其十六进制数字表示为:CFB5CDB3。用 quoted-printable 编码表示为:=CF=B5=CD=B3,这 12 个字符都是可打印的 ASCII 字符,它们的二进制编码需要 96 位,和原来的 32 位相比,开销达 200%。
而等号 “=” 的二进制代码为 00111101,即十六进制的 3D,因此等号 “=” 的 quoted-printable 编码为 “=3D”。
相关内容,可参考:《计算机网络(第7版)》
试将数据 01001100 10011101 00111001 进行 quoted-printable 编码,并得出最后传送的 ASCII 数据。这样的数据用 quoted-printable 编码后其编码开销有多大?
(1)01001100 1001101 00111001 有 3 个字节,中间的一个高位为 1,因此它不是 ASCII 码,需要使用 quoted-printable 编码。第一个和第三个字节是 ASCII 码,不变化。
(2)10011101 的十六进制表示是:9D,前面再加上等号 “=”,变成 “=9D”。
(3)=,9,D 的 8 位 ASCII 码分别为:
00111101 00111001 01000100
因此最后的结果是 5 个字节的数据:
01001100 00111101 00111001 01000100 00111001
(4)编码开销 = 5 - 3 = 2 字节。原来只有 3 字节的数据。用百分数表示的编码开销 = 2 3 \frac{2}{3} 32 = 66.7%
class QuoPri():
def __init__(self, string):
self.string_orig_list = list(string)
ascii_string1 = ''.join([chr(i) for i in range(33, 61)])
ascii_string2 = ''.join([chr(i) for i in range(62, 127)])
self.ascii_string = ascii_string1 + ascii_string2
print("可打印的ascii码( '=' 和 ' ' 除外): {}".format(len(self.ascii_string)))
def encode(self):
string_encode_list =[]
for item in self.string_orig_list:
if item in self.ascii_string:
string_encode_list.append(item)
else:
item_encode = item.encode()
item_encode_list = list(item_encode)
for each in item_encode_list:
string_encode_list.append('=' + hex(each)[2: ].upper())
return ''.join(string_encode_list)
if __name__ == '__main__':
test_string = "哔哩哔哩 (゜-゜)つロ 干杯~-bilibili"
quopri = QuoPri(test_string)
result = quopri.encode()
print("original: {}".format(test_string))
print("encode: {}".format(result))
示例1:
test_string = "哔哩哔哩 (゜-゜)つロ 干杯~-bilibili"
可打印的ascii码( '=' 和 ' ' 除外): 93
original: 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
encode: =E5=93=94=E5=93=A9=E5=93=94=E5=93=A9=20(=E3=82=9C-=E3=82=9C)=E3=81=A4=E3=83=AD=20=E5=B9=B2=E6=9D=AF~-bilibili
示例2:
test_string = "Bilibili,哔哩哔哩,哔哩哔哩动画,哔哩哔哩弹幕网,弹幕视频,B站,弹幕,字幕,AMV,MAD,MTV,ANIME,动漫,动漫音乐,游戏,游戏解说,二次元,游戏视频,ACG,galgame,动画,番组,新番,初音,洛天依,vocaloid,日本动漫,国产动漫,手机游戏,网络游戏,电子竞技,ACG燃曲,ACG神曲,追新番,新番动漫,新番吐槽,巡音,镜音双子,千本樱,初音MIKU,舞蹈MMD,MIKUMIKUDANCE,洛天依原创曲,洛天依翻唱曲,洛天依投食歌,洛天依MMD,vocaloid家族,OST,BGM,动漫歌曲,日本动漫音乐,宫崎骏动漫音乐,动漫音乐推荐,燃系mad,治愈系mad,MAD MOVIE,MAD高燃"
可打印的ascii码( '=' 和 ' ' 除外): 93
original: Bilibili,哔哩哔哩,哔哩哔哩动画,哔哩哔哩弹幕网,弹幕视频,B站,弹幕,字幕,AMV,MAD,MTV,ANIME,动漫,动漫音乐,游戏,游戏解说,二次元,游戏视频,ACG,galgame,动画,番组,新番,初音,洛天依,vocaloid,日本动漫,国产动漫,手机游戏,网络游戏,电子竞技,ACG燃曲,ACG神曲,追新番,新番动漫,新番吐槽,巡音,镜音双子,千本樱,初音MIKU,舞蹈MMD,MIKUMIKUDANCE,洛天依原创曲,洛天依翻唱曲,洛天依投食歌,洛天依MMD,vocaloid家族,OST,BGM,动漫歌曲,日本动漫音乐,宫崎骏动漫音乐,动漫音乐推荐,燃系mad,治愈系mad,MAD MOVIE,MAD高燃
encode: Bilibili,=E5=93=94=E5=93=A9=E5=93=94=E5=93=A9,=E5=93=94=E5=93=A9=E5=93=94=E5=93=A9=E5=8A=A8=E7=94=BB,=E5=93=94=E5=93=A9=E5=93=94=E5=93=A9=E5=BC=B9=E5=B9=95=E7=BD=91,=E5=BC=B9=E5=B9=95=E8=A7=86=E9=A2=91,B=E7=AB=99,=E5=BC=B9=E5=B9=95,=E5=AD=97=E5=B9=95,AMV,MAD,MTV,ANIME,=E5=8A=A8=E6=BC=AB,=E5=8A=A8=E6=BC=AB=E9=9F=B3=E4=B9=90,=E6=B8=B8=E6=88=8F,=E6=B8=B8=E6=88=8F=E8=A7=A3=E8=AF=B4,=E4=BA=8C=E6=AC=A1=E5=85=83,=E6=B8=B8=E6=88=8F=E8=A7=86=E9=A2=91,ACG,galgame,=E5=8A=A8=E7=94=BB,=E7=95=AA=E7=BB=84,=E6=96=B0=E7=95=AA,=E5=88=9D=E9=9F=B3,=E6=B4=9B=E5=A4=A9=E4=BE=9D,vocaloid,=E6=97=A5=E6=9C=AC=E5=8A=A8=E6=BC=AB,=E5=9B=BD=E4=BA=A7=E5=8A=A8=E6=BC=AB,=E6=89=8B=E6=9C=BA=E6=B8=B8=E6=88=8F,=E7=BD=91=E7=BB=9C=E6=B8=B8=E6=88=8F,=E7=94=B5=E5=AD=90=E7=AB=9E=E6=8A=80,ACG=E7=87=83=E6=9B=B2,ACG=E7=A5=9E=E6=9B=B2,=E8=BF=BD=E6=96=B0=E7=95=AA,=E6=96=B0=E7=95=AA=E5=8A=A8=E6=BC=AB,=E6=96=B0=E7=95=AA=E5=90=90=E6=A7=BD,=E5=B7=A1=E9=9F=B3,=E9=95=9C=E9=9F=B3=E5=8F=8C=E5=AD=90,=E5=8D=83=E6=9C=AC=E6=A8=B1,=E5=88=9D=E9=9F=B3MIKU,=E8=88=9E=E8=B9=88MMD,MIKUMIKUDANCE,=E6=B4=9B=E5=A4=A9=E4=BE=9D=E5=8E=9F=E5=88=9B=E6=9B=B2,=E6=B4=9B=E5=A4=A9=E4=BE=9D=E7=BF=BB=E5=94=B1=E6=9B=B2,=E6=B4=9B=E5=A4=A9=E4=BE=9D=E6=8A=95=E9=A3=9F=E6=AD=8C,=E6=B4=9B=E5=A4=A9=E4=BE=9DMMD,vocaloid=E5=AE=B6=E6=97=8F,OST,BGM,=E5=8A=A8=E6=BC=AB=E6=AD=8C=E6=9B=B2,=E6=97=A5=E6=9C=AC=E5=8A=A8=E6=BC=AB=E9=9F=B3=E4=B9=90,=E5=AE=AB=E5=B4=8E=E9=AA=8F=E5=8A=A8=E6=BC=AB=E9=9F=B3=E4=B9=90,=E5=8A=A8=E6=BC=AB=E9=9F=B3=E4=B9=90=E6=8E=A8=E8=8D=90,=E7=87=83=E7=B3=BBmad,=E6=B2=BB=E6=84=88=E7=B3=BBmad,MAD=20MOVIE,MAD=E9=AB=98=E7=87=83
代码:
import quopri
a = "哔哩哔哩 (゜-゜)つロ 干杯~-bilibili"
b = quopri.encodestring(a.encode())
c = quopri.decodestring(b)
print("raw: {}".format(a))
print("encode: {}".format(b))
print("decode: {}".format(c.decode()))
结果:
raw: 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
encode: b'=E5=93=94=E5=93=A9=E5=93=94=E5=93=A9 (=E3=82=9C-=E3=82=9C)=E3=81=A4=E3=83=\n=AD =E5=B9=B2=E6=9D=AF~-bilibili'
decode: 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
简单地用 Python 实现了 quoted-printable 编码,并发现了用 quopri 库可以轻松实现其编码。人生苦短,我用 Python !
Fin.