python电子邮件系列(一)之MIME及电子邮件基本结构

MIME及电子邮件基本结构

MIME

MIME(Multiplepurpose Internet Mail Extensions),中译为“多用途互联网邮件扩展”,顾名思义,这是对传统互联网邮件的扩展,现已称为实际的互联网邮件标准。

指的是一系列电子邮件的技术规范,主要包括:RFC 2045、RFC 2047、RFC 4288、RFC 4289、RFC 2077

传统的电子邮件是1982年定下的,即:RFC 822

它有一个重要的特点就是电子邮件只能使用ASCII字符。这导致了三个结果:1)非ASCII字符如中文非英语字符都不能出现在邮件中。2)电子邮件中不能插入二进制文件(如图片)3)电子邮件不能有附件

这实际上是无法接受的,因此到了1992年,工程师决定扩展电子邮件的技术规范,提出一系列补充规范,这就是MIME的由来。

电子邮件基本结构

下面是一封传统的电子邮件:

From: "Tommy Lee" 
To: "Jack Zhang" 
Subject: Test
Date: Wed, 17 May 2000 19:08:29 -0400
Message-ID: 

Hello World.

从上面可以看出发件人的姓名,地址,收件人的姓名,地址,邮件主题,发信日期。

结构上,这封信分为三个部分:首先是信件头,然后是一个空行,最后是新建内容。收件人的客户端只会显示最后一部分,要查看全信,必须“查看原始邮件”功能。

MIME对传统邮件的扩展主要便现在它在信头部分添加了几条语句,主要有三条:

MIME-Version: 1.0

这条语句是必须的,而且这个1.0是不变的,即使MIME已经升级了好几个版本

Content-Type: text/html; charset="UTF-8"

Content-Type表明信息类型,缺省值为“Text/plain”。它包含了主要类型/次要类型(maintype/subtype),主要类型有九中,分别是application、audio、example、image、message、model、multiple、text、video。

每一种主要类型下面又有许多次要类型,常见的有:

text/plain:纯文本,文件扩展名为.txt
text/html:HTML文本,文件扩展名为.html和.htm
image/jpeg:jpeg格式的图片,文件扩展名.jpg
image/gif:GIF格式的图片,文件扩展名为.gif
audio/x-wave:WAVE格式的文件,文件扩展名为.wav
audio/mpeg:MP3格式的音频,文件扩展名.mp3
video/mpeg:MPEG格式的视频,文件扩展名.mpg
application/zip:PK-ZIP格式的压缩文件,文件扩展名.zip

如果信息类型是Text/plain,那么还必须指明编码类型“charset”,缺省值是ASCII,其他可能值有ISO-8859-1UTF-8GB2312等等

整个Content-Type这一行,不仅使用在电子邮件,后来也被移植到了HTTP协议中,所以现在只要是在网上传播的HTTP信息,都带有Content-Type头,以表明信息类型

前面已经说过,电子邮件的传统格式不支持非ASCII字符和二进制,因此MIME添加了第三条语句:

Content-transfer-encoding: base64

为了使非ASCII字符转化为ASCII,这条语句指明了编码转化的方式,正常我们将中文等字符按照utf-8gbk等编码方式编码为二进制后,因为是非ASCII字符,所以需要再将这些非ASCII字符的二进制转化为ASCII字符的二进制,base64就可以起到这样的作用。在之前的有一篇博客详细介绍过此种编码转化。

Content-transfer-encoding的值有5种----7bit8bitbinaryquoted-printablebase64----其中7bit是缺省值,即不用转化的ASCII字符。

base64之外,常用的就是quoted-printable,它主要用于ACSII文本中夹杂少量非ASCII码字符的情况,不适合于转换纯二进制文件。

以下是一封邮件的源码:

Date: Wed, 18 Jun 2008 18:07:51 +0800 (CST)
From: xxx 
To: [email protected]
Message-ID: <14410503.1073611213783671983.JavaMail.coremail@bj163app54.163.com>
Subject: =?gbk?B?xOO6ww==?=
MIME-Version: 1.0
Content-Type: multipart/alternative; 
boundary="----=_Part_287491_22998031.1213783671982"

------=_Part_287491_22998031.1213783671982
Content-Type: text/plain; charset=gbk
Content-Transfer-Encoding: base64

IAq4+b7dsr+209PQudi55raoo6yyu7XD1Nq12Le9yM66zs341b7Jz7nSz+DTprXEtqvO96Osx+vE
49TaxOO1xLKpv83W0AogIArW0Ln6yr2x6tPvIC0gyO7Su7fltcTN+MLnyNXWvgoKtcS12jEy1cXN
vMasyb6z/aOst/HU8s7Sw8fXt76/xOO1xM/gudjU8MjOoaPQu9C7us/X96OhtMvNvMas1Nq4vbz+
wO/D5g==
------=_Part_287491_22998031.1213783671982
Content-Type: text/html; charset=gbk
Content-Transfer-Encoding: quoted-printable

&nbsp;
=B8=F9=BE=DD=B2=BF=B6=D3=D3=D0=B9=D8=B9=E6=B6=A8=A3=AC=B2=BB=B5=C3=D4= =DA=B5=D8=B7=BD=C8=CE=BA=CE=CD=F8=D5=BE=C9=CF=B9=D2=CF=E0=D3=A6=B5=C4=B6=AB= =CE=F7=A3=AC=C7=EB=C4=E3=D4=DA=C4=E3=B5=C4=B2=A9=BF=CD=D6=D0
&nbsp; ......

其中的MIME语句是:

MIME-Version: 1.0
Content-Type: multipart/alternative; 
boundary="----=_Part_287491_22998031.1213783671982"

Content-Type: multipart/alternative表明这封信的内容是纯文本与HTML文本的混合。该项还有其他两个可能的值,分别是“multiple/mixed”,“multiple/related”,前者表示信件内容含有二进制内容(比如文中插入图片),后者表示含有附件。

boundary="----=_Part_287491_22998031.1213783671982" boundary后的内容----=_Part_287491_22998031.1213783671982是信件不同部分的分割线,它通常是一个很长的随机字符串。

信件内容又有两个子信件头:

Content-Type: text/plain; charset=gbk
Content-Transfer-Encoding: base64
Content-Type: text/html; charset=gbk
Content-Transfer-Encoding: quoted-printable

表明信件的第一部分是gbk编码的纯文本,其编码转换方式是:base64

第二部分是gbk编码的HTML文本,其编码转换方式是:quoted-printable

邮件里所有的内容都要经过编码为二进制,再将二进制通过base64QP编码为ASCII字符在网络上传输。

你可能感兴趣的:(python电子邮件系列(一)之MIME及电子邮件基本结构)