化学分子sdf格式说明

Molfiles是包含单个化合物分子结构信息的文本文件。SDFs (structure data files)由一个至多个molfiles文件连接在一起组成,并含有关于化合物的其他信息。

如下为丙酮的molfile文件的内容:

化学分子sdf格式说明_第1张图片

下面为一个化合物的sdf文件信息: 

化学分子sdf格式说明_第2张图片

标题区(header block)

与molfile文件类似,sdf文件也包含一个三行的标题区。标题区内可能包含以下内容:

1.分子名字

2.生成分子结构的软件信息

3.注释

当然,标题区也可以为空行(除名字外)。

以上图为例,分子名称为"702",由"-OEChem-02271511112D"生成,注释为空。

数量行(counts line block)

该行由12个固定长度的字段组成,前11个字段长度均为3个字符,最后一个字段长度为6个字符。前两个字段最重要,给出了化合物中的原子数与键数:

该化合物有9个原子,8个键。H原子不被包含在内。

原子区(Atoms block)

数量行下面为原子区。

 前三个字段,长度均为10个字符,描述原子的X, Y, Z坐标,然后是长度为3个字符的元素符号字段(示例为氧O),随后为长度为2个字符的字段描述原子与同位素的质量差异(值介于-3到+4之间,除M··ISO性质外),随后为长度为3个字符的字段描述电荷(转换关系如下):

 随后还有其他长度均为3个字符的10个字段,很少用到(使用Progenesis SDF Studio或Progenesis MetaScope时可以为空)。

键区(Bonds block)

前两个字段为与键相关原子索引,第三个字段定义了键的类型,第四个字段为键的立体性质:

化学分子sdf格式说明_第3张图片

上述示例含义为:在原子1和原子2之间存在一个单键,无立体性质。

后面还有3个长度均为3字符的字段,很少用到,可以为空。

性质
电荷(Charge)

M··CHG后的第一个数字为电荷数(最大为8),如果化合物有更多的电荷数量,可以添加其他M··CHG行。每个电荷条目由两个长度为4个字符的字段组成,第一个为带电原子索引(从1开始),第二个为电荷数。示例含义为:添加一个电荷给第一个原子,电荷数为+2。

同位素(Isotope)

M··ISO后的第一个数字定义了改行的同位素数量(最大为8)。如果化合物有更多的同位素数量,可以添加其他M··ISO行。每个同位素条目由两个长度为4个字符的字段组成,第一个为带电原子索引(从1开始),第二个为原子实际质量数。示例含义为:第一个原子的原子质量为2。

 终止符(Terminator)

M··END属性不可缺少,必须位于其他性质之后。 

数据字段(Data fields)

自定义的化合物元数据可以放在此处。数据字段以含有>的标题开始,同一行放置数据字段名称,并放于<>内。标题行也可以包含其他文字(虽然通常略去)。

标题行后,数据字段可以包含长达200个字符的一行或多行作为该数据字段的值。

SDF分隔符(SDF separator)$$$$

位于每个记录(分子)的最后一行,只包含4个$。该分隔符在molfiles中并不需要。

 ref:

What is the correct format for compounds in SDF or MOL files? - Progenesis SDF Studio

2.5: Structural Data Files - Chemistry LibreTexts

https://www.herongyang.com/Molecule/SDF-Format-Specification.html

你可能感兴趣的:(化学信息学)