SMILES:化学结构的线性表示方法

文章目录

  • 规范化
  • 规定
    • 原子
    • 支链
    • 环状结构
    • 分离的结构
  • Isomeric SMILES
    • 同位素规定
    • 双键构型
    • 四面体中心周围的构型
    • 通用手性规定
  • SMILES惯例
    • 芳香性
    • 芳香氮化合物
    • 键合规则
    • 互变异构体
  • 针对反应的扩展
            • 语法
            • 例如
    • reaction atom maps

SMILES是一种表征分子和反应的记法。比如

SMILES Name SMILES Name
CC ethane [OH3+] hydronium ion
O=C=O carbon dioxide [2H]O[2H] deuterium oxide
C#N hydrogen cyanide [235U] uranium-235
CCN(CC)CC triethylamine F/C=C/F E-difluoroethene
CC(=O)O acetic acid F/C=C\F Z-difluoroethene
C1CCCCC1 cyclohexane N[C@@H]©C(=O)O L-alanine
c1ccccc1 benzene N[C@H]©C(=O)O D-alanine
Reaction SMILES Name
[I-].[Na+].C=CCBr>>[Na+].[Br-].C=CCI displacement reaction
(C(=O)O).(OCC)>>(C(=O)OCC).(O) intermolecular esterification

[]表示一个整体,// /\ 表示烯烃的EZ异构,# 表示三键,表征核素在符号前面加数字,如[235U]。

SMILES的记法比connection table 更为简洁轻量,而且connection table的记法是唯一的,可以与分子结构建立一一对应。

SMILES:化学结构的线性表示方法_第1张图片

规范化

SMILES把分子结构表示为图,可以表示出手性和同位素。

没有手性和同位素的称为generic SMILES,这样可能会出现很多可能的记法,用规范化算法,可把这些统一成unique SMILES。

有手性和同位素的成为isomeric SMILES。

Input SMILES Unique SMILES
OCC CCO
[CH3][CH2][OH] CCO
C-C-O CCO
C(O)C CCO
OC(=O)C(Br)(Cl)N NC(Cl)(Br)C(=O)O
ClC(Br)(N)C(=O)O NC(Cl)(Br)C(=O)O
O=C(O)C(N)(Br)Cl NC(Cl)(Br)C(=O)O

规定

SMILES记法不能有空格,氢原子可以省略(hydrogen-suppressed graph)或保留(hydrogen-complete graph)。

下面叙述五条通用规定。

原子

所有原子(氢原子除外)独立地用方括号括起来,括号里面是元素符号,符号是两个字母的,第二个小写。有机子集(B, C, N, O, P, S, F, Cl, Br, and I)里面的元素,如果满足加上氢原子后满足价键规则(如C4 O2 卤1),那么[] 可以省略。

SMILES 英文名 全称
C methane (CH4)
P phosphine (PH3)
N ammonia (NH3)
S hydrogen sulfide (H2S)
O water (H2O)
Cl hydrochloric acid (HCl)

不在有机子集里的元素以及加上氢后不满足价键规则的,就需要[] 了。

SMILES 英文名
[S] elemental sulfur
[Au] elemental gold

[] 里面必须注明所有的H元素和电荷量

SMILES 英文名
[H+] proton
[Fe+2] iron (II) cation
[OH-] hydroxyl anion
[Fe++] iron (II) cation
[OH3+] hydronium cation
[NH4+] ammonium cation

注意:[Fe++][Fe+2] 是同义的,电荷的“量”和氢原子的数目都标在电荷(+/-)和氢原子的后面。

单键、双键、三键、芳香键分别表征为-=#:,相邻的原子默认是用单键或芳香键连接,单键和芳香键总是可以省略。

SMILES 英文名 全称
CC ethane (CH3CH3)
C=O formaldehyde (CH2O)
C=C ethene (CH2=CH2)
O=C=O carbon dioxide (CO2)
COC dimethyl ether (CH3OCH3)
C#N hydrogen cyanide (HCN)
CCO ethanol (CH3CH2OH)
[H][H] molecular hydrogen (H2)

对于线性结构,SMILES与图解的记法是一样的,下面三种都是合法的6-hydroxy-1,4-hexadiene的记法。

Structure Valid SMILES
C=CCC=CCO
CH2=CH-CH2-CH=CH-CH2-OH C=C-C-C=C-C-O
OCC=CCC=C

支链

支链用括号包裹,与有机化学里的命名类似。

SMILES:化学结构的线性表示方法_第2张图片

环状结构

开环,然后在断键的两个原子后面分别加一个数字来标记,然后按照上文的方法来记录。

下面(a)和(b)对1-甲基-3-溴-1-环己烯的记法都是合法的。

SMILES:化学结构的线性表示方法_第3张图片

如果某个原子在多于一个环里面,需要多次开环和标记原子(构造连通图的生成树)。

SMILES:化学结构的线性表示方法_第4张图片

立方烷的generic SMILES:C12C3C4C1C5C4C3C25

断键原子的数字标记在不引起歧义时可重复使用。

SMILES:化学结构的线性表示方法_第5张图片

对于超过一位的数字,需用% 分隔,如:C2%13%24

分离的结构

. 来分隔不相连的结构。对离子或配体的排列顺序没有要求,甚至可以嵌入到同一个圆括号里面。

这段有点没看懂,C1.C1CC 一样,是因为C 后面还跟了一个digit 1 吗?如果是C.C 是不是就不一样了?

SMILES:化学结构的线性表示方法_第6张图片

Isomeric SMILES

用来表征同位素、双键的几何异构和手性。isomeric SMILES可以表示部分手性(partial chirality)。

同位素规定

在原子前面加上整数的原子质量,用 [] 包裹。

SMILES Name
[12C] carbon-12
[13C] carbon-13
[C] carbon (unspecified mass)
[13CH4] C-13 methane

双键构型

用方向键 /\ 来表示双键的E/Z结构。
SMILES:化学结构的线性表示方法_第7张图片

| ------------------------------------------------------------ | ------------------------------------------------------------ |
| F/C=C/F | F/C=C\F |
| F\C=C\F | F\C=C/F |

部分手性的例子

img [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eaXLvxaj-1656391334538)(https://www.daylight.com/dayhtml/doc/theory/theory12.gif)]
F/C=C/C=C/C F/C=C/C=CC
(completely specified) (partially specified)

四面体中心周围的构型

SMILES不是用有机里面的RS判别法来标记手性的,他看的是局部的手性。比如右边的分子,从N原子往C原子看,C -> F -> COOH 这个方向是逆时针的,用 @ 标记;F -> C -> COOH 这个方向是顺时针的,用 @@ 标记。

img [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EsG4MD2C-1656391334539)(https://www.daylight.com/dayhtml/doc/theory/theory14.gif)]
NC©(F)C(=O)O N[C@]©(F)C(=O)O
NC(F)©C(=O)O N[C@@](F)©C(=O)O
(unspecified chirality) (specified chirality)

如果C原子在SMILES中是第一个原子且有一个隐藏的H原子,那么H作为投影式的第一个(顺逆时针旋转的起始)原子;否则,如果中心C原子在SMILES中是第一个(是不是第一个没有看明白),那么就朝着H看投影四面体。H原子总是应该显式地用中括号包裹起来:[H]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IFLsWl2l-1656391334539)(https://www.daylight.com/dayhtml/doc/theory/theory15.gif)] [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WM1hQgka-1656391334539)(https://www.daylight.com/dayhtml/doc/theory/theory16.gif)]
N[C@@]([H])©C(=O)O N[C@]([H])©C(=O)O
N[C@@H]©C(=O)O N[C@H]©C(=O)O
N[C@H](C(=O)O)C N[C@@H](C(=O)O)C
[H][C@](N)©C(=O)O [H][C@@](N)©C(=O)O
[C@H](N)©C(=O)O [C@@H](N)©C(=O)O

下面这个也没看懂

The chiral order of the ring closure bond is implied by the lexical order that the ring closure digit appears on the chiral atom (not in the lexical order of the “substituent” atom).

SMILES:化学结构的线性表示方法_第8张图片
C[C@H]1CCCCO1
or
O1CCCC[C@@H]1C

通用手性规定

有很多手性的情况,四面体只是其中一种。每个度(指手性原子的连接键数目)都有默认的手性类,4连接原子默认的手性类是四面体(TH)。

缩略1 缩略2 全称
@ @1 @TH1
@@ @2 @TH2
@@@ @3 @TH3

SMILES对下列手性类进行了规定

  • 四面体(TH),4连接
  • 平面正方形(SP),4连接
  • 三角双锥(TB),5连接
  • 八面体(OH),6连接

SMILES惯例

氢原子通常不写。具体而言,其存在可以用下面三种方式表示:

  1. 隐式地,没有 [],遵从价键规则的假定。
  2. 显式地,包裹在 [] ,提供氢原子的计数,不提供则表示无氢原子。
  3. 显式地,[H],可能是指单个氢原子不用标注 1

SMILES中对于有机和无机没有严格界限,丙烷可以是 CCC,也可以是 [CH3][CH3][CH3]

四种情况下氢必须显式标出:

  1. 带电荷,如质子[H+]

  2. 氢连到另一个氢,如氢分子 [H][H]

  3. 氢连的原子多于一个,如氢桥键(B2H6)。

  4. 氢的同位素,如重水 [2H]O[2H]

芳香性

可以用芳环表示(小写c),也可以用脂环(凯库勒式)表示(大写C ,单双键交替)。

SMILES算法使用休克尔规则的扩展版本来识别芳香分子、离子。如果输入的是有芳香性的脂环 C1=CC=CC=C1 , SMILES会自动转化为芳环 c1ccccc1。如果是反芳香性,比如输入芳环形式c1cccccc1 (环辛四烯),SMILES会自动转化为脂环 C1=CC=CC=CC=C1,以及环丁二烯。

SMILES:化学结构的线性表示方法_第9张图片

芳香氮化合物

img [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oiQpK6YO-1656391334541)(https://www.daylight.com/dayhtml/doc/theory/theory24.gif)] img
n1ccccc1 O=n1ccccc1 [O-][n+]1ccccc1 Cn1cccc1 [nH]1cccc1
Pyridine Pyridine-N-oxide Methyl and 1H-pyrrole

键合规则

键可以连接,也可以异裂后使两端原子带电荷。如硝基甲烷可以写作 CN(=O)=O ,也可以写作 C[N+](=O)[O-]。但是如果对称性没有要求的话,最好还是满足价键规则,比如重氮甲烷最好写成 C=[N+]=[N-],而不是 C=[N]=[N] (这边N用 [] 包裹表示没有氢原子)。

互变异构体

SMILES里面没有“互变异构键”、“移动氢”、“移动电子”的说法,选择何种互变异构体由用户决定。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vJaswuL9-1656391334542)(https://www.daylight.com/dayhtml/doc/theory/theory26.gif)]
O=c1[nH]cccc1 Oc1ncccc1
2-pyridone 2-pyridinol

针对反应的扩展

引进 > 来分隔反应的各组分,一个反应中必须恰有两个 > 符号。>> 也是一个合法的反应表示空反应。此外,分子中不能含有 > ,以免歧义。

语法
  • 有试剂的:reactant '>' agent '>' product
  • 无试剂的:reactant '>>' product

>(red)

例如

C=CCBr>>C=CCI:合法。注意没有试剂分子,也有一些反应物和产物缺失了(产物Br和反应物I)。

[I-].[Na+].C=CCBr>>[Na+].[Br-].C=CCI:合法。有完整的反应物和产物。

C=CCBr.[Na+].[I-]>CC(=O)C>C=CCI.[Na+].[Br-]:合法。有丙酮作为试剂。注意SMILES不区分试剂、催化剂或者是有别的功能的试剂。

reaction atom maps

以上的方法不能展示反应机理。因此考虑原子图(atom maps)。

>(red)

atom map是参与反应的分子的原子的某种属性,把反应物一侧和产物一侧不同的原子分门别类,用数字进行标记,在数字和原子之间用 : 分隔,包裹在 [] 中。

对于等价的原子,atom map把他们分成同一类,如醋酸根的两个氧是等价的,[CH3:1][C:2](=[O:3])[O-:3]

SMILES:化学结构的线性表示方法_第10张图片

[CH2:1]=[CH:2][CH2:1][CH2:3][C:4]©[CH2:3]

涉及氢迁移的话,氢也是特殊的,需要用atom maps,H不能省略。

你可能感兴趣的:(化学信息学)