本文参考自ChemAxon的介绍。英文版在这里。细节部分与rdkit略有不同,但原理基本一致。
扩展连通性指纹(Extended-Connectivity Fingerprints,ECFPs)是一种圆形拓扑指纹,可用于分子表示、相似性搜索、构效关系建模。它在药物设计中有诸多应用,是最受欢迎的相似性比对工具。
ECFPs是非常高效且流行的搜索工具,并有着广泛的应用。
ECFPs最早应用在高通量筛选(high-throughput screening,HTS)中,用于分析HTS中假阳性和假阴性先导物。此外,ECFPs也经常应用在基于配体的虚拟筛选中,用来判断化合物是否有活性。大量的实验结果表明,这种圆形拓扑指纹是效果最好的搜索工具之一。
在药物研究中,许多领域都涉及到相似性搜索,都用到了分子结构中蕴含的大量信息,例如化合物聚类,以及化合物库分析等。
除了相似性搜索,ECFPs也可以用来识别是否含有一个特定的子结构。因此,它也经常应用在QSAR和QSPR建模中(例如ADMET属性预测),并优化先导物性质。
ECFPs的主要属性有如下几点:
基于路径的指纹(path-based fingerprints)广泛用于子结构搜索中预过滤(pre-filtering)。与这种指纹相反,ECFPs并不适合子结构搜索,而适合快速高效地筛选整个分子和进行相似性搜索。ECFPs可以为相似性搜索提供充分的结果,更接近药物化学家的需求。
ECFPs在ChemAxon中有如下两种表示方式。
可基于ChemAxon的GenerateMD命令行,或API生成,感兴趣的可以自行查看。
ChemAxon中的ECFPs有一系列的参数,可以通过XML来进行设置。
主要参数有3个:ECFPs的最大直径、指纹长度、标识符频数。
这个参数规定了每个原子要考虑的最大圆形邻域。默认直径是4。这是个很重要的参数,会影响子结构的数量和大小,从而影响整数标识列的长度,也会影响到定长比特串的表示。
ECFPs可以通过该参数进行区分。例如,ECFP_4表示直径为4,ECFP_6表示直径为6(rdkit中的参数为半径radius,当radius=2时,与ECFP_4等价)。
根据Rogers and Hahn的报道,直径如何取值取决于具体需求。通常直径为4时,可以满足相似性搜索和聚类需求。对于活性预测,有大结构片段通常会比较有利,因此可以尝试6或8。
这个参数指定了定长比特串的长度。默认是1024位。
当增加长度时,会减少冲突的几率,从而减少信息的损失,但需要花更多的空间和时间来存储和计算。
这个参数控制是否要记录每个整数标识符出现的总次数。默认是不记录,即每个子结构只存储1次。
在ECFPs中,原子属性集也是一个重要的参数,决定了原子的特性。不同的属性会产生不同的圆形指纹,可用于不同的需求中。
默认的ECFP参数适用于大多数的应用场景,尤其在基于子结构特异信息的相似性搜索中。默认情况下,对每个原子的以下信息会被考虑进来:
其他的内置属性还有:质量信息、连接信息、键信息、立体信息等。如果想修改这些配置,可以在XML中自己定义。
ECFP默认的标识符包含了高度特异的原子信息,可以表示大量的子结构特征。然而,在不同的场景中,可能需要不同的抽象方式。例如,在环上某一位置进行氯取代或溴取代时,它们的功能基本是等价的,但是ECFP认为它们是两种不同的结构。另一个使用圆形指纹的新方向就是归纳每个原子的药效团,也就是将ECFPs转换为拓扑药效团指纹。
这些变体,叫做功能基指纹(Functional-Class Fingerprints,FCFPS),它们对ECFP进行了泛化处理,更关注原子在功能上所发挥的作用,而不关注是否是特异的。
ChemAxon也支持FCFPs,可通过XML来自行定义。
JChem提供了查看ECFP指纹结构的功能。ECFP可以表示为整数标识列,或定长比特串,这些特征中的某一位代表了输入分子中一个特定的子结构。ECFPFeatureLookup类可以根据给定的整数标识和某个位来提取出子结构。
在某些应用场景中,需要对特定化合物的指纹进行对比,以便得出有哪些特征很重要。这时,展示出真实的子结构就会非常直观地看到结果。
在rdkit中指纹使用位向量Bit Vector来表示,位向量是一种可以高效存放二进制值的容器。rdkit中包含了两种内部存储方式不同的指纹,分别是SparseBitVects和ExplicitBitVects。这两种类型可以轻易地进行转换,用于不同的目的。
>>> from rdkit.Chem import AllChem
>>> mol = Chem.MolFromSmiles('Cc1ccccc1')
>>> AllChem.GetMorganFingerprint(mol, radius=2)
<rdkit.DataStructs.cDataStructs.UIntSparseIntVect at 0x7fbbe9654ee0>
>>> AllChem.GetMorganFingerprintAsBitVect(mol, radius=2, nBits=1024)
<rdkit.DataStructs.cDataStructs.ExplicitBitVect at 0x7fbbe9493490>
关于分子指纹的更多操作,请见这里。