RDKit | 子结构搜索和MCS算法

MCS:Maximum Common Substructure

        即使查询分子与数据库分子不完全匹配,也想知道其中有多少个通用结构,即最大公共子结构(MCS)。可以使用与子图同构相同的方法来计算。也可以按原样使用公共键(边)的数量作为阈值,或将其转换为相似性指标,例如Jaccard / Tanimoto系数。

        部分结构匹配的情况下,可以在结构匹配时(或确定它们不匹配时)中止搜索,但是在MCS的情况下,可以输出最优解,直到搜索到所有可能性为止。有必要设计诸如确定计算时间的上限,当公共边缘的数量超过阈值时中止搜索或者使用高速近似解算法的手段。

         尽管即使使用VF2算法也可以计算MCS,但已经开发了许多更高效且针对特定应用的算法。作为开源的MCS实现,RDKit具有基于DFS的算法FMCS和VF2。
 


导入库

from rdkit import rdBase, Chem
from rdkit.Chem import AllChem, Draw
from rdkit.Chem import rdFMCS
from rdkit.Chem.Scaffolds import MurckoScaffold
import pubchempy as pcp

载入数据

suppl = Chem.SDMolSupplier('sdf_20191011165056.sdf')
mols = [x for x in suppl if x is not None]
len(mols)

你可能感兴趣的:(RDKit,化学信息学与AI)