谷本系数/相似度的计算和分子指纹

查阅起点来自《A Deep Learning Approach to Antibiotic Discovery》


Tanimoto coefficient 即谷本系数的计算公式是:
T s t = ∑ k = 1 n P s k ⋅ P t k ∑ k = 1 n P s k 2 + ∑ k = 1 n P t k 2 − ∑ k = 1 n P s k ⋅ P t k T_{st}=\frac{\sum_{k=1} ^{n}P_{sk}·P_{tk}}{\sum_{k=1} ^{n}P_{sk}^2+\sum_{k=1} ^{n}P^2_{tk}-\sum_{k=1} ^{n}P_{sk}·P_{tk}} Tst=k=1nPsk2+k=1nPtk2k=1nPskPtkk=1nPskPtk
python示例代码如下:

import numpy as np

def getTanimotocoefficient(s,t):
    s=np.asarray(s)
    t=np.asarray(t)
    if (s.shape!=t.shape):
        print("向量长度不一致")
        return -1
    return (np.sum(s*t))/(np.sum(s**2)+np.sum(t**2)-np.sum(s*t))

s=[13,11,22,14]
t=[13,12,20,11]
m=[11,11,11,11]

print(getTanimotocoefficient(s,t),getTanimotocoefficient(s,m))
#       0.9845984598459846             0.8312342569269522

如果两个向量的元素都是只能是01,那么它们的谷本系数可以简化为:
T s t = a a + b − c T_{st}=\frac{a}{a+b-c} Tst=a+bca
其中,a 是向量 s 中1的个数,b 是向量 t 中1的个数,c是两个向量同样位置都是1的个数,对比两个公式很好理解,下面是python示例代码:

def getSimilarity(s,t):
    s=np.asarray(s)
    t=np.asarray(t)
    if (s.shape!=t.shape):
        print("向量长度不一致")
        return -1
    a=np.sum(s==1)
    b=np.sum(t==1)
    c=0
    for i in range(len(s)):
        if (s[i]==1 and t[i]==1): c+=1
    return c/(a+b-c)

s=[1,1,1,0]
t=[1,0,1,0]
m=[1,0,0,0]

print(getSimilarity(s,t),getSimilarity(s,m))
print(getTanimotocoefficient(s,t),getTanimotocoefficient(s,m))
#        0.6666666666666666            0.3333333333333333

谷本系数可以用于计算分子间的相似度,将分子表示为01字符串即分子指纹的方法有以下几种,示例可以在 RDKit 教程中找到,其中MACCS 秘钥的共167bit,有片段时为1,没有是0,具体哪些片段可以在这里找到。还有一些介绍文章:RDkit:介绍smiles编码,smart编码及摩根指纹(ECFP),RDKit|分子指纹提取、相似性比较及应用,使用rdkiit进行分子指纹(Fingerprint)的类似度计算

你可能感兴趣的:(学习笔记,生物信息学,计算化学)