查阅起点来自《A Deep Learning Approach to Antibiotic Discovery》
Tanimoto coefficient 即谷本系数的计算公式是:
T s t = ∑ k = 1 n P s k ⋅ P t k ∑ k = 1 n P s k 2 + ∑ k = 1 n P t k 2 − ∑ k = 1 n P s k ⋅ P t k T_{st}=\frac{\sum_{k=1} ^{n}P_{sk}·P_{tk}}{\sum_{k=1} ^{n}P_{sk}^2+\sum_{k=1} ^{n}P^2_{tk}-\sum_{k=1} ^{n}P_{sk}·P_{tk}} Tst=∑k=1nPsk2+∑k=1nPtk2−∑k=1nPsk⋅Ptk∑k=1nPsk⋅Ptk
python示例代码如下:
import numpy as np
def getTanimotocoefficient(s,t):
s=np.asarray(s)
t=np.asarray(t)
if (s.shape!=t.shape):
print("向量长度不一致")
return -1
return (np.sum(s*t))/(np.sum(s**2)+np.sum(t**2)-np.sum(s*t))
s=[13,11,22,14]
t=[13,12,20,11]
m=[11,11,11,11]
print(getTanimotocoefficient(s,t),getTanimotocoefficient(s,m))
# 0.9845984598459846 0.8312342569269522
如果两个向量的元素都是只能是01,那么它们的谷本系数可以简化为:
T s t = a a + b − c T_{st}=\frac{a}{a+b-c} Tst=a+b−ca
其中,a 是向量 s 中1的个数,b 是向量 t 中1的个数,c是两个向量同样位置都是1的个数,对比两个公式很好理解,下面是python示例代码:
def getSimilarity(s,t):
s=np.asarray(s)
t=np.asarray(t)
if (s.shape!=t.shape):
print("向量长度不一致")
return -1
a=np.sum(s==1)
b=np.sum(t==1)
c=0
for i in range(len(s)):
if (s[i]==1 and t[i]==1): c+=1
return c/(a+b-c)
s=[1,1,1,0]
t=[1,0,1,0]
m=[1,0,0,0]
print(getSimilarity(s,t),getSimilarity(s,m))
print(getTanimotocoefficient(s,t),getTanimotocoefficient(s,m))
# 0.6666666666666666 0.3333333333333333
谷本系数可以用于计算分子间的相似度,将分子表示为01字符串即分子指纹的方法有以下几种,示例可以在 RDKit 教程中找到,其中MACCS 秘钥的共167bit,有片段时为1,没有是0,具体哪些片段可以在这里找到。还有一些介绍文章:RDkit:介绍smiles编码,smart编码及摩根指纹(ECFP),RDKit|分子指纹提取、相似性比较及应用,使用rdkiit进行分子指纹(Fingerprint)的类似度计算