RDKit | 基于分子指纹可视化化学空间

根据化学结构可视化化合物空间

 

方法

计算分子指纹

       为每种化合物生成一个指纹并减小其尺寸,以便可以将其绘制在平面上。根据相似性原理,“相似的化合物具有相似的性质”,具有相似结构和性质的化合物应紧密地分布在一个平面上。

       尝试使用Morgan指纹。


 

PCA降维方法

        使用主成分分析(PCA)和UMAP进行尺寸缩减。PCA是最常用的方法,但由于它会根据数据的线性度压缩到较低维度的空间中,因此可能不适用于0-1等指纹数据。
        另一方面,UMAP是考虑非线性分量的降维方法之一。像相同方法的标准t-SNE一样,降维速度可以快几倍,因此可以用于大型数据集。


        聚类使用kmeans方法和SpectralClustering
        kmeans方法通过重复以下一系列操作来执行聚类:(1)随机设置聚类;(2)通过添加附近的数据点来更新重心的位置;(3)使用更新后的重心附近的数据再次找到重心。诸如Moon和Swiss roll之类的非线性数据无法很好地分类,但是Spectral Clustering似乎能够处理此类数据。

 

你可能感兴趣的:(RDKit,化学信息学与AI)