knn聚类还是分类_手把手教你绘制一致性聚类图

knn聚类还是分类_手把手教你绘制一致性聚类图_第1张图片

关注精彩内容,要先点击这里哦~

今天我们和大家分享一个新的知识点—— 一致性聚类 ,提到一致性聚类,一般人可能会是下面的反应

 knn聚类还是分类_手把手教你绘制一致性聚类图_第2张图片

这是啥???

不会我们就去问wiki,wiki给出的解释如下:答

一致性聚类是传统聚类分析的重要阐述。一致性聚类,也称为聚类集成,是指为特定数据集获得了许多不同(输入)聚类并且需要查找单个(一致性)的情况。一致性聚类,从某种意义上讲,它比现有聚类更合适。因此,一致性聚类是协调关于来自不同来源或同一算法的不同运行的同一数据集的聚类信息的问题。

说点我们能理解的吧:

Consensus Clustering(一致性聚类)是一种无监督聚类方法,是一种常见的癌症亚型分类研究方法(如乳腺癌中的PAM50),可根据不同组学数据集将样本区分成几个亚型,从而发现新的疾病亚型或者对不同亚型进行比较分析。

比如下面的一篇文章便是采用这种方法进行的一致性聚类。 knn聚类还是分类_手把手教你绘制一致性聚类图_第3张图片 其文章中的图便是我们今天要出的图: knn聚类还是分类_手把手教你绘制一致性聚类图_第4张图片 knn聚类还是分类_手把手教你绘制一致性聚类图_第5张图片

当然除了Consensus Clustering外,还有些文章会用non-negative matrix factorization (NMF) consensus cluster来寻找亚型。

Consensus Clustering实现比较简单,有现成的R包ConsensusClusterPlus,操作比较简单,只需要一个表达矩阵即可:

接着我们进入正题,聊聊一致性聚类的实现ConsensusClusterPlus:

01

安装ConsensusClusterPlus包,操作很简单,直接install,接着加载进来就行

5f0f6a5dd3511970c3b053cd5f39f415.png

02

整理数据集,为了保证数据的可重复性,我们采用了一个R包数据集,如下:

knn聚类还是分类_手把手教你绘制一致性聚类图_第6张图片 查看数据维度: a19f44c07ff3688ec3be89fdedf72fe4.png

可以看到一共包括12625行,128列,每行代表一个探针,实际上可以理解为一个基因,每列代表一个样本,一共128个样本。

03

数据预处理,筛选基因和标准化,当然你也可以用自己的fpkm或者tpm值等,归一化之后的数据理论上均可以。

knn聚类还是分类_手把手教你绘制一致性聚类图_第7张图片

04

一步完成聚类

knn聚类还是分类_手把手教你绘制一致性聚类图_第8张图片

注意几个参数:

maxK是指输出的最大的K值,默认是从2开始;

reps是指进行重复的次数,一般选择1000左右,这里选择了50;

title是指生成的图片存放的路径;

clusterAIG是指采用的聚类方法,包括的有hc,KNN,pam等,这里选择了hc;

05

数据出图及选择合适的K,K代表类别数。

knn聚类还是分类_手把手教你绘制一致性聚类图_第9张图片 knn聚类还是分类_手把手教你绘制一致性聚类图_第10张图片 knn聚类还是分类_手把手教你绘制一致性聚类图_第11张图片

从第二张图可以看到k=5可以作为一个拐点,且第一张图看到当k=5的时候,中间比较平缓,从第三张图也可以看到k=5分类很明显,很明显看到基于表达数据可以分为5个cluster。

knn聚类还是分类_手把手教你绘制一致性聚类图_第12张图片

生信发文助手

如需生信分析服务请加微信:keyan-zhishi2 knn聚类还是分类_手把手教你绘制一致性聚类图_第13张图片

多点好看,少点脱发

你可能感兴趣的:(knn聚类还是分类)