10X单细胞(10X空间转录组)聚类算法之Louvain

hello,大家好,之前呢,分享了10X单细胞和10X空间转录组的降维算法,不知道大家掌握了多少。今天我们来分享默认的聚类算法Louvain,Louvain算法是目前单细胞分析中最常用的聚类算法,Seurat/Scanpy/RaceID等单细胞分析工具都默认louvain算法,那么我们就来分享一下这个聚类算法,很深的算法我们我们尽量理解,但是算法的精髓和运用必须掌握,我们用一个例子来展开。

社会网络(social network)是是由许多节点构成的一种社会结构,节点通常是指个人或组织,社会网络代表各种社会关系,社会网络关注的是人们之间的互动和联系,社会互动会影响人们的社会行为。对于社交网络的分析和研究范围很广,例如在社交网络中社区发现、基于好友关系为用户推荐商品或内容、社交网络中人物影响力的计算、信息在社交网络上的传播模型、虚假信息和机器人账号的识别、基于社交网络信息对股市、大选以及互联网金融行业中的反欺诈预测等。

图片

现实生活中存在各种各样的社会网络,比如人际关系网、交易网、交通运输网等,对这些网络进行社区发现(community detection)具有极大的意义,如在微博构成的人际关系网络中,可以发现出具有不同兴趣爱好、背景的社会团体,方便进行不同的宣传策略和投放不同的广告;在以淘宝为代表的交易网中,不同的社区代表不同购买力的客户群体,社区发现可以方便运营为这些社区推荐合适的商品。

算法简介

在社交网络中,有的用户之间的连接较为紧密,有的用户之间的连接关系较为稀疏,在这样的的网络中,连接较为紧密的部分可以被看成一个社区,其内部的节点之间有较为紧密的连接,而在两个社区间则相对连接较为稀疏,这便称为社团结构。

Louvain算法来自于Vincent等人发表的文章《Fast unfolding of communities in large networks》,是基于模块度(modularity)进行社区发现,该算法的优点在于速度快,可以在较短时间内实现大规模网络以不同粒度的社区划分(这个就对应我们的Seurat的聚类参数resolution),并且无需指定社区的数量,当模块度不再增益时候,迭代便自动停止。

图片

Louvain算法处理大量数据的结果示例

算法简介

模块度基本原理

Newman等人在文章《Finding and evaluating community structure in networks》中提出了模块度(modularity)的概念,用来衡量社区划分的好坏。简单讲,如果一个社区划分算法能将连接比较稠密的点划分在一个社区中,而社区之间的连接比较稀疏,这样划分得到的网络模块度的值就会比较大,模块度越大的社区划分算法性能越好。

——模块度的计算

图片

——模块度简单实现

图片

模块度的值在[-1,1]之间,若所有的节点都被划分到一个社区内部,则此时模块度为1,若所有的节点各自为一个社区,则模块度为-1,文章说当模块度的值在0.3~0.7之间则说明社区划分算法的效果很好,Louvain算法的优化目标为最大化整个数据的模块度。

算法简介

louvain算法原理

——louvain算法的两个阶段

  • 第一阶段——先令每个节点自己属于一个社区,此时网络中有几个节点便有几个社区,计算此时的模块度,然后令节点i不再属于自己而是和节点j一个社区,计算此时的模块度,两个步骤就使得此时的网络出现了模块度增量,则模块划分方法就是将i节点划分到使模块度增量最大且大于0的那个节点中去;

  • 第二阶段——将第一阶段划分出来的社区聚合为一个节点,重构整个网络;

图片

louvain算法的步骤

——模块度增量

图片

算法实现

算法实现

算法流程

图片

算法实现

代码详解

——计算模块度

图片

——计算模块度增量

图片

——社区聚合

图片

算法实现

算法测试

——数据导入

图片

——测试结果

图片

根据louvain算法结果,一共将数据“polbooks.gml”划分成4个社区,划分后网络的模块度为0.52,在0.3~0.7之间,可见划分结果还是比较优良。

实例运用

图片

《权力的游戏》,是美国HBO电视网制作推出的一部中世纪史诗奇幻题材的电视剧。该剧改编自美国作家乔治·R·R·马丁的奇幻小说《冰与火之歌》系列。16年数学家 Andrew Beveridge和Jie Shan分析了小说《冰与火之歌》第三部《冰雨的风暴》中人物关系。在文章中介绍了如何通过文本分析和实体提取构建人物关系的网络,并使用社交网络分析算法对人物关系网络分析找出最重要的角色,最后应用社区发现算法来找到人物聚类。其中可视化是利用igraph实现,社区发现则是利用igraph中实现的walktrap方法。划分结果:

图片

7 大子网络阵营

在这里,本文利用权利的游戏中角色之间的联系紧密产能度收集到的数据集,内含两个角色的名字和相互之间对应的权重,利这个数据进行简单的可视化工作,并且将louvain算法运用到上面,进行社区发现并且将划分的子网络通过网络图中不同的色彩标示出来。

实例运用

数据获取

图片

——NetworkX

是用Python语言开发的图论与复杂网络建模工具,内置常用的图与复杂网络分析算法,可以方便的进行复杂网络数据分析、仿真建模等工作;支持创建无向图、有向图和多重图;

示例:

图片

——community

是使用louvain方法进行社区发现的模块,在安装库的时候注意使用“pip install python-louvain”进行安装。

示例:

图片

实例运用

数据可视化

图片
图片

实例运用

调用Louvain算法

——算法调用及划分结果局部展示

图片

——划分后的模块度

图片

前面我们说过当模块度的值为0.3-0.7则表示社区划分的效果比较好,可见这里的划分结果为0.5999说明划分效果很好。

实例运用

社区发现结果可视化

图片
图片

看过《权游》的人应该知道Cersei(瑟后)、Tyrion(小指头)和Jamie(弑君者)三人是姐弟关系,其他人物例如Aerys(疯王)、Tywin(瑟后他爹)、Oberyn(红毒蛇)、Gregor(魔山),这些都是以Cersei为中心的人物关系,而我们的社区发现算法也成功的将他们划分到了一个社区里面,可见louvain算法不仅速度快,而且划分的准确性也比较高。

当然,这里只是一个例子,10X单细胞和10X空间转录组都是运用一样的原理,由此显示了我们单细胞的聚类,从而运用到下游分析

但是,目前这个算法已经暴露了很多不合适的地方,最新的算法leiden慢慢替换了louvain,我们下一篇分享louvain的算法缺陷和leiden的算法原理。

生活很好,有你更好

你可能感兴趣的:(10X单细胞(10X空间转录组)聚类算法之Louvain)