欢迎关注微信公众号《生信修炼手册》!
对于网络的可视化和数据挖掘,有很多图形界面的软件可供选择,比如cytoscape, gephi 等等,这些软件使用方便,操作简单,功能的强大,但是同时也有着一个缺点,就是无法自动处理,只能通过人工点击鼠标来操作,对于大批量数据的分析而言,依靠人工费事费力。
为了能够自动化编程处理,有很多的程序被开发出来,专门用于网络数据的可视化和分析,igraph就是其中的佼佼者。igraph是一个开源项目,旨在提供一个简单易用,功能强大的网络数据处理框架,在R,Python, C语言中都有具体实现,网址如下
http://igraph.org/
本篇以R语言为例,展示其用法。在R语言中,对应的包名为igraph
, 安装方式如下
install.packages("igraph")
network对应的数据结构为graph
, 通常用大写字母G
表示,顶点的英文为vertex
, 用大写字母V
表示,边的英文为edge
, 用大写字母E
表示。对于igraph
而言,常用的操作包括以下几种
创建network有很多种方式,这里我们只展示最常用的一种,从文件中读取节点和边的信息,然后在R中创建一个network, 对于节点而言,文件内容示例如下
每一行代表一个节点,每一列代表一个节点的属性,可以有很多列,这里只给出了两个基本属性,id
用来唯一表征一个节点, name
表示节点上标记的字符,其他属性可以自定义,比如如果节点有分类信息,可以加一个type
列。
对于边而言,文件内容示例如下
每一行代表一条边,from
和to
指定一条边所连接的两个顶点,后面的列是边对应的属性,可以自定义。
在R中,读取文件并创建network的代码如下
# 加载包
library(igraph)
# 读取节点文件
nodes <- read.table("nodes.txt")
# 读取边文件
links <- read.table("links.txt")
# 创建netwok
net <- graph_from_data_frame(
d = links,
vertices = nodes,
directed = F)
directed
参数代表创建的network是否为有向图。创建好之后,可以通过V(net)$name
访问节点的属性,类似的,通过E(net)$type
访问边的属性。
创建好之后,可以对网络进行可视化。在可视化时,有两个因素需要考虑,一个就是节点和边的属性展示,比如节点的颜色,不同分类的节点是否用不同颜色展示,另外一个就是layout
布局,选择何种布局算法,在igraph
中,可以方便的进行处理
第一个例子展示如何根据边的属性对边的颜色进行划分,示例如下
# 设置不同type的边颜色不同
E(net)$color <- "red"
index <- E(net)$type == "mention"
E(net)$color <- "green"
# 可视化
plot(
net,
vertex.color = "gray50",
edge.color = E(net)$color
)
根据type
属性,自定义了一个color
属性,不同type
对应不同颜色,在可视化时,直接指定边的颜色为我们自定义的color
属性就可以了,对于节点的颜色,统一指定为灰色。plot
函数还支持非常多的属性,详细参数请参考函数的帮助文档。
第二个例子展示布局,对于layout而言,在igraph
中,有非常多的布局算法,具体的可以查看layout
函数的帮助文档,调用布局算法绘图的代码如下
plot(net, layout = layout_in_circle)
通过``统计节点的度,用法如下
> degree(g, mode="all")
[1] 3 4 3 2 2 1 1
通过edge_dentisy
统计密度,用法如下
> edge_density(net)
[1] 0.3809524
通过transitivity
函数统计clustering coefficient
, 用法如下
> transitivity(g, type="global")
[1] 0.4285714
> transitivity(g, type="local")
[1] 0.6666667 0.3333333 0.0000000 1.0000000
> transitivity(g, type="average")
[1] 0.6
在igraph
中,支持多种网络聚类算法,来挖掘复杂网络中的community, 示例如下
cfg <- cluster_fast_greedy(net)
plot(cfg, net)
cluster_fast_greedy
调用fast greedy algorithm算法,来预测community,其他聚类函数的用法和上述用法一致,生成的图片如下
节点对应的community信息可以从cfg
这个对象中得到
> cfg
IGRAPH clustering fast greedy, groups: 10, mod: 0.77
+ groups:
$`1`
[1] 5 6 13 16 31 32 54 59 63 67 69 72 75
$`2`
[1] 8 10 18 44 45 50 55 66 68 74 7
对于每个community, 可以通过如下方式得到其子图,
nodes <- V(net)[cfg$membership == 1]
g <- induced_subgraph(net, nodes)
plot(g, layout = layout_in_circle)