下面是我根据博客园的粉丝关系数据做出的图。博客园的博客用户有20W左右,我只爬到了17万用户以及其间的80W个粉丝关系,其余3W多用户应该是孤岛用户。但是我爬到的这些数据量对Gephi而言计算量太大了,我用实验室的服务器仍然慢得不行,好久都刷不出图。为了学习使用Gephi我只用了5000左右的用户及其间7000左右的粉丝关系花了这张图。点表示博客用户,用博客用户名标注;线表示粉丝关系,可以很清晰的看到几个博客大牛和其众多粉丝形成的社区。
我的输入数据是.csv格式,开头几行如下:
445574,Gavin_Liu
Dillonn,Gavin_Liu
wait,Gavin_Liu
710309,Gavin_Liu
bo5509,Gavin_Liu
其中逗号前是src,逗号后是dest。
Gephi主页 http://gephi.github.io/ 有下载链接。
JRE1.8环境下Gephi不能启动,需要在JRE1.7。
Gephi的配置文件(路径 C:\Program Files\Gephi-0.8.2\etc\getphi.conf
)有 这样一行
default_options="--branding gephi -J-Xms64m -J-Xmx400m -J-Xverify:none -J-Dsun.java2d.noddraw=true -J-Dsun.awt.noerasebackground=true -J-Dnetbeans.indexing.noFileRefresh=true -J-Dplugin.manager.check.interval=EVERY_DAY -J-Duser.language=en"
如果输入数据量大,需要的内存多,就要将-J-Xmx400m
调大,如-J-Xmx1024m
。实际上,该项调得大了超过了Java虚拟机的设置,会出错;调得小了不够用,也会出错。在Linux下或者64位系统下Java虚拟机的默认设置的内存比32位下大,所以如果数据量大建议在64位系统下安装运行。
Gephi主页有学习资料的链接 http://gephi.github.io/users/,下面介绍几个:
还有几个晚上照的资源
Java内存上的问题的帖子: