网络分析,图挖掘常用数据集:dblp dataset,kdd dataset....

网络分析,图挖掘方向的同学相信都曾因为没有数据苦恼。真实的数据往往需要爬取网页,但往往会遇到被封ip的危险。项目组要爬取开心网的数据,号召我们每人申请20个账号,估计还是不够用。

下面是自己找过的一些数据,对于社会计算,图挖掘方向会有帮助。

1.snap.stanford.edu/na09/resources.html 这个网站给出了非常多的 有用的数据集包括:dblp data, kdd data,imdb database ,邮件网络,博客网络,等等。此外还给出了一些实用的工具进行网络分析,数据呈现等。

2。citeseerx.ist.psu.edu/about/metadata 此地址给出了citeseer 数据的下载方式,citeseer数据包括合作者,引文等信息。关于citeseer的下载办法,参见本博客的另一篇文章citeseer data的下载方法。

3。Cora dataset 的下载地址www.cs.umass.edu/~mccallum/code-data.html    关于更详细的数据介绍请看hi.baidu.com/zhudaohui/blog/item/4e6f86fdc4df791e08244d12.html

4。dblp 数据下载地址dblp.uni-trier.de/xml/ dblp 数据量较大,数据包括 合作者,日期,但是一般不包引文信息.


转载自 http://hi.baidu.com/fanhengguang/item/30c50647adeb5dd8c0a59220

你可能感兴趣的:(学习笔记)