数据预处理——数据集分析

关于数据集

最初的ACM论文数据集中,包含的数据有论文的ID、标题、摘要、关键字、引用关系、CCS分类,以及论文摘要中句子级别的子空间标记(研究背景、研究问题、贡献、方法、实验)。但是没有论文的year,venue属性,即论文发表的年份和发表的期刊或会议信息,所以需要再去爬取或者直接搜集数据。
第一个想法是直接搜集论文数据集,然后找到两个数据集之间的论文匹配关系。我们选择添加链接描述作为数据来源。该数据集包含了 Microsoft Academic Graph (MAG) 的 1.66192182 亿篇论文及 AMiner 的 1.54771162 亿篇论文。研究者生成了两个学术图表646万个链接关系(matching),并表示在未来会呈现包括作者在内的更多链接结果。这个数据集可以用于进行引用网络(citation network)、论文内容等多种数据集成研究。整个数据集包括以下三个方面:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
即链接关系、MAG 论文集及 AMiner 论文集。
在链接关系中,两个数据集的论文会以 ID 的形式呈现,例:
{
“mid”: “xxxx”,
“aid”: “yyyy”
}
其中,mid 指的是 MAG 的论文 ID,而 aid 则是 AMiner 的论文 ID。
对于数据集 MAG 论文和 AMiner 论文而言,每篇论文都是一个 JSON 对象。其数据模式是:
在这里插入图片描述
由于ACM数据集中论文id的表示方法(只有数字)与OAG数据集中论文id的表示方法(数字和小写字母组成的字符串)不同,所以不能根据论文id进行查找和匹配。我们只能根据paper title在OAG数据集汇中来查找对应的论文,并且取出venue和year信息。
思路如下:对于OAG数据集的处理,把每一篇论文对应的title、year、venue取出来形成一个新的json数据,title数据要全部处理成小写。对于ACM中的每一篇论文,用论文题目去OAG数据集中找到对应的论文,提取出year和venue信息。生成对应的txt文件,每一行对应一篇论文。
代码还没有写,因为数据集太大,前期下载花了很多时间…

你可能感兴趣的:(数据预处理,大数据,ACM)