CiteSpace学习笔记(三)——数据预处理

由于不同数据库厂商所提供下载的数据格式有所差异,为了能够使用CiteSpace对不同数据库的数据进行分析,CiteSpace专门提供了数据的转换界面,用于将CNKI、CSSCI、以及SCOPUS等数据转换为WoS数据格式,供CiteSpace进行分析。
进入CiteSpace数据预处理功能模块的步骤为:运行CiteSpace后,选择功能参数区菜单栏的Data—>Import/Export,即可得到数据的预处理界面。目前CiteSpace可以对WOS、arXiv、CNKI、CSSCI、Derwent、NSF、Scopus、SDSS等数据进行预处理。
CiteSpace学习笔记(三)——数据预处理_第1张图片

一、WOS数据过滤与除重
1.数据的过滤
点击CiteSpace功能参数区的Data菜单,选择Filter后按照提示操作即可。Filter过程结束后会在原始数据的文件夹中得到一个“Filter”文件夹,里面提取了过滤后的数据,CiteSpace也对这些数据进行了分时处理(将相同时间的数据归类到同样的txt文档中)。在此过程结束后,在CiteSpace功能参数区的Process Report中会显示处理的整体结果。
2.数据的除重
(1)建立两个文件夹:“Original data”用于存储原始数据;“Duplicates Removal”用于保存处理后的数据。(原始数据文件夹中放入按要求下载和命名的数据)
(2)点击Data—>Import/Export,进入CiteSpace功能界面,并在菜单中选择数据的预处理菜单,进入数据预处理功能界面。
(3)加载数据和除重。将原始数据加载到Input Directory,将保存处理后的数据文件夹加载到Output Directory。当数据加载结束后,点击”Remove duplicates(WoS)”后等待软件执行除重过程。
二、文献数据格式的转换
在CiteSpace的Data—>Import/Export中还提供了数据格式转换的功能。默认界面为CiteSpace Built—in Data,如果要对数据转换,需要点击后面的标签,例如WOS,arXiv,CNKI等。
1.CNKI数据转换
建立文件夹Input用于存储原始数据,建立文件夹Output用于存储转换后的数据;点击“CNKI”标签,选定原始数据所在文件夹和对应输出文件夹;点击“Format Conversion”,完成转换后会显示“Finished”。
2.CSSCI数据转换
按照前面的步骤下载好CSSCI数据后,与CNKI的处理过程类似。CSSCI转换后的数据记录会在原数据文本名称后加WoS。
3.Scopus数据转换
4.Derwent数据转换
【注】:
1.当前CiteSpace可以直接分析的数据格式为Web of Science格式,因此用户在分析一些非Web of Science数据格式的资料时,可以通过编程将数据转换为Web of Science格式。
2.登录http://paperscape.org/可进入arXiv的可视化检索界面。例如通过该系统检索了关键词包含safety的论文,能够发现这些论文主要集中的领域。
3.如果已经下载了数据,还想比较快和清晰地了解数据的结构,那么可以使用Notepad++或sublimetext文档编辑器来查看,不仅打开文档速度快,而且数据结构也是一目了然。
4.在 web of science下载数据的输出页面上Record Content 一定要选择Full Record and Cited References,否则将无法进行共被引分析。
5.在中国社会科学引文索引中,每次检索显示的记录最多为2000条,每次可以下载的数据量为400条。当检索的检索超过2000条时,可以通过时间分段来下载所有的数据。
6.CiteSpace可以处理的数据
CiteSpace学习笔记(三)——数据预处理_第2张图片
7.CiteSpace可以处理的数据源及可用功能
CiteSpace学习笔记(三)——数据预处理_第3张图片

你可能感兴趣的:(学习笔记,大数据)