SATI--文献题录开源程序

    SATI程序及源码下载地址:http://liuqiyuan.com/#sati

      网上对于SATI的介绍相对来说还是比较少的,而这款程序确实很好。所以本着造福大家的心态,再此撰文一篇。

      使用过SATI程序的人可能会很郁闷,有的功能看着有就是用不了,以为是自己的问题。其实不是,这其实是软件本身的BUG导致的,源程序其实并没有针对国内用户做过特定的优化,所以用户体验度不高,而原作者给出的只是一篇论文和他的网站博客来对程序进行说明,论文下载地址如下,有兴趣想要去研究的可以看下。

刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J].信息资源管理学报,2012,(01):50-58.

     作为一个入门级程序员,纯粹出于业余的爱好来学程序设计,所以有些内容写的不是太好或不全面,还望高手不要见笑。SATI是基于C# .net famework4开发的。在原著作者的论文中将这款工具的功能总结为四点:

      1.、题录数据格式转换;

      2、字段信息抽取;

      3、词条频次统计;

      4、知识矩阵构建;

    下面就这四个方面谈谈程序的操作方法和一些注意事项:

     首先,程序要工作需要输入数据,程序支持导入原生的由本程序产生的已完成转换的XML文件。当然,你也可以导入由其他数据库导入的专门的数据题录格式文件,然后转化为程序支持的XML文件。程序主要支持当前国内三大主流题录数据输出格式->End-Note格式、NoteExpress格式、NoteFirst格式(建议,如是导出CNKI的题录数据,请导出为End-Note格式,万方的请用NoteExpress格式导出,维普的请用NoteFirst格式导出),本文以CNKI导出的End-Note格式为例进行程序操作讲解。

    关于导出End-Note格式题录数据。请登录到CNKI官网,然后,搜索你要的结果,返回为:

SATI--文献题录开源程序_第1张图片

  到这个页面之后,点击"导出"到:

SATI--文献题录开源程序_第2张图片

   按上图操作然后跳转到:

SATI--文献题录开源程序_第3张图片

     按上面的操作一步一步来,最后你就会得到一个txt纯文本格式的End-Note题录数据源,然后打开SATI,一定要记住,其他数据库直接导入的题录文件如果不是本程序专用的XML格式数据源,一律是不能用的。如图:

SATI--文献题录开源程序_第4张图片

     (由于我个人对这个程序进行了优化,所以我这个程序界面有些地方和源程序不一样)打开程序后,点击"单文件";在返回的对话框里选中你刚下载下来的那个txt文件,确定后,在格式下拉框中选择你要导入的数据格式,在本例就是End-Note,点击转换,得到一个XML文档,默认文件名为XML_SATI.xml,我们保存它。然后程序自动对这个文件进行列表处理:

SATI--文献题录开源程序_第5张图片

     到此我们已经成功导入了一个单文件,但是由于一些数据库只能同时导出一定数量的题录信息,无法导出我们想要的那个数量,该怎么办?程序提供了一个文件夹按钮,你点击它之后返回一个对话框,让你选择一个文件夹,而这个文件夹你必须全部放你从比如说CNKI等全文数据库上面导出的一个一个的题录数据文件(你上面下载下来的那个文件,CNKI一页最多只能列50个项目,当然,知网是支持你在这个页面全选,到下一个页面在全选它会叠加,但是,在有些数据库是没有这么强大的功能的还是得自己一页一页的导出数据),这个文件夹最好不要有其他的文件,而只能是你即将要转换的数据题录源文件。

     SATI--文献题录开源程序_第6张图片

     这里为什么要加这个去重啦?就是要保证你在导入多个文件时,不经意间连你自己都不知道导入了重复的记录。为了提高数据分析的可靠性,我们必须要加这个去重,然后,你就能得到你想导入的题录信息。程序返回同导入单文件是一样会自动在下面那个文本框里面列出数据。这就是程序提供的第一个功能:题录格式转换的操作方法。还有在导入多个文件并开启去重之后,在本地计算机会生成两个文件,如图:

SATI--文献题录开源程序_第7张图片

     XML_SATI.xml是一个汇总文件,XML_SATI.xml_DR.xml是去重后程序生成的内容,而我们要使用的也是这个文件。 好,现在我们已经完成了一个题录数据文件的转换,它转换为程序支持的XML格式的题录格式文件,这样你下次就不用再进行一次格式转换,直接导入这个xml文件即可。

SATI--文献题录开源程序_第8张图片

     点击上面那个XML按钮,会弹出一个对话框,选中你要导入的那个已经转换好了的XML文件即可,这样你就能导入你转换后的那个xml文件。当然,如果你了解xml文件的话,你也可以自己编写这个文件。这个xml文件是三层结构的。

 SATI--文献题录开源程序_第9张图片

     具体的字段信息如下:

     DT:表示文献类型,如期刊文献为Journal Article,主题论文为Thesis等

     AD:表示机构

     TI:表示题名

     SO:表示来源

     TIss:题名关键字抽取

     PY:发布nian份

     IS:发布月份

     KWs:关键词

     AB:摘要

     ABss:摘要关键字抽取

     SP:开始页码

     EP:结束页码

     AUs:作者

     AFs:第一作者

     DOI:数字对象唯一标识符

     id:记录编号(程序自动生成)

    上面的字段对应于程序的选项组。

   

   关于字段信息的抽取。字段信息的抽取是在你成功导入xml文件之后进行的后续操作,在进行字段信息抽取之前,必须要在选项组里头选择一个选项,程序默认是关键词选项。每个选项对应于xml文件的每一个字段名称,当你选中一个选项,然后点击下方的"字段抽取"按钮。在下面的文本框里面就会返回抽取的字段信息。

SATI--文献题录开源程序_第10张图片

   关于频次统计。原程序在频次统计这里有一个BUG,导致程序核心功能一直用不了,我将其修复了。频次统计如上面操作一样,先要在选项里面选好字段,这里我们选择程序默认的关键词选项,然后点击频次统计,程序会在下面的文本框里返回相应的频次统计信息。在本例中选择关键词,返回的是一个个的关键词在文献中的出现频次统计。

SATI--文献题录开源程序_第11张图片

   关于矩阵生成。这是程序最核心的功能,程序提供三类共八种矩阵生成模式,矩阵其实就是一个对称的数据表,可以把它理解为一个excel表格,它最终也会产生一个excel表格。本文只介绍一种矩阵生成模式,那就是程序默认的相似矩阵生成模式。所谓相似矩阵其实就是一个二维表坐标系,x轴每个项代表你针对某个选项,比如说关键词,所抽取生成的关键词散列分布,y轴也是这个散列分布。感觉有点抽象,我们先生成一个矩阵来看看。

     (首先一定要谨记!在生成矩阵之前,一定要点击频次统计按钮进行频次统计操作。如果你不先进行频次统计直接点矩阵生成,程序会报错,因为频次统计的结果将是你进行矩阵生成的输入数据,切记!)

SATI--文献题录开源程序_第12张图片

     如上图,请注意,当你导入数据后,看下文本框列表中id字段最下面的那个最大的id号,程序默认Rows的值是100,当你的这个id号比100大时,不用输入rows值,默认就好,只有当你的id最大值比100要小,那请在此输入你的最大的那个id值。在生成矩阵的选择框里面记得选好你要生成的矩阵模型,(similarity)指代相似矩阵,也是程序默认要生成的矩阵,其他矩阵模型请参见上面的论文。点击矩阵生成后,程序会在程序下面的文本框里面返回具体的项值,同时生成一个excel报表,当然,你的电脑必须安装有Windows的office程序,不然无法生成excel报表。

SATI--文献题录开源程序_第13张图片

    我们看到,相似矩阵就是上面的这个表一样的东西,也叫共现矩阵,横轴与纵轴对称相等,中间两个坐标项重合的部分叫对角线,本例就是上图斜着,值为1的你那个部分,这个二维表里面的每一个具体的值是如何产生的啦?每一个值都是这两个关键词在总的记录中一起出现的频次计数,对角线的值就是这一个关键词出现的总的频次计数。程序在产生这个频次计数之后,再将这个频次计数去乘一个平衡系数E,关于这个数学公式大家可以去看上面的那篇论文,最后,程序会将这个相乘之后的值在四舍五入,保留四位小数点之后呈现给我们。

   最后,关于SATI就介绍到这里吧,关于矩阵的使用,大家自己去尝试,原理跟相似矩阵差不多,还有多值矩阵和二值矩阵,多值矩阵的值没有乘以那个系数,就是原生的频次计数。二值矩阵的值只有0和1,仅此而已,1代表在一起出现了,0则没有。相异矩阵就是取反,具体请参见论文中对几个矩阵的解释。生成的矩阵可以直接导入到SPSS、Ucinet等软件中生成可视化结果,进行多维尺度分析。程序还内置了一个数据可视化分析分析工具NetDraw,就在右下角那个NetDraw按钮。点击就能打开使用了。

   补充,程序默认文本预处理选项组中的netDraw复选框是勾起状态,它被选中,则程序在每次生成前四种矩阵模型时自动生成一个vna文件到程序所在目录下的NetDraw文件夹中,在用NetDraw软件打开这个vna文件就会生成一个知识网络图。

SATI--文献题录开源程序_第14张图片

SATI--文献题录开源程序_第15张图片

当然,这个知识网络的显示样式可以自己调,我比较懒,就不预先去调了。

我修改后的程序下载地址:http://pan.baidu.com/s/1eQ6V9Uq

如果打开程序之后会弹出一个js脚本错误,没有关系,点击确定即可,在使用教程里一样可以看到这篇文章。

如果打开程序后出现安全证书不可用,也没有关系,点击继续即可,程序依然可以正常使用的。

如果打开程序文件,出现没有.net framework4.0错误,那是你的机器没有安装.net环境造成的,你可以自己上网下载.net framework4.0的运行环境,我这里给出一个下载地址:http://pan.baidu.com/s/1bnDhxs7

你可能感兴趣的:(数据分析,数据题录,SATI)