本文写于多年之前。附上能个近期学生写的补充,以及改进版的小程序。
https://zhuanlan.zhihu.com/p/20902898 这是上学期选修我课程的王庆撰写文件,并改写了一下程序,导入更加方便。
附王庆改写的程序下载链接:http://pan.baidu.com/s/1hsIwJzQ#list/path=%2F
官方网站的下载链接:http://science.thomsonreuters.com/scientific/m/HistCiteInstaller.msi
http://ztever.com/histcite-manu/ 快速进入陌生领域:HistCite使用教程
来自 杨蔚的博客。
我在网易云课堂的视频教程:
http://study.163.com/course/introduction/1373003.htm#/courseDetail
2016年12月06日
Histcite 是一种文献索引分析软件,用来处理从web of science 输出的文献索引信息。它可以帮助我们迅速掌握某一领域的文献历史发展,发现关键研究 (highly cited)和关键学者 (highly cited)。它还能方便绘出这一领域文献历史关系,使得该领域的发展,关系,人物一目了然。开发者是大名顶顶的 Dr Eugene Garfield, 他是 the inventor of the Science Citation Index。对处在文献研究阶段的人是非常有用。
功能介绍
如果你选修过中国科学技术大学罗昭锋老师的《文献管理与信息分析》,那么你一定不会对HistCite 感到陌生,这是一款非常强大的引文分析工具,可以快速绘制出某个研究领域的发展脉络,快速锁定某个研究方向的重要文献和学术大牛,还可以找到某些具有开创性成果的无指定关键词的论文。
如果说一次引用表示给你的文章投一票,那么并不是所有票都有效,只有相同领域文章的引用才能真正体现你在这个领域中的实力。所以在 Web of Science (以下简称 WOS)上按照被引次数倒序排列,越靠前不一定就越重要。还有一种情况,你发明了某种材料,但是后来名字变了,之后的文章使用的关键词都是新名字,别人搜新名字的关键词是搜不到你的开创性文章的,但是很显然你的文章是非常重要的。通过 HistCite 可以直观的看出这个研究领域的论文全部引用了你的文章,可以体现你的文章的重要性。
使用方法
下面开始使用这个工具。首先要了解一点,HistCite 这款软件是 Thomson Reuters (汤森路透)公司开发的,和 WOS 是一家公司,所以 HistCite 只支持 WOS 数据库,对于 Scopus 等数据库则无能为力,不过 Github 上面有人写了一个可以将 Scopus 导入 Histcite 进行分析的脚本——Scopus2Histcite,有兴趣的同学可以去试试看。
2016年10月,汤森路透知识产权与科技业务被 Clarivate Analytics (科睿唯安)公司收购了,从此 WOS 也是归该公司所有,因此导出的数据纯文本也发生了些许变化,从而不能直接导入 HistCite 进行分析。不过别担心,HistCite Pro 完全兼容新的文件格式!
打开WOS,注意数据库要选择核心合集(Core Collection)!
例如简单检索一下石墨烯在锂离子电池负极中的应用:
检索结果不是太多,可以全部导出,如果文献太多的话,可以先按照被引频次降序排列,只导出前2000篇就差不多了。
下面开始导出文献信息,点击页面上的【保存至 Endnote Online】按钮右边的下拉按钮,选择【保存为其他文件格式】。
在弹出的菜单中,记录数填写1到500,因为每次最多只能导出500篇文献,所以上面的2819篇文献需要分成6次导出,后面导出的时候依次填写501到1000、1001到1500等等。。。记录内容选择【全记录与引用的参考文献】,文件格式选择【纯文本】,然后点击发送即可得到导出的 txt 文件,类似可以导出其他5个。
注意:含500个记录的txt文档一般是3M左右,如果你的只有几百K,请仔细按照上面这张图进行导出!!!
下面使用 HistCite 来分析这6个txt格式的引文数据文件。由于 HistCite 多年不更新,现在存在各种 Bug,比如直接打开 HistCite,一加载文件就报错:No such file or directory。对于这种情况,你可以选择在 C 盘根目录下新建 fakepath 文件夹,然后将全部的 txt 文档复制到里面,再打开 HistCite 来进行加载,但是仍然会遇到下面 Format Unknown 的问题。
尝试第二种方法。选中所有的 txt 文件,然后拖到 HistCite 的图标上,放开鼠标,果然自动打开了软件。
但是,事情好像并没有那么简单,又出现了一个报错:Format Unknown。
最后,将每个 txt 文件的第一行中的 Science 改成了 Knowledge。
然后再将 txt 文件拖放到 HistCite 图标上面打开,终于成功加载了!
可以看到2819篇文献信息全部加载进来了。
在受到这么多折磨之后,我用 Python 开发了一个方便使用的脚步,于是一个以 HistCite 源程序为核心的精简易用免安装版本问世了,就叫 HistCite Pro 吧。
由于 HistCite 源程序只支持 Windows 系统,所以 Pro 版本也只能在 Windows 下使用!
=========================================================================================
这是《文献管理与信息分分析》课程内容的一部分。
对于科研工作者来说,除了掌握快速的收集信息和有效管理信息的能力之外,还需要有一定的信息分析能力。譬如,检索某个研究方向,结果文献有上千篇,此时我们该如何对待这些文献?精炼检索条件很可能会导致有价值的文献被排除在外。在交叉科学盛行的今天,如果想了解其它领域的进展情况,由于缺乏相应的专业知识,如何判断哪些文献是有重要参考价值的文献?这些问题的解决都需要我们具备一定的文献信息分析能力。
有人说,在WOS里按照引用次数排序,引用次数最多的必定参加价值更大,其实不然,后面会有解释。
我所知的文献信息分析软件有基于引文的分析软件histcite,基于内容分析的refviz、omniviz、Tda等,还有分析研究前沿的citespace等。
这里先简要介绍一下引文分析软件histcite它的功能和用法。
histcite=history of cite,意味引文历史,或者叫引文图谱分析软件。该软件系sci的发明人加菲尔德开发,能够用图示的方式展示某一领域不同文献之间的关系。可以快速帮助我们绘制出一个领域的发展历史,定位出该领域的重要文献,以及最新的重要文献。
软件的最新试用版本可以从http://science.thomsonreuters.com/scientific/m/HistCiteInstaller.msi 网站下载到。
软件的试用非常简单,但如何从软件给出的图谱中得出有价值的信息,以及不同图谱展示的内在含义,需要我们不断揣摩和理解。
下面先介绍一下如何使用软件;然后介绍一下软件里涉及的一些概念;最后给出几个个示例。
一、软件使用
1、从histcite网站下载软件,安装之后,点击histcite图标即可开启软件;软件打开后的窗口类似IE的界面;
2、数据的获取;histcite目前用于分析的文献信息只能来源于web of science数据库;在wos 数据库进行检索后,在页面的底端选择需要导出的数据记录,由于wos目前只支持每次导出500条记录,如果检索结果超过500条需要分多次导出。选择导出的文献记录之后,第二步,一定要选择输出全记录,并且要包含引文信息;第三步将需要的文献保存成文本文件。一般来说,如果文献记录少于500条,分析的意义不是很大。合适的数据量个人认为在几百到几千条记录之间比较合适。
3、从file菜单下点击add file,导入上述保存的数据;如果有多个文本文件,可以重复执行导入;
4、数据导入后,软件会自动进行分析。初学者可以不去追究各种按钮的含义。在tool菜单下,选择graph maker,然后在新的界面点击左上角的make graph 按钮。软件会根据默认的条件作出一张引文关系图来,来展示当前数据库中重要文献之间的关联。
5、读图 作出图之后,理解图谱才是关键。一般默认会画出30篇文献之间的关联。图上有30个圆圈,每个圆圈表示一片文献,中间有个数字,是这篇文献在数据库中的需要。圆圈的大小表示引用次数的多少,圆圈越大表示受关注越多。不同圆圈之间有箭头相连,箭头表示文献之间的引用关系。多数情况下,你会看到最上面有一个圆圈较大,并有很多箭头指向这篇文章。那么这篇文章很可能就是这个领域的开山之作。
以上就是软件的简单使用过程。
二、软件功能和基本概念
将数据导入到软件之后,文献会自动排列在软件的主界面。文献的排序方式可以按日期,可以按杂志或按作者进行排序。
文献记录的上方还有一些蓝色字体的按钮。这些词都是可以点击的,并进行相应分析。如点击authors,软件会列出所有作者,并将每位作者的文献数、引用次数等信息列出来。这些命令较容易理解,不多做介绍。
在默认窗口的有侧,有LCS、GCS、LCR、CR。下面分别解释一下这几个功能。
GCS是global citation score,即引用次数,也就是你咋web of science网站上看到的引用次数。如果你点击gcs,软件会按照GCS进行排序,此时的结果与你在wos网站按被引频次排序的结果是一样的。
CR是cited references,即文章引用的参考文献数量。如果某篇文献引用了50篇参考文献,则CR为50。这个数据通常能帮我们初步判断一下某篇文献是一般论文还是综述。
LCS和LCR是histcite里比较重要的两个参数。
LCS是local citation score的简写,即本地引用次数。与gcs相对应,gcs是总被引次数。lcs是某篇文章在当前数据库中被应用的次数。所以LCS一定是小于或等于GCS的。
一篇文章GCS很高,说明被全球科学家关注较多。但是如果一篇GCS很高,而LCS很小,说明这种关注主要来自与你不是同一领域的科学家。此时,这篇文献对你的参考意义可能不大。举个离子,2003年发表在nature上的两篇文章P1 (GCS:580,LCS:12) 和 P2(GCS:36,LCS:24)。第一篇文章gcs很高,lcs很低,说明关注这篇文章的绝大部分作者与你关注的方向不同。而第二篇文章经gcs较低,但LCS比第一批要高,即很多引用p2的文章都在当前数据库,也即与你的研究方向相关。所以,p1 p2相比,p2应该更贴近你的研究方向,参考价值更大。
在第一部分的介绍中,make graph时,默认是按LCS排序的,也可以选择按gcs排序。你可以比较一下这两者的差异,一般LCS作图,得到的关联较丰富,而gcs作图往往文献之间没什么关联。这就回答了上面开始提出的一个问题,为什么按引用频次排序往往不是很有参考价值的原因。
LCR与CR对应是local cited references,是指某篇文献引用的所有文献中,有多少篇文献在当前数据库中。如果最近有两篇文章,p1 p2,都引用了30篇参考文献,其中p1引用的30篇文献中有20篇在当前数据库,p2只有2篇文献在当前数据库。此时,p1相对更有参考价值,因为它引用了大量和你的研究相关的文献。
根据LCS可以快速定位一个领域的经典文献, LCR可以快速找出最新的文献中哪些是和自己研究方向最相关的文章。
注;引文有些不规范导致引文分析结果偏差,这里暂不做讨论。感兴趣的朋友可以参考引文相关的理论文献或书籍。
三、部分结果示例
这里选择了一个我上课的例子,和学生作业中的例子。更多示例请大家参考中科大生命科学实验中心论坛上学生提交的作业。http;//biotech.ustc.edu.cn/forum
第一个例子是关于合成生物学(synthetic biololgy),2000年之后发展起来的、并在近年广受关注的学科。在wos里以synthetic biology进行检索,2009年10月30日可以获得2297篇参考文献。下载后导入hiscite,按lCS作图;结果如下:
从第一个图可以看出704这篇文献应该是一片开创性的工作,或是一篇重要的综述。后面的1077 1134 1089这三个圆圈较大,说明这几篇文献受到广泛关注,具有较重要的地位。
图2就是相同的数据库按GCS做图得到的结果,可以看到这些文献之间没什么关联。所以在wos中,按引用频次排序,即使排在前面的文献对您也未必有多大参考价值。
(学生作业中对上图的解释:在web of science上检索主题包含G-quadruplex和detection的文章,一共108篇,用histcite作图,该图表明有关将G-quadruplex应用于各种检测的研究工作主要从05年Nagatoishi S;发表在德国应化和He F发表在JACS上的全文开始,逐渐有大量的文章发表,而前述两篇文章的LCS是最高的,其可读性也是非常大,从09年的数据来看,对同年发表的文章的引用次数大大增加,表明该领域在09年的发展迅速。从CR的分析来说,编号为64,55,和1的几篇文章引用文献的数量非常大,应该是综述性文章,对初涉此领域的人也有较大的可读性。)
LCR分析结果
可以看出,排在前10位的都是近期非常具有参考价值的文献。
# |
Date / Author / Journal |
LCS |
GCS |
LCR |
CR |
1 |
2009 Agapakis CM, Silver PA Synthetic biology: exploring and exploiting genetic modularity through the design of novel biological networks MOLECULAR BIOSYSTEMS. 2009; 5 (7): 704-713 |
0 |
0 |
29 |
103 |
2 |
2179 Purnick PEM, Weiss R The second wave of synthetic biology: from modules to systems NATURE REVIEWS MOLECULAR CELL BIOLOGY. 2009 JUN; 10 (6): 410-422 |
1 |
3 |
29 |
126 |
3 |
2284 Weber W, Fussenegger M The impact of synthetic biology on drug discovery DRUG DISCOVERY TODAY. 2009 OCT; 14 (19-20): 956-963 |
0 |
0 |
27 |
72 |
4 |
1699 O'Malley MA, Powell A, Davies JF, Calvert J Knowledge-making distinctions in synthetic biology BIOESSAYS. 2008 JAN; 30 (1): 57-65 |
5 |
6 |
21 |
78 |
5 |
1969 Leonard E, Nielsen D, Solomon K, Prather KJ Engineering microbes with synthetic biology frameworks TRENDS IN BIOTECHNOLOGY. 2008 DEC; 26 (12): 674-681 |
1 |
2 |
21 |
81 |
6 |
2165 Picataggio S Potential impact of synthetic biology on the development of microbialsystems for the production of renewable fuels and chemicals CURRENT OPINION IN BIOTECHNOLOGY. 2009 JUN; 20 (3): 325-329 |
0 |
0 |
21 |
60 |
7 |
1451 Drubin DA, Way JC, Silver PA Designing biological systems GENES & DEVELOPMENT. 2007 FEB 1; 21 (3): 242-254 |
20 |
32 |
20 |
107 |
8 |
2008 Tanouchi Y, Pai A, You LC Decoding biological principles using gene circuits MOLECULAR BIOSYSTEMS. 2009; 5 (7): 695-703 |
0 |
2 |
17 |
78 |
9 |
2184 Bhalerao KD Synthetic gene networks: the next wave in biotechnology? TRENDS IN BIOTECHNOLOGY. 2009 JUN; 27 (6): 368-374 |
0 |
1 |
16 |
66 |
10 |
2132 Deplazes A Piecing together a puzzle An exposition of synthetic biology EMBO REPORTS. 2009 MAY; 10 (5): 428-432 |
0 |
0 |
15 |
38 |
结语;
文献信息分析只是为我们提供了不同的视角去了解别人的工作,让我们能够更快的找到最有价值的信息,但任何分析都不能代替我们阅读文献。
如果你想了解更详细的软件使用方法,可以下载《文献管理与信息分析》课程中相应的教学录像。也可以关注我后续将推出的软件教程。