Histcite是一款科研文献引文分析利器,通过数据分析,可以快速绘制出某个研究领域的发展脉络图,让你找到重要文献和学术大牛。是一款受众非常小的强大工具。
首先需要从 WOS 下载某个领域的文献,导出后使用 HistCite 分析,制作出脉络图,在这个过程中由于到处文本格式问题,需要折腾。于是作者就用 Python 写了一个更好用的增强版本,称为 HistCite Pro,比原版更加好用一些。
如果你选修过中国科学技术大学罗昭锋老师的MOOC课程《文献管理与信息分析》,那么你一定不会对HistCite这款软件陌生。这是一款非常强大的引文分析工具,可以快速绘制出某个研究领域的发展脉络,快速锁定某个研究方向的重要文献和学术大牛,还可以找到某些具有开创性成果的无指定关键词的论文。
以前,我们在 Web of Science (以下简称WOS)上搜索某个研究领域的文章,通常都是按照被引次数倒序排列,想当然地认为前面几篇文章肯定是最重要的了,其实不然,往往有几篇更重要的文章并没有上榜。如果说引用你的文章表示给你的文章投一票的话,全球引用你文章的人太多了,但并不都是有效引用,只有相同领域的人引用的才能真正表示你在这个领域中的实力。另外还有一种可能,你是某个研究方向的开创者,比如你发明了某种材料,但是后来这种材料的名字变了,所以之后的文章用的关键词都是新名字,你搜新名字关键词是搜不到你的开创性文章的,而这个研究方向的论文全部引用了你的文章,可见你的文章非常重要。
好了,话不多说,下面开始使用这个工具。首先要了解一点,HistCite这款软件是Thomson Reuters公司开发的,对,和WOS是一家公司,所以HistCite只支持WOS数据库。
打开WOS,注意数据库要选择核心合集(Core Collection)!
由于我的研究方向是锂离子电池,所以简单检索了一下“lithium ion batter*”,注意要带双引号表示严格匹配,而且此处的星号不是被和谐的,而是通配符,表示最后一个单词可以是battery或者batteries。
检索了一下,发现结果有29000多条,看来这个研究方向真的很热啊!
面对这个庞大的数字,我果断选定了其中的一个小方向——石墨烯在锂离子电池负极中的应用。检索词如下:
嗯哼,结果不错,只有2819条,然后按照被引频次(降序)排序。
下面开始导出文献信息,由于文献总数不是太多,可以全部导出,如果文献太多的话,只导出前2000篇就差不多了。点击页面上的【保存至 Endnote Online】按钮右边的下拉按钮,选择【保存为其他文件格式】。
在弹出的菜单中,记录数填写1到500,因为每次最多只能导出500篇文献,所以上面的2819篇文献需要分成6次导出,后面导出的时候依次填写501到1000、1001到1500等等。。。记录内容选择【全记录与引用的参考文献】,文件格式选择【纯文本】,然后点击发送即可得到导出的txt文件,类似可以导出其他5个。
有了6个TXT格式的文献引文数据文件,那就开始用HistCite来分析吧。好像目前这款软件好多年没有更新了,所以现在出现了各种Bug,比如我双击打开HistCite,然后弹出一个IE浏览器窗口,我点击File菜单下面的Add File加载txt文件,然后就报错了:No such file or directory
难道必须在C盘下面创建一个fakepath文件夹,然后每次都要把全部的txt文件拷贝进去再一个一个加载进来吗?太繁琐了吧。
然后罗老师就说了,其实可以直接把全部的txt文件拖放到HistCite的启动图标上,然后就可以自动加载了,好的,关掉刚才打开的HistCite,我来试试这个方法。选中所有的txt文件,然后拖到HistCite的图标上,放开鼠标,果然自动打开了软件。
但是,事情好像并没有那么简单,不一会儿,又出现了一个报错:Format Unknown。
这TMD是怎么了,难道就不能好好的成功一次给我看看吗?
最后,在罗老师的指引下,我将每个txt文件的第一行中的Science改成了Knowledge。然后再将txt文件拖放到HistCite图标上面打开,终于成功加载了!
可以看到2819篇文献信息全部加载进来了。
在受到这么多的折磨之后,我不得不吐槽HistCite软件用起来怎么这么不爽,于是就想着能不能用Python开发一个方便使用的脚步,很快,用了30行代码就完成了,真得再一次给Python点个赞!为了方便更多的人使用,用py2exe转成了exe程序,于是一个以HistCite为核心的精简易用免安装版本问世了,暂时就叫HistCite Pro吧,嘻嘻~
这款软件用起来非常方便,只要你是Windows系统,下载了就可以直接用,不用安装,而且去掉了很多没有用的文件,大大缩小了软件体积。对于从WOS上导出的txt文件,不用做任何修改,只要把全部的txt放到TXT文件夹里面,然后双击main.exe即可一键完成加载,非常方便。当时把这个软件推荐给罗老师,他还同时转发到了东区和西区的课程QQ群里,真是感动~
HistCite Pro 下载链接:http://pan.baidu.com/s/1hsIwJzQ
好了,数据加载完毕,下面开始分析数据吧,点击Tools菜单下的Graph Maker。
在弹出的页面上点击 Make Graph 即可得到一张引文关系图,看上去好像很乱,实际上却包含了最有价值的前30篇文章的完整引文关系。当然了,我的这张图没有太多分块的聚集区域,图还是非常好的。
这张图看起来不是很清楚,于是在左边的Size选项中选择了Full模式,重新绘制了一张,果然清晰多了,然后右击图片“另存为”一张图片即可。
图上有30个圆圈,每个圆圈表示一篇文献,中间的数字是这篇文献在数据库中的序号。圆圈越大,表示被引用次数越多,受到关注越多。不同圆圈之间有箭头相连,箭头表示文献之间的引用关系。多数情况下,你会看到最上面有一个圆圈较大,并有很多箭头指向这篇文章。那么这篇文章很可能就是这个领域的开山之作。
通过我绘制出的这张关系图,我们发现标号为29、49、56、60的四个大圆圈非常显眼,可见这四篇文献的被引次数都是非常高的,我们对全部文献进行按照LCS排序,发现前四位刚好就是这4篇文献。
再回到那张圆圈箭头关系图,可见石墨烯在锂离子电池负极材料中的应用研究主要起源于2008年(29号文献),其通讯作者Honma来自日本,看来日本在石墨烯电池方面的研究开展得相当早。之后,在2010年,很多原创性的成功迸发而出,具有代表性的就是49、56、60、48号文献,非常有趣的是,2010年诺贝尔物理学奖的获奖项目刚好是石墨烯,其中的关联显而易见。之后的几年,石墨烯在锂离子电池负极方面的研究越来越多,方向约越来越细。
好了,前面提到HistCite可以找到某些具有开创性成果的无指定关键词的论文,我们来看看是怎么办到的。点击页面上的【Cited References】,然后就可以看到本地库中文献参考的全部文献信息,后面带有加号的表示本地txt库中没有包含,这些往往就是被遗漏的重要文献。
同样的,我们点击上面的【Authors】按钮,可以找到本领域的一些大牛,具体的读者可以自己去摸索。最后附上HistCite里面几个重要的英文缩写(感谢Dingledodies知友):
GCS(global citation score), 某一文献在WOS数据库中的总被引用次数。有些引用这篇参考文献的文章可能和你的研究方向毫无关系,但GCS还是会把这个引用数据记录下来。
LCS(local citation score),某一文献在本地数据集中的被引用次数。因为你导入Histcite的文章都是和你检索词有关系的,可以认为这些文章是你的研究同行,因此如果某一篇文献的LCS值很高,就意味着它是你研究领域内的重要文献,很有可能是你领域内的开创性文章,注意LCS高的文献和GCS高的文献不一定是同一篇!
LCR(local cited references), 某一文献引用本地数据集中参考文献的数目。根据LCR值的排序,可以快速定位近期关注该领域的重要文献,因为某一篇文献引用当前数据集中的文献数越多,说明它非常关注你检索的这个研究方向的文献,和你的研究肯定有相似或者可参考之处,可以从该文章中发现新动向。
CR(cited references), 某一文献引用WOS数据库中参考文献的数目。这个值越高,说明这篇文献很可能是综述性文献,可根据该值的排序,也可快速定位综述文献。
140.5M / 09-05
立即下载76.4M / 03-25
立即下载55M / 06-05
立即下载237.9M / 04-13
立即下载900.9M / 03-02
立即下载96.2M / 07-06
立即下载311.2M / 07-06
立即下载335M / 07-06
立即下载200M / 07-06
立即下载413.8M / 07-06
立即下载484.7M / 09-27
立即下载165.4M / 09-05
立即下载353.9M / 06-05
立即下载131.8M / 04-13
立即下载195.6M / 03-03
立即下载45.6M / 09-08
立即下载665.2M / 07-06
立即下载2.84G / 07-06
立即下载93M / 07-06
立即下载338.3M / 07-06
立即下载1.38G / 07-26
立即下载488.3M / 07-16
立即下载109.8M / 06-03
立即下载142M / 01-08
立即下载1.2M / 11-23
立即下载548.8M / 04-13
立即下载1.6M / 04-13
立即下载1.48G / 03-18
立即下载646.6M / 03-03
立即下载133.7M / 03-03
立即下载110.5M / 09-05
立即下载33.4M / 09-05
立即下载325.8M / 08-12
立即下载60M / 04-29
立即下载254M / 04-25
立即下载659M / 04-23
立即下载1M / 12-26
立即下载253.4M / 12-08
立即下载253M / 12-08
立即下载1.19G / 11-16
立即下载369M / 09-22
立即下载181.5M / 09-22
立即下载201.2M / 09-05
立即下载488.3M / 07-16
立即下载248.9M / 12-08
立即下载248.9M / 12-08
立即下载100.6M / 03-06
立即下载148.9M / 03-06
立即下载1.12G / 07-06
立即下载1.25G / 07-06
立即下载1.76G / 09-22
立即下载1.92G / 04-17
立即下载116.2M / 04-10
立即下载201.5M / 04-13
立即下载7.31G / 07-01
立即下载94.3M / 07-06
立即下载2.48G / 07-06
立即下载7.63G / 07-06
立即下载1M / 07-06
立即下载778.1M / 07-06
立即下载561.8M / 07-11
立即下载72M / 07-06
立即下载548.7M / 07-06
立即下载1.00G / 07-06
立即下载9.13G / 07-06
立即下载126.2M / 07-06
立即下载72M / 07-06
立即下载105.1M / 07-06
立即下载132M / 07-06
立即下载132M / 07-06
立即下载