WOS搜索输出文件的格式整理

Hallo~ 皮卡皮卡皮ヾ(°∇°)ノ

啊啊啊啊啊 每次WOS搜索输出后都需要手工搜索影响因子 并且修改excel文件格式,实在是太TM的烦了,因此决定写个python脚本,以一劳永逸

大概导师都是手残吧,呵呵

1. 首先我们康康一般的WOS怎么导出文献搜索结果

点击导出为 其他文件格式
WOS搜索输出文件的格式整理_第1张图片

  1. 选择需要导出的 搜索记录条数
  2. 选择导出 记录内容(由于我只需要整理2019-2020的PCS文献记录,因此只导出了 作者+标题+来源出版物)
  3. 选择 导出文件格式为WIN UTF-8
    WOS搜索输出文件的格式整理_第2张图片
    导出名为 savedrecs.txt 的记录文件,打开此txt ,键入ctrl + A 全选文件内容,复制到excel后,你将看到以下格式
    WOS搜索输出文件的格式整理_第3张图片
    可以观察到WOS导出的记录文件中 有太多我们并不需要的信息,一般而言需要文献出版的 年份、标题、期刊、作者、DOI 等信息即可。但是每次下载WOS的记录文件后都需要删除多余的列就太累了。
    以下展示的是我运行完脚本后的文件格式
    WOS搜索输出文件的格式整理_第4张图片
    没错!!!本猪猪还加上了IF!!!!哈哈哈哈哈

2. 获取JCR表格

EMMMM, 前提条件是你们学校买了JCR哈
WOS的JCR界面长酱紫
WOS搜索输出文件的格式整理_第5张图片
点入BROWSE BY CATEGORY
你将康到酱紫的页面
WOS搜索输出文件的格式整理_第6张图片
直接点击右上角的下载符号~ ,即可下载JCR表格(推荐下载格式为CSV)~ 内含各期刊的IF~
得到 JCRHomeGrid.csv 后,打开表格,将第一行删除,因为第一行妨碍了之后pandas解析表格
WOS搜索输出文件的格式整理_第7张图片

3. 写脚本啦~

理清思路!!!

  1. 首先我可能需要将多种检索结果汇聚在一起,比如说我一次搜索了PCS和streptomyces scabies还有thaxtomin 3个不同关键词,那么我需要将这些搜索的导出结果都汇聚成一个表格
  2. 我需要将每个检索结果的列都进行一次筛选
    我需要的只有PY(publish year)、TI(title)、AU(author)、SO(source? 其实是期刊名)、DI(DOI),一共5列,那么分别将每个检索结果的其它不需要的列去除后,再将结果合并在一起
  3. 解析JCR表格
  4. 合并JCR表格和检索结果表格,从而让每个期刊都拥有自己的IF
  5. 格式化excel的输出

最终结果长这样
WOS搜索输出文件的格式整理_第8张图片
最后可以利用DOI下载文献~

Gute Nacht~

你可能感兴趣的:(python)