Zotero translators是一款Zotero的中文网页抓取插件,用于维护各种中文翻译器,涵盖目标范围包括:
Zotero translators github下载及使用说明主页。在github主页按图1所示下载压缩包。
图1 Zotero translators下载主页
解压压缩包,可以看到图2所示的translators目录,将该目录中所需的文件复制到 Zotero 的 translators 目录(若忘记自己的Zotero—translators路径,可按图3在编辑——首选项中查看)。Zotero—translators路径下的目录内容如图4所示。
图2 Zotero translators目录
图3 Zotero数据存储位置
图4 Zotero—translators路径下的目录内容
笔者全部进行了复制,并且提示有5个内容重复,选择了替代。
然后检查是否可用,以知网为例,打开网页,任意检索之后,发现Zotero Connector显示为文件夹形式,表示可用。
图5 Zotero—translators知网的测试
图6 Zotero—translators知网测试不可用时的状态
在Zotero Connector插件上右键,点击选项,可打开其参数界面查看首选项设置。Zotero Connector Preferences。在Advanced界面点击“Update Translators”,可多点击几次保证更新完成。
注:更新过程中也可以勾选“Enable Logging ”及“Show in Console”,则会在“0 lines logged”位置更新日志记录,以查看更新。
若不可用,也可在添加翻译器后重启软件,更新后重启浏览器再次尝试。
图7 Zotero Connector网页更新Translators
在1.2.1节中(图5)以知网作为示例演示了CNKI.js的使用。
此节以知乎为例进行演示,安装方式与1.2.1节所述方式相同,先将下载的Zhihu.js文件拷贝到Zotero——translators文件夹下,并在浏览器Zotero Connector插件中更新。
在任意打开的网页中,点击Zotero Connector插件,显示已抓取到此篇文章(图8)。
注:知网:此页面显示文件夹;知乎:则不显示文件夹。
图8 Zotero Connector+zhihu.js抓取知乎文章
如图8所示,获取内容格式为快照,双击可自动打开网页,但在Zotero中未显示正文内容。
通过查阅Zotero Connector的首选项设置可知,其默认附件内容为保存快照(automatchSnapshots)(图9)。
图9 Zotero Connector Preference设置
打开Zotero软件,按照“编辑——首选项——常规”顺序,取消勾选文件处理下的“从Web页面创建条目时自动生成快照”即可(图10)。
图10 Zotero取消Web界面自动生成快照
设置上述操作后,重新在知乎界面点击Zotero Connector,可以看到已经显示正文的文件夹内容(图11)。
图11 Zotero Connector+zhihu.js抓取知乎文章(含有正文)
在Zotero界面查看正文内容,以笔记形式存在,格式与知乎页面排版几乎一样(图12);
而且点击该文章,在右侧“其他”会显示这篇文章的赞数(图13)。
图12 Zotero Connector+zhihu.js抓取知乎文章(附件)
图13 Zotero Connector+zhihu.js抓取知乎文章(点赞)
在知乎问答界面,可以看到Zotero Connector是呈文件夹形式的,表明含有多个回答的内容可以保存(图14)。
图14 Zotero Connector+zhihu.js抓取知乎问答内容
作为演示,笔者全部选择点击Ok后,浏览器显示已全部保存并且包含正文回答内容(图15)。
图15 Zotero Connector+zhihu.js抓取知乎问答内容(浏览器显示)
打开Zotero软件,依次点击条目及附件可看到对应内容(图16)。
图16 Zotero Connector+zhihu.js抓取知乎问答内容(Zotera)
如1.1节介绍,还有很多不同的中文翻译器,可以自己摸索尝试。后续随缘更新使用情况吧!
上文提到的知网等中文翻译器允许从不同的搜索引擎界面,利用Zotero Connector直接获取题录及对应PDF等附件内容。但是不能满足从Zotero软件直接导入中文PDF文件的元数据读取需求。
Jasminum就是为了解决这一问题而出现的,具Jasminum github官网主页介绍,含有功能包括:
从Jasminum github官网主页下载Jasminum.xpi文件(图17)。
图17 Jasminum下载
打开Zotero主页,按照“工具——插件——Install Add-on From File”选择刚才下载的Jasminum.xpi文件进行安装。安装后重启软件即可。
图18 Jasminum安装
若想使用Jasminum的书签添加功能,需要提前安装好PDFtk server,该书签工具有多个版本(Windows, Linux, Mac),笔者下载的是Windows 10版本,PDFtk server下载链接(图19)。
图19 PDFtk server下载
下载之后,双击进行安装,步骤如图20所示。
图20 PDFtk server安装
接下来,验证该命令行程序是否安装成功可用,通过“windows+R”快捷键打开命令提示符并输入“cmd”,点击确定在弹出窗口输入“pdftk”,“pdftk --version”均提示错误,错误内容如图21。
图21 PDFtk server测试
这是因为没有找到pdftk.exe。笔者是安装在"D: Program Files (×86)\PDFtk Server\bin"目录下的。(每个人安装的目录都不一样)
图22 PDFtk安装路径
需要将上述目录添加到系统变量中。
按照“桌面——右键“我的电脑”——属性——高级系统设置——环境变量”顺序,打开环境变量设置界面(图23)。
图23 环境变量打开路径
复制上面所述路径,并添加到系统变量“Path”下,点击确定(图24)。
图24 系统变量设置
添加路径到系统变量之后,重启电脑,再次打开命令提示符窗口,输入“pdftk”即可发现可以运行,并出现对应内容。表示环境变量设置正确,软件安装成功(图25)。
图25 PDFtk server测试成功
如图26,可根据需要选择勾选四项知网参数;此外,还可以设置抓取文件(PDF或者CAJ)名称的识别格式,默认格式为{%t}_{%g},即标题_作者。
在安装Jasminum与PDFtk server之后,在Zotero软件编辑——首选项界面,可以看到多了茉莉花选项(图26)。可以看到未识别默认路径下的PDFtk server,将路径选择为笔者安装的“D:\Program Files (x86)\PDFtk Server\bin”,图26中显示的红色感叹号便会变为绿色对号✅。
图26 茉莉花——中文插件设置
在1.2.1节安装中文翻译器+Jasminum插件后,打开“非官方维护中文翻译器”并未看到安装的中文翻译器(图27),点击下方的“刷新”,即可看到已经安装的中文翻译器内容,并可以看到右侧的Update状态,需要更新的翻译器后面会显示蓝色图标(图28)。
图27 Jasminum插件非官方维护中文翻译器的原始界面
图28 Jasminum插件非官方维护中文翻译器的更新界面
从上图中可以看到,涵盖了维普、万方、知网、微信公众号、知乎等多个中文网站,非常便利。
点击“更新全部”即可自动更新中文翻译器,由图28可知,还需在浏览器Zotero Connector更新翻译器的信息,更新步骤可参考:
以上两种更新方法完全一样,任意选择即可。
图29 Jasminum交流联系方式
Jasminum插件是依据文件名来获取中文文献的标题与作者,“DOI”获取英文文献的元数据。
常见的满足需求的文件名格式如图30所示,或参看github不同历史版本Jasminum的介绍。获取的元数据用于参考文献排版。
图30 Jasminum文件名格式
举例来说,从知网随意下载一篇文章,其默认文件命名格式如图31,标题_作者。
图31 知网下载的中文文献格式
将该文献直接拖入到Zotero,显示内容如图32。在此拖动过程中即已自动完成了元数据的识别。
图32 知网文献拖入到Zotero后的显示内容
对于未识别的可以右键PDF文献,选中菜单中的“抓取知网元数据”。
注意:对于不符合命名规则的论文,则不能获取原数据。
图33 知网文献元数据的获取
以2.3.2.1节中的文献为例,选中PDF文件所在条目,“右键——合并/拆分姓名”即可(图34)。拆分之后,由图35可知,作者的姓和名在两个表格中,可以进行分别编辑。
图34 Zotero作者姓名的拆分合并操作
图35 Zotero作者姓名的拆分示例
从知网另外下载的一篇中文文献,拖入Zotero中,可以看到,此时作者的姓与名是拆分状态,PDF命名也只显示了姓,未显示名(图36),有两种方式展示完整的姓名:
图36 Zotero作者姓名的拆分示例(3个字的姓名)
图37 Zotero作者姓名的合并示例
另外,如何在Zotero Connector 中添加中文姓名处理以及保留知网CAJ格式文件的设置。笔者添加了“translators.zhnamesplit”,并将参数设为“false”。使得默认姓名是合并状态。
图38 设置Zotero Connector导出文献名字为默认合并状态
按照本文2.2.1与2.2.2节描述的方式安装Jasminum与PDFtk server,具体的介绍可参考PDFtk Server Manual。
对于Zotero的书签自动添加功能,按照本文2.2.2节安装设置PDFtk server并验证可用后,在导入文献后会自动识别标签并添加,如图39,前文拖动导入的文献已自动添加了标签。
图39 Jasminum为论文 PDF 添加书签功能展示
此外,还可以自动为知网硕博论文添加目录,具体描述参考:超重要!如何为知网PDF硕博论文生成目录?
笔者在最开始的尝试过程中均未成功,并且提示PDF路径错误,后来将导入的文献删除,重新导入后,目录便自动生成了,显示如图40。(奇奇怪怪…)
图40 Jasminum为知网硕博论文添加目录
参考本文2.3.1.2节。