IR_Project1_TASK1——grobid从安装到使用

(其实原先写了一些,但没联网保存,退出后就都没了,所以就鸽了几天才重新开始写)

这学期上王焱老师的信息检索课,老师第一节课劝退的时候甩出了两个大作业,其中一个就是做一个文献检索的网站:

任务要求

第一部要做的是使用grobid将pdf解析成xml。在做的时候遇到了许多问题,网上的相关资料又特别少,所以写这一篇介绍来分享一下做过程中的的各种坑收获。

一、下载安装:

1)下载

官方文档:https://grobid.readthedocs.io/en/latest/Install-Grobid/

左侧找到install ,点击框选部分,可以来到grobid项目的gayhub页面(mac用户用终端直接下载安装)

文档

点击release,进入发行版的下载,根据环境选择win或linux的版本:

gayhub
下载界面

等待下载完成,解压后将得到:core是核心程序,里面有各种api的测试文件,home等下说作用(见javaAPI),gradlew是用来开启服务的文件,至于其他的bin,doc应该都懂蛤,不懂的也不影响后续的使用。

文件目录

2)安装

按官网给的方法,需要进入文件目录,然后gradlew clean install:

官网说明
cd进目录,然后执行

实现的时候将会下一堆的jar包,很慢很慢,对于加快的方法,兴许挂一个V批嗯可能会有用(但我挂的时候没感觉多快)

安装结束后会有一个原谅色的大大的:


安装完成

3)启动服务

按官网的说明,在目录里用命令行输入:gradlew run就可以在本地8070端口启动服务:

官网说明

试试:


运行


出现大大的grobid

接下来在浏览器输入http://localhos:8070就可以在浏览器查看grobid服务:

网页服务

至此,grobid下载安装启动就完成了,接下来介绍下使用:

二、使用

1)网页GUI使用

这是最简单的一种使用方式,这里介绍下它的几种模式:

网页

TEI是最主要的使用方式,我们可以用它来处理pdf文档

PDF是用于处理带标注的PDF文档

Patent用于处理专利相关的文档?(这个官网的介绍有点看不懂,贴在下面,英语好的可以自己看)

官方介绍

在PDF下我们可以选择几种模式:

三种模式

header:处理论文的头部,处理论文从论文名到摘要的内容

fulltext:处理全文档,包括头部和引用

reference:处理论文的引用部分的内容

一般我们使用fulltext,因为它包含其他两个部分的内容,而在这个选项下又有其他选项,就按默认的来:

选项

接下来可以点击select file选择pdf文件,然后点击submint,等待几十秒,就可以在下方看到输出,你也可以将xml文件下载下来:

结果

好了,至此,你就可以把老师给的1000篇文档交给小组的其他成员,一人处理250篇。一个半小时就可以结束

但这种方式无法批量处理文档,怎么办呢?

2)javaAPI的使用

官网细心地给出了两个example,大家闲得无聊的可以下下来看看:

https://github.com/kermitt2/grobid-example

https://github.com/kermitt2/grobid-test-ant

经过我的踩的一个个坑,得出了以下调用方式(以grobid-example为例):

初始化引擎
配置文件
调用
其他函数的使用方式的位置
额外的jar包

但是在我使用的时候,一度陷入了量子状态,一会儿可以一会儿又报错的,而且报错的地方又在十分内部的地方,百度谷歌都找不到解决方法,于是我弃疗了。

3)curl的使用

在我的JAVA程序进入了量子状态后,我把眼睛投向了官网给出的第二种方法:curl,看起来好简单的!curl只需要一行代码诶!

curl的介绍

curl是什么呢?就是在使用命令行来访问网站,win10貌似自带,cd进目录,执行:

win10自带欸
 命令行使用curl

以上红框部分是cd进目录并执行curl的演示,白框和蓝款是回车后的结果,其中,白框是curl向本地服务器8070端口发送的数据,蓝框是本地服务器返回的结果,包括头部和数据。

这个要怎么批量处理嘞?等等!貌似python有个os库有系统相关的东西,一查,果然——os.popen("cmd命令")可以用于调用cmd,在参数中传入cmd命令,接受cmd的结果

那我们就用python大法处理pdf文件吧,如下图,再写个保存和for循环就可以了,美滋滋啊!

代码及运行

但在处理的时候发现一些文档会有编码问题:

编码问题

这是为什么呢?百度后得知win10中国区的cmd默认编码是gbk,而当文档中出现其他gbk外的西文字符时,将出现这个问题,知道问题所在后,我用修改注册表的方式修改了cmd的编码方式,但这时候又出现了没有被服务器拒绝的问题:

为什么要拒绝我嘞!!!

找了半天找不到解决方法,但在寻找的过程中,我发现了curl貌似是个比较过时的东西,现在大家用的都是

貌似是urllib和request了,啥?urllib?request?老朋友啊!!

4)webAPI调用

python大法好

python大法好

python大法好

官方文档给出了api的使用方法:

P!


P2

所以我们知道可以向http://localhost:8070/api/processFulltextDocument用post方法将文档发送过去,然后得到xml的response,在post的数据端中有一个必填的input,值为文档二进制内容,选填的我们可以不管:

核心代码

图源:手动截图

你可能感兴趣的:(IR_Project1_TASK1——grobid从安装到使用)