TIKA实验报告

                                   TIKA实验报告

1.tika是什么

        Tika 是一个文本内容检测和解析工具,主要功能包括文档类型检测、内容提取、元数据提取、语言检测。我觉得就是把文本内容可以换成你想要的格式,便于人或计算机识别和读取,比如pdf转成word,把txt转成json等。

2.Tika怎么安装

1.配置java环境

先去官网下载安装java jdk,安装成功后在本地cmd中输入java -version会有下图类似输出。

检验java

2下载Tika

下载Tika的源代码tika-1.18-src.zip和Tika的jar包tika-app-1.18.jar。

tika-1.18-src.zip
tika-app-1.18.jar

3.Tika怎么使用

在本地cmd中输入java -jar E:\tika\tika-app-1.18.jar(你的本地taki.jar路径)--gui。会进入Tika的GUI界面。


Tika的GUI界面

之后把你想要解析的东西直接拖进去就行了。默认显示提取的元数据,你可以在view随意切换成其他属性,view中一共有6中。


元数据Metadata


Formatted Tex


Plain Text


Main Content


XML


json

4.实验过程的问题

1.用迅雷下java官网的java jdk会下不了,会报错,打开之后是乱码,之后用百度云下载才成功的。

报错


乱码


2.cmd打开tika的gui界面的时候,tika的路径要是自己本地jar路径,不然打不开。还有-gui有可能打不开,-g可能打开的快一点,可以去java -jar E:\tika\tika-app-1.18.jar --help 查看相应命令。

5.实验总结

从本次实验中,了解了tika是什么东西和简单的运用,只是在本地打开和用tika是比较简单的,不过要用的好还是要多琢磨的。

你可能感兴趣的:(TIKA实验报告)