Apache Tika学习使用报告

一、Tika 简介

1. 基本介绍

Tika是一个具有内置解析器用于处理各种文档类型的程序框架。该框架公布了标准的API供应用程序调用并完成从文档中提取文本和元数据,内置解析器会在后台通过外部程序提供的API与之交互。这使得你的应用程序能够针对不同的文档类型使用相同的API。当程序需要从文档中提取文本时,Tika会找到相应的解释器。

简单来说,tika是Apache下开源的文档处理工具,支持多种格式文件的内容解析,主要功能包括文档类型检测、内容提取、元数据提取、语言检测。

2. tika支持的文件类型

二、安装和使用 Tika

1.安装Tika
1.1配置java环境

tika的使用前提是计算机已经有java SDK的环境,如果没有可以百度java SDK安装教程;安装好后在命令行中检测java环境

java -version

验证后结果如图,即java环境已经安装配置好


java.png
1.2下载Tika

下载Tika的源代码[Mirrors for tika-1.18-src.zip]和Tika的jar包[Mirrors for tika-app-1.18.jar]
配置Tika环境: 将tika-app-1.18.jar的完整路径加入到环境变量CLASSPATH中。

2.Tika的使用
2.1 查看Tika的选项信息
java -jar tika-app-1.18.jar --help
Apache Tika学习使用报告_第1张图片
选项信息.png

Apache Tika学习使用报告_第2张图片
选项信息.png
2.2 使用Tika的GUI界面
java -jar tika-app-1.18.jar --gui
Apache Tika学习使用报告_第3张图片
GUI.png

出现该界面后,直接拖拽文件到GUI界面即可,在左上角的view可以选择格式,可以解析成六种格式。


Apache Tika学习使用报告_第4张图片
元数据.png

Apache Tika学习使用报告_第5张图片
plain text.png
2.3 使用Tika的命令行(以一个Word文档为例)

输出为纯文本:

java -jar tika-app-1.18.jar -t 1.docx
text.png

输出json格式的元数据:

java -jar tika-app-1.18.jar -j 1.docx
Apache Tika学习使用报告_第6张图片
json.png

参考链接:
Tika是什么?如何安装Tika?
TIKA环境配置
Supported Document Formats

你可能感兴趣的:(Apache Tika学习使用报告)