关于Apache Tika的学习和使用

一. Apache Tika的简介

Apache Tika 是利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具,编程语言为Java。

其功能包括:
1.侦测文档的类型,字符编码,语言,等其他现有文档的属性。
2.提取结构化的文字内容。

Tika的架构:
下图为Tika的架构以及关键零部件的主要设计目标:由一个解析器框架,MIME检测机制,语言检测,和一个facade组件联系所有组件。外部接口,包括命令行和图形界面,允许用户集成到脚本或者应用程序,并与Tika直接交互。在整个结构中,Tika的体系结构是可扩展的,新的解析器可以轻松地添加和删除。


1358587548_5967.JPG

二. Tika的下载及安装

下载并配置Java JDK
下载Tika的源代码Mirrors for tika-1.14-src.zip和Tika的jar包Mirrors for tika-app-1.14.jar

image

在cmd里键入命令打开GUI图形界面


QQ图片20180521224546.png

image.png

三. 文件解析

先编写一个二进制文件tika.txt


QQ图片20180521224615.png

用GUI图形界面打开这个文件,显示提取的元数据Metadata


QQ图片20180521224605.png

再将其解析为其他格式
Formatted Text


QQ图片20180521224622.png

Plain text


QQ图片20180521224626.png

Main content为空
QQ图片20180521224630.png

XML
QQ图片20180521224635.png

json


QQ图片20180521224639.png

四. 用命令行使用tika

查看Tika命令行的基本参数


QQ图片20180521224642.png

用命令将解析doc文件


QQ图片20180521224655.png

你可能感兴趣的:(关于Apache Tika的学习和使用)