文本解析工具--Apache Tika使用报告

目录

1.Apache Tika简介

2.Apache Tika配置安装

3.Apache Tika使用体验


1.Apache Tika简介

TiKa

Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。

1.1 功能简介

侦测文档的类型,字符编码,语言,等其他现有文档的属性。

提取结构化的文字内容。

该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。编程语言为Java.

1.2 支持的文档格式

目前支持的文档格式和对应的解析类库如下:

文本解析工具--Apache Tika使用报告_第1张图片
捕获.PNG
文本解析工具--Apache Tika使用报告_第2张图片
获.PNG

2.Apache Tika配置安装

文本解析工具--Apache Tika使用报告_第3张图片
TiKa版本

TiKa提供了一个命令行界面和一个GUI界面,还提供一个java库。我选择下载了app版。下载地址

输入命令java -jar tika-app-1.15.jar --gui打开gui图形管理界面:

文本解析工具--Apache Tika使用报告_第4张图片
图片.png

新建待分析文本tika+text.txt

文本解析工具--Apache Tika使用报告_第5张图片
图片.png

Metadata:


文本解析工具--Apache Tika使用报告_第6张图片
图片.png

Formattedtext:

文本解析工具--Apache Tika使用报告_第7张图片
图片.png

plain text:

文本解析工具--Apache Tika使用报告_第8张图片
图片.png

Structured text:

文本解析工具--Apache Tika使用报告_第9张图片
图片.png

由于未知原因。我的json与main content没有提取出来:

文本解析工具--Apache Tika使用报告_第10张图片
图片.png
文本解析工具--Apache Tika使用报告_第11张图片
图片.png

还可以使用java -jar tika-app-1.15.jar --text *.doc命令进行文本格式的转换,text为要转变的格式,*.doc为你想要转变的文本的物理位置。

你可能感兴趣的:(文本解析工具--Apache Tika使用报告)