Apache Tika格式转换的简单使用

目录

  • Apache Tika介绍
  • Apache Tika实例一
  • Apache Tika实例二
  • Apache Tika实例三
  • 相关链接

一,Apache Tika介绍

Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。
使用Tika要下载一个压缩包和一个jar包,下载之后即可。下载地址:http://tika.apache.org/download.html
http://tika.apache.org/download.html

在当前的版本中, Tika提供了对如下文件格式的支持:
- PDF - 通过Pdfbox
- MS-* - 通过POI
- HTML - 使用nekohtml将不规范的html整理成为xhtml
- OpenOffice 格式 - Tika提供
- Archive - zip, tar, gzip, bzip等
- RTF - Tika提供
- Java class - Class解析由ASM完成
- Image - 只支持图像的元数据抽取
- XML

二,Apache Tika实例一

(1)配置运行环境
运行Tika首先我们要配置好java环境。下载并配置java jdk。之后在命令提示符中检验java 环境,输入javac 和 java -version

检验java环境

(2)Tika准备包下载之后,我们在命令提示符中输入自己安装tika-app-1.14 jar包的位置,我安装在F盘的ApacheTika
目录下,输入java -jar tika-app-1.14.jar –gui之后,会自动打开GUI界面

java -jar tika-app-1.14.jar –gui

cmd

GUI界面
(2)下面用一个具体的例子来看Tika 是怎样实现格式之间的转换的。你可以打开本地文件或者添加你要解析的url地址。
以四川大学公共管理学院教师主页为例.实现HTML转换成其他格式

  1. 点击file-open URL-输入URL-确定
    转为metadata格式

2.点击view可以切换成其他的格式

Formatted text

Plain text

main context

xml格式

json格式
3.Tika 对图片的处理主要提供一些原信息,并不能分析出图片内的内容。

三,Apache Tika实例二

使用命令直接进行格式转换
在命令提示中定位到我们安装tika的位置后,输入java -jar tika-app-1.14.jar –help

java -jar tika-app-1.14.jar –help

结果如图所示

tika-help-1

tika-help-2
按Java -jar tika-app-1.14.jar –你想要转换的文件格式(如text) 要转换格式的文件的路径(如C:\tikatest.doc)

Java -jar tika-app-1.14.jar –text C:\tikatest.doc

即可得到反馈结果,其他格式方法一样。

四, Apache Tika实例三

在其他工程中使用Tika,这里以eclipse为例,新建一个要转换格式的文件,我把它放在C盘下

要转换的文件

新建一个java项目->导入tika-app-1.14.jar包->在src下面新建一个java文件->在javaw文件中编写代码->测试结果->生成转换后的文件

新建java项目-导入包-创建.java文件

写一个简单的测试例子,在test.java文件中写入如下代码

package Tika;
import java.io.File;  
import org.apache.tika.Tika;  

import java.io.*;


public class test {
    public static void main(String[] args) throws Exception{
        //二进制文件路径
        String fileName="c:/Tikatest.txt";

        //二进制文件
        File file1 = new File(fileName);

        //通过tika获取文件内容
        Tika tika = new Tika();
        String filecontent = tika.parseToString(file1);

        //打印文件内容
        System.out.println("Extracted Content: " + filecontent);

        try{

            //要转换到的文件
            File file =new File("c:/tikatest.doc");

            //文件不存在就新建
            if(!file.exists()){
                file.createNewFile();
            }

            //把二进制文件内容写入doc文件
            FileWriter fw = new FileWriter(file.getAbsoluteFile());
            BufferedWriter bw = new BufferedWriter(fw);
            bw.write(filecontent);
            bw.close();

            System.out.println("Done");

        }catch(IOException e){
            e.printStackTrace();
        }

    }
}

运行,结果如下:

运行结果

接下来,我们可以打开你存放转换后的文件的位置,可以看到生成了一个 你想转换成的文件

转换成功

打开有如下显示,则说明转换成功

转换成功.png

五,相关链接

https://tika.apache.org/download.html
http://blog.csdn.net/zwx19921215/article/details/24779371
http://blog.csdn.net/gyy823/article/details/20405057
http://www.jianshu.com/p/2a6ad1941788?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=qq

你可能感兴趣的:(io-ir,apache)