如何从word、excel、pdf等文件中提取文字(Tika)

Tika-内容分析工具包

官方网站:https://tika.apache.org/

在maven仓库下载最新版依赖 https://mvnrepository.com/artifact/org.apache.tika/tika-parsers

懒得去的同学,提供一个笔者正在使用的依赖

             
    
	  org.apache.tika
	  tika-parsers
	  1.18
    

提取url中的文字信息

public class TikaDemo {
    public static void main(String[] args) throws IOException, TikaException {
        Tika tika = new Tika();
        String s = tika.parseToString(new URL("https://www.baidu.com"));
        System.out.println(s);

    }
}

 输出结果:

如何从word、excel、pdf等文件中提取文字(Tika)_第1张图片


提取word中的文字

如何从word、excel、pdf等文件中提取文字(Tika)_第2张图片

public class TikaDemo {
    public static void main(String[] args) throws IOException, TikaException {
        Tika tika = new Tika();
        File file = new File("文档.docx");
        String s = tika.parseToString(file);
        System.out.println(s);
    }
}

输出结果:


提取excel中的文字

如何从word、excel、pdf等文件中提取文字(Tika)_第3张图片

如何从word、excel、pdf等文件中提取文字(Tika)_第4张图片

public class TikaDemo {
    public static void main(String[] args) throws IOException, TikaException {
        Tika tika = new Tika();
        File file = new File("工作簿.xlsx");
        String s = tika.parseToString(file);
        System.out.println(s);
    }
}

输出内容: 

如何从word、excel、pdf等文件中提取文字(Tika)_第5张图片


提取pdf文件中的文字

如何从word、excel、pdf等文件中提取文字(Tika)_第6张图片

public class TikaDemo {
    public static void main(String[] args) throws IOException, TikaException {
        Tika tika = new Tika();
        File file = new File("pdf文件.pdf");
        String s = tika.parseToString(file);
        System.out.println(s);
    }
}

输出结果:

如何从word、excel、pdf等文件中提取文字(Tika)_第7张图片

 

你可能感兴趣的:(java其他)