java web之读取PDF文件内容

  1. 引入依赖
  2. 编写工具类
  3. 编写测试用例
  4. 运行结果

1 引入依赖

 
 
     org.apache.pdfbox
     pdfbox
     1.1.0
 

2 编写工具类

import java.io.File;
import java.io.FileInputStream;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;

/**
 * @version V1.0
 * @ClassName: wzl
 * @Description: TODO
 * @author: guoyiying
 * @date 2019/12/27 13:51
 */
public class PDFUtil {

    public static void main(String[] args) throws Exception {
        File f = new File("E:/JAVA/demo.pdf");
        String s = PDFUtil.getContent(f);
        System.out.println(s);
    }

    public static String getContent(File f) throws Exception {
        FileInputStream fis = new FileInputStream(f);
        PDFParser p = new PDFParser(fis);
        p.parse();
        PDDocument pdd = p.getPDDocument();
        PDFTextStripper ts = new PDFTextStripper();
        String c = ts.getText(pdd);
        pdd.close();
        fis.close();
        return c;
    }
}

3 编写测试用例

java web之读取PDF文件内容_第1张图片

4 运行结果

java web之读取PDF文件内容_第2张图片

参考文章

Java程序员从笨鸟到菜鸟之(一百零三)java操作office和pdf文件(一)java读取word,excel和pdf文档内容

结语

项目开发中,难免会遇到读取PDF文件内容的需求,看这demo内容操作难度不大,于是笔者跟着敲了一遍,既然运行成功了,那么就在此做个记录。

本人所有博客仅用于学习记录,不做任何商业用途,如涉及侵权,还请联系删除,感谢阅读,欢迎留言,一起进步~

你可能感兴趣的:(Java,Web)