读取PDF中的文件内容 (附上jar包)

最近要做全文检索 其中之一要读取pdf附件,试了几个网上的demo 都没成功 所以自己捣鼓了一下 亲测无误

import org.apache.pdfbox.io.RandomAccessBufferedFileInputStream;
import org.apache.pdfbox.io.RandomAccessRead;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;

/**
 * @ClassName TestPDF
 * @Description TODO
 * @Author heming
 * @Date 2019/3/14
 */
public class TestPDF {

    public static void main (String[] args) {
        File file = new File("D:/test/kfsc.pdf");
        FileInputStream in = null;
        try {
            in =  new FileInputStream(file);
            RandomAccessRead randomAccessRead = new RandomAccessBufferedFileInputStream(in);
            PDFParser parser = new PDFParser(randomAccessRead);
            parser.parse();
            PDDocument pdDocument = parser.getPDDocument();
            PDFTextStripper stripper = new PDFTextStripper();
            String test = stripper.getText(pdDocument);
            System.out.println(test);
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

其中 pdf 相关的jar 如下

https://download.csdn.net/download/HM_1011000000/12348076

 

输出结果:


Connected to the target VM, address: '127.0.0.1:52384', transport: 'socket'
JAVA开发手册(拟定版)
一、编程规约
(一)命名风格
包命名规则 包名统一使用小写,点分隔符之间只能有一个单词,不要使用复数形式
不能出现下划线等字符。
正例:工具类包名 com.taiji.ak.util
类名
类名使用 UpperCamelCase(驼峰命名法) 风格。DO / BO / DTO / VO / AO / PO / UID等除外
Class命名一般使用名词或名词短语。
类名如果有复数含义,类名可以使用复数形式。
抽象类命名使用 Abstract 或 Base 开头。
异常类命名使用 Exception 结尾。
测试类命名以它要测试的类的名称开始,以 Test 结尾。
枚举类型使用Enum结尾
常量名
常量命名全部大写,单词间用下划线隔开,力求语义表达完整清楚,不要嫌名字长。
正例: MAX_STOCK_COUNT
反例:MAX_COUNT
方法变量名
方法名、参数名、成员变量、局部变量都统一使用 lowerCamelCase 风格,必须遵从驼峰形式。
正例: localValue   / getHttpMessage()   / inputUserId   
POJO 类中布尔类型的变量,都不要加 is 前缀 ,否则部分框架解析会引起序列化错误
反例:定义为基本数据类型 Boolean isDeleted 的属性,它的方法也是 isDeleted() , RPC框架在反向解析的时候,“误以为”对应的属性名称是
deleted ,导致属性获取不到,进而抛出异常。
代码
......

 

你可能感兴趣的:(Tips)