实现代码如下:
import java.io.*;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
public class PDFReader {
public static String file_path = "E:\\test\\test-1.1.0-手册.pdf";
// 获取PDF内纯文本信息
public String getTextFromPdf(String filename) throws Exception {
FileInputStream instream = new FileInputStream(filename); // 根据指定文件创建输入流
PDFParser parser = new PDFParser(instream); // 创建PDF解析器
parser.parse(); // 执行PDF解析过程
PDDocument pdfdocument = parser.getPDDocument(); // 获取解析器的PDF文档对象
PDFTextStripper pdfstripper = new PDFTextStripper(); // 生成PDF文档内容剥离器
String contenttxt = pdfstripper.getText(pdfdocument); // 利用剥离器获取文档
System.out.println("文件长度: " + contenttxt.length() + "\n");
return contenttxt;
}
public static void main(String args[]) {
PDFReader pdfbox = new PDFReader(); // 生成PDFBoxHello对象
try {
// 获取文档纯文本内容
String doctext = pdfbox.getTextFromPdf(file_path);
System.out.println("文件内容: ");
System.out.println(doctext);
System.out.println("文件结束.");
} catch (Exception e) {
e.printStackTrace();
}
}
}
imports:
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
需要JAR文件:
pdfbox-1.7.1.jar、pdfbox-app-1.7.1.jar、fontbox-1.7.1.jar、jempbox-1.7.1.jar、commons-logging-1.1.1.jar等
下载链接: