JAVA实现PDF文件读取、处理研究-开源PDFBox实现

实现代码如下:

import java.io.*;


import org.apache.pdfbox.pdfparser.PDFParser;

import org.apache.pdfbox.pdmodel.PDDocument;

import org.apache.pdfbox.util.PDFTextStripper;


public class PDFReader {


public static String file_path = "E:\\test\\test-1.1.0-手册.pdf";


// 获取PDF内纯文本信息

public String getTextFromPdf(String filename) throws Exception {

FileInputStream instream = new FileInputStream(filename); // 根据指定文件创建输入流

PDFParser parser = new PDFParser(instream); // 创建PDF解析器

parser.parse(); // 执行PDF解析过程


PDDocument pdfdocument = parser.getPDDocument(); // 获取解析器的PDF文档对象

PDFTextStripper pdfstripper = new PDFTextStripper(); // 生成PDF文档内容剥离器

String contenttxt = pdfstripper.getText(pdfdocument); // 利用剥离器获取文档


System.out.println("文件长度: " + contenttxt.length() + "\n");

return contenttxt;


}


public static void main(String args[]) {

PDFReader pdfbox = new PDFReader(); // 生成PDFBoxHello对象

try {

// 获取文档纯文本内容

String doctext = pdfbox.getTextFromPdf(file_path);

System.out.println("文件内容: ");

System.out.println(doctext);

System.out.println("文件结束.");

} catch (Exception e) {

e.printStackTrace();

}

}

}

 

imports:

import org.apache.pdfbox.pdfparser.PDFParser;

import org.apache.pdfbox.pdmodel.PDDocument;

import org.apache.pdfbox.util.PDFTextStripper;

 

需要JAR文件:

pdfbox-1.7.1.jar、pdfbox-app-1.7.1.jar、fontbox-1.7.1.jar、jempbox-1.7.1.jar、commons-logging-1.1.1.jar等


下载链接:

http://pdfbox.apache.org/download.html

你可能感兴趣的:(OpenSource开源)