java 裁剪 pdf_PDFBox:使用Java轻松从PDF文件提取内容

不知道你是不是听过Java提供一种工具,可以提取PDDF的内容。本文就来向你介绍这种工具,它的名字叫 Apache PDFBox。

java 裁剪 pdf_PDFBox:使用Java轻松从PDF文件提取内容_第1张图片

什么是PDFBox

Apache PDFBox库是用来处理PDF文档的开源Java工具。它可帮我们做到:

1)创建新PDF文档;

2)更新现有文档;

例如添加样式,增加超链接等;

3)从PDF文档中提出内容。

从PDF阅读内容

当我们能够从PDF提取文本内容时,问题已经解决一半。下面我们举代码示例来完成此任务。

Apche PDFTextStripper的类PDFTextStripper(https://pdfbox.apache.org/docs ... .html)可以将PDF中的文本以去除所有格式的形式提出出来。它将忽略所有格式和特别样式。

tStripper = new PDFTextStripper();

tStripper.setStartPage(1);

tStripper.setEndPage(3);

PDDOocument document = PDDocument.load(new File("youpdfname.pdf"));

document.getClass();

if(!document.isEncrypted()){

pdfFileInText = tStripper.getTe

你可能感兴趣的:(java,裁剪,pdf)