pdf识别内容-移除页眉页脚

需求

pdf文件大多是出版物或者word转换而来,带有页眉页脚,在识别内容的时候,会把页眉页脚的内容识别到,导致内容中包含大量无用信息,可以在识别的时候,根据提前设置的页眉页脚大小,忽略掉此部分内容。
此教程同时也适用指定矩形区域识别。并且识别的结果是按照段落进行识别,避免了文字错乱,文字换行错乱的情况。本教程使用的是pdfbox进行操作。步骤如下:

前提准备

开发者需要了解一个前提,在pdf识别的过程做,坐标系是以左上角为起点(0,0),往右下角是正。

pdf识别内容-移除页眉页脚_第1张图片

代码示例开始

引入依赖

<dependency>
		<!--   主要是这个依赖包  -->
       

你可能感兴趣的:(pdf,java,apache)