pdf文字识别-按行读取

需求

使用pdfbox识别pdf文字,因为pdf是无结构的,导致识别的时候内容错乱,如果需要识别的是文本,可以按照行识别,这样方便对照内容。

引入maven依赖:截止23年的最新依赖

        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId

你可能感兴趣的:(pdf,java,apache)