java读取pdf中数据,包含表格和图片

任务是提取pdf文件中的数据,并将其转化到csv格式的文件中。

首先用到的工具为开源jar包:pdfbox,由于pdf中没有表结构,且要提取的pdf文件格式固定,pdfbox提供extractbyarea方法,所以通过坐标可以提取表格中每一列的数据,好像方法挺笨的,但是没找到其他跟好的方法。

关于java操作pdf,在网上看到好多人说itext比pdfbox方便,功能强大,但是itext好像只是在生成pdf文件时比较方便,图表插入很方便,但是不太适合读取pdf中的信息。

然后是将提取的信息保存到csv文件中,居然还有个开源的javacsv.jar,用起来还是比较方便的

你可能感兴趣的:(java)