使用java提取pdf内容

    之前使用pdfbox提取pdf中的内容,一直比较正常,对中文也基本能够支持。在最近的测试中发现有少量文件无法提取内容,还有一个文件提取时报错。

   首先是无法提取文件内容的问题(出现这一问题的文件均为网上填写的报名表),一开始没有使用PDFParser,直接用了stripper,提取时不报错,调试时发现程序进行到stripper就停止了。参考他人的程序后,先创建PDFParser再调用getPDDocument(),程序报错。错误原因是出现不可识别的字符集“UniGB-UCS2-H”,查阅了一下,遇到这个问题的童鞋不少,都没能够很好的解决。

    提取时报错的文件是从网上下载的论文,报错内容为“NoClassDefFoundError:org/bouncycastle/jce/providor/BouncyCastleProvidor”.于是乎下载并安装了BouncyCastleProvidor。具体方法戳这里http://baike.baidu.com/view/1627540.htm。满心欢喜地再一次试着提取,错误又变为找不到”bouncycastle.cms.CMSException”,奇怪的是我也找不到这个在哪里,以为是providor的版本问题,换了版本之后,报错又变为缺少“ans1.DEREncodeable”。

     在网上进行一通寻找之后无果,于是无奈地尝试了xpdf这个工具。之前报错的文件都能正常解析了,之前正常的文件依然正常~

     而且,貌似xpdf字体扩展很方便。先用着呗。

    xpdf用法请戳:http://hi.baidu.com/stone_kings/item/da5acb36dc539a372f20c463。

   

你可能感兴趣的:(java,c,测试,扩展,工具)