xpdf备忘

    由于pdfbox一直没有解决中文字体,不得不寻求其他路径,xpdf竟然只是一个软件,只是通过java采用命令行调用,并获取输出结果,如此来说使用简单,但是相当受限,如:无法跨平台,无法处理特定格式(表格等),无法处理图片和其他附件。这种调用必定限制了它的灵活性。

    下载:ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.00pl3-win32.zip,简体补丁:ftp://ftp.foolabs.com/pub/xpdf/xpdf-chinese-simplified.tar.gz

    详细的安装和使用教程,http://www.cnblogs.com/zhengyun_ustc/archive/2005/08/03/206685.html

    测试结果:

1 Identity-H编码可以解析

2 同样会出现文字中间有空格的情况

3 会打印页尾,原本应该换行的地方用空格替换,导致没有换行,只有一页才换一次行

4 找了几个繁体版的dpf试了一下,似乎可以,但是下面这个附件不行,只能解出少数的几个字,可能和表格或者排版有关。

5 相当严重的问题,会出现文字错位,例子:21 年 0 月 0 日印发 00 2 9,原文是:2010年02月09日引发。彻底晕菜(pdfbox没有这个问题)。

你可能感兴趣的:(html,软件测试)