由于poppler代码量相当大,而且内容很复杂,至今没有完全写完,刚刚更新了PdfAnalyze接口,在我上一个summary里边。
http://www.cnblogs.com/se2011/archive/2011/04/22/2024419.html
写完实现之后,
TODO1:想办法编译过,且调试。应该没啥大问题,但会耗一些时间。
TODO2:生成出的文本仍含有一些诡异的unicode,比如ffi,是EF AC 80。我会试图做进一步的转化,主要针对于类似的在paper里出现频率相当高的字母组合,以便于搜索等。