通过XPDF抽取PDF中的中文文本

 通过XPDF抽取PDF中的中文文本

1、下载XPDF,下载地址: ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip

2、下载字体Gbsn00lp.ttf和gkai00mp.ttf,下载地址:ftp://ftp.foolabs.com/pub/xpdf/xpdf-chinese-simplified.tar.gz

3、解压XPDF和字体,将字体放到xpdf\chinese-simplified\CMap目录下

4、修改add-to-xpdfrc文件中的地址 ,将路径该为本机安装路径

5、修改xpdfrc文件 ,把地址修改为本机地址

6、编写简单的程序

你可能感兴趣的:(pdf)