通过XPDF抽取PDF中的中文文本

1、下载XPDF,参考下载地址:http://blog.pjoke.com/wp-content/uploads/2009/02/xpdf-chinese-simplified.zip

2、下载字体Gbsn00lp.ttf和gkai00mp.ttf,参考下载地址:http://blog.pjoke.com/wp-content/uploads/2009/02/font.zip

3、解压XPDF和字体,将字体放到CMap目录下

通过XPDF抽取PDF中的中文文本_第1张图片

4、修改add-to-xpdfrc文件中的地址 ,将路径该为本机安装路径

通过XPDF抽取PDF中的中文文本_第2张图片

5、修改xpdfrc文件 ,把地址修改为本机地址

通过XPDF抽取PDF中的中文文本_第3张图片

6、编写简单的程序

通过XPDF抽取PDF中的中文文本_第4张图片

7、运行

 

通过XPDF抽取PDF中的中文文本_第5张图片

通过XPDF抽取PDF中的中文文本_第6张图片

 

你可能感兴趣的:(Blog)