xpdf的作用:
xpdf是提取pdf中的文本到txt文档
xpdf的安装:
sudo apt-get install xpdf
参照:http://www.debianadmin.com/enable-foreign-language-support-for-pdf.html#more-324
使用:
参照:xpdf_gs.py !!!
================================================================
2016/08/09
xpdf提取中文:
以下内容转自:http://my.oschina.net/sanping/blog/395740
开发环境:Windows8.0 X64位 eclipse3.2
版本号:xpdfbin-win-3.04 xpdf-chinese-simplified.tar.gz
下载路径:ftp://ftp.foolabs.com/pub/xpdf/
操作步骤:
下载xpdf和中文字体,分别解压缩。
建立xpdf根目录 d:\xpdf,
(1)并将xpdfbin-win-3.04\bin64目录下所有文件复制到 d:\xpdf 下。
(2)将xpdf-chinese-simplified 整个文件夹复制到 d:\xpdf 下。
复制 xpdfbin-win-3.04\doc 路径下的 sample-xpdfrc 文件到 d:\xpdf 下,并改名为 xpdfrc。
(1)修改文件 xpdfrc 第73行,将 textEncoding UTF-8 注释打开,指定编码为UTF-8,
(2)并在下面增加 textPageBreaks no 参数,意思是在pdf文档的两页间不加入分行符。
(3)在此文件最后增加以下内容,声明中文字体文件
#----- begin Chinese Simplified support package (2011-sep-02)
cidToUnicode Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN D:/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
unicodeMap EUC-CN D:/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
unicodeMap GBK D:/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
cMapDir Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap
toUnicodeDir D:/xpdf/xpdf-chinese-simplified/CMap
#displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf
#fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf
#----- end Chinese Simplified support package
实验代码
@Test
public void xpdfParser(){
try {
cmd = "d:\\xpdf\\pdftotext.exe -enc UTF-8 -q D:\\datadir\\Web数据挖掘综述.pdf d:\\datadir\\pdftxtdir\\Web数据挖掘综述.txt ";
Runtime.getRuntime().exec(cmd);
} catch (IOException e) {
e.printStackTrace();
}
}