怎么从扫描的PDF文档/图片里提取文字

时间浪费在打字上可不好!


关于“怎么从扫描的PDF文档/图片里提取文字”,我集思广益,得到如下结果:


首先是这里的一篇文章:http://hi.baidu.com/d_zzn0470/item/4c4c4bfdee25e714fe358296,摘录如下:

 通过扫描纸质文件创建的pdf文档是不能简单地转换成可以编辑的word文档的,只能够通过文字识别的方法,将pdf文档里的文字提取出来。
    如果扫描的分辨率很低,文字识别的正确率会打很大折扣。如图示的pdf文档,扫描的质量就很低,文字模糊,笔画残缺,用什么识别工具提取文字的效果好一些呢?

怎么从扫描的PDF文档/图片里提取文字_第1张图片

1、用Adobe Acrobat识别
    用Adobe Acrobat打开这pdf文档,操作菜单“文档”→“OCR文本识别”→“使用OCR识别文本”,经过识别以后,用“选择工具”选中文字进行复制,再粘贴到文本文件或word文档,提取出的文字如下:“人提使用胶粘邦l 己有JL f 'f的历史,最早使用的胶粘制为粘土、动物胶、植物脏、iffj
宵等夭年在物质来帖横生情用品、'E严工具和古战黯哥。直到20 世纪初,ffli:曹合成高付俨
J: 业的?若立与平断进步,革于ff 峨高分f 的胶柑1111 件到了阻瞌垃隅,股帖如l 己应用于阁íI!
经济各个工业部门相日常生活中。在多年的应用中1莘步形成了简便、易行、实用的胶粘鼎l
帖楼技术。i草种技术除街Ij\用汇业相日常生Ei齿'和得到广泛1iY.咱外[!成川J 航天削啦、民
器、船舶、电子倍思工税等闲民经前工业部门不可棋性的技术
粘攘技术是种在晴性极强,科技吉量较高的技术。撞了具备简便、快捷、高逊、价
廉、惯于肯定报帮特点奸、还可忖闷质材制相术问质材制等各钟材阶的材料在不!lt外界作闸
的情况下实施良町A的粘接,解决了用其它连接方法无法解决的闷题,为结构连接和设备维
幢开辟了接醋新的道路。”
   简直是天书,根本不能采用。

2、转换成jpg图片以后在线进行识别
    用Adobe Acrobat打开这pdf文档,操作菜单“文件”→“导出”→“图像”→“JPEG”,将pdf文档转换成图片。也可以用用Phptoshop打开这pdf文档,另存为jpg图片。
    登录www.netocr.net在线文字识别网站,将转换成的图片上传,网站识别出的文字如下:“人类使用胶粘剂已有几十年的历史
最早使用的胶粘利为粘土、动物胶、植物胶、sR}
育等大帐物质来粘接生活用结、生产工具和古兵器等直到zo世纪初,随着台成满分子
r_业的建立与不断进步,纂 }合成简分子的胶粘剂得到了还发股,胶粘剂已rz用于国民
经济各个工业部门和日常生活中〔在多年的应用中逐步形成了简便、易行、实用的胶粘剂
粘接技术.、该种枪术除在民用f业和日常生活中得多U厂一游业用外L成为ru天航空、兵
器、船舶、电子
    粘接技术是
信息工I'i等国民经济工业部门不可缺少的技术
种实用性极强,科技含量较高的技术。除了具备简便、快捷、高效、价
廉、便于掌握等特点外,!: 'i对同质材料和不同质材料等各种材质的材料在不受外界作用
的情况I"实施良好的粘接,解决了用其它连接方法无法解决!山和题,为结构连接和设备维
修开辟了一条崭新的道路”
    效果比用Adobe Acrobat识别要好一些,个别地方前后次序颠倒了。

3、用汉王 pdf ocr软件识别
    用汉王 pdf ocr,操作菜单“识别”→“开始识别”,识别的结果如下:“ 人类使用胶粘剂已有儿f午的历}圭!,龄早使朋的胶粘剂为牯上、动物腔、植物胶、衙
霄等天然物质来带占撮擞储用品、擞严工辫和古藏器等。赢到20世纪韧,随蔚赍成离分1j二
,l:此的建立与不断,进步,基于合成筒分子的腔粘剂得到了迅遵艟解,腔帖制已虚用于圈融
经济各个工业部门和日常生活中。,在多年的应用中逐步形成r简便、易行、实用的腔粘荆
粘拯技术。,拣种技术除猩民用jt北和日常嫩耩中彳寻驯广涎娩啊外.融成为航哭.航空.成
器、船舶、电子信息工程等困民经济工业部门不可缺少的技?术.
    粘接技术是…种蜜用性极强,科技音量较高的挫术。豫了县备简便、快捷、尚敞、价
廉、便于譬搬游特点外,邂可对同鹰材料帚¨不同质材料等备种材艟的树料在币i蹙外界怍I}I
的情况下实施良好的粘接,解决了用其它连接方法无法解决岫问题,为结构连接和设备维
修开辟了一条崭新的道路。”
    也和天书差不多。

4、用Microsoft Office Document Image Writer进行识别
    用任何pdf阅读软件打开这pdf文档,操作菜单“文件”→“打印”,打印机名称选择“Microsoft Office Document Image Writer”,这是一个随Microsoft Office 2003一起安装到计算机里的虚拟打印机,它将PDF文档打印到后缀为“mdi”的文件里,并自动打开,在打开的“mdi”文件里依次操作菜单“工具”→“使用OCR识别文本”和“工具”→“将文本发送到word”,提取出的文字如下:“人类使用胶粘剂己有几于年的厉史,最早使用的胶粘剂为粘上、动物胶、植物胶、沥臂等天然物质来粘接生活用品、生产工具和古兵器等。直到20 擞纪初,随着台成高分子狡业的建立与不断进步,荃于含成高分一子的胶粘剂得到了迅速发展,胶粘剂已应用于国民经济备个工业部门和日常生活中〔 在多年的应用中逐步形成了简便、易行、实用的胶粘剂粘接技术。、这种技术除在民用一〔 业和日常生活中得歹U 广泛应叮外.已成为航夭,航空、兵器、船舶、电子信息工程等国民经济工业部门不可缺少的技术二
粘接技术是,,一种实用性极强,科技含量较高的技术。除了具备简便、快捷、高效、价廉、便于掌握等特点外、还可对同质材料和军同质材料等各种材质的材料在不受外界作用的情况下实施良好的粘接.解决了用其它连接方法无法解决的问题,为结构连接和设备维修开辟了一条崭新的道路。”
    相对而言,识别的正确率是四种方法中最高的,毕竟是微软,不服不行。

///////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

所以说,我们还是用Office自带的功能好了!

Microsoft Office 2003里面有这个功能,上面已经说过了。但是在Office 2013上却没有发现!

其实它集成在Microsoft OfficeOneNote里面。在任何PDF阅读器中,选择打印,在弹出的对话框中,打印机选择“发送至 OneNote2013”即可将你指定的文档发送到 OneNote里面,然后在 OneNote软件里面,右击图片,就可以找到想要的复制选项了。详情见下图:

怎么从扫描的PDF文档/图片里提取文字_第2张图片

选择“发送至 OneNote2013”。

另外,其中的Microsoft XPS Document Writer是微软推出的一种文档记录格式工具,和pdf类似,但不能打开PDF。XPS是 XML Paper Specification的简称,它是微软公司开发的一种文档保存与查看的规范。人们认为 XPS 是 Adobe公司的 PDF的潜在竞争对手。但是,XPS 是一个静态文档格式,其本身不包括类似于 PDF 所具有的动态特性。XPS 随着 Windows Vista发布,并且已经得到了办公用打印系统厂商 柯尼卡美能达佳能爱普生惠普理光施乐以及 Software Imaging [2]、Informative Graphics [3]等软件厂商的支持。

在添加的图片上,右击,出现如下快捷菜单,如图所示,“复制此打印输出页中的文本”会将此页文本复制到剪贴板;”可选文字...“则会打开一个类似于txt的文本框,你可以在里面选择想要的文字;注意,下面红色方框框出的部分“使图像中的文本可搜索”,可以选择中英文或者禁用。

怎么从扫描的PDF文档/图片里提取文字_第3张图片


当然啦,既然PDF转到OneNote里面是图片的形式,那么我们直接给OneNote一张图片,它也是也是识别里面的文字的。


有的朋友,可能在安装Office的时候没有选择Office小工具里面的OCR,可以找到安装盘,选择“添加或删除功能”,添加OCR功能。


你可能感兴趣的:(pdf,汉王,文字提取,小技巧)