7款常用的光学字符识别(OCR)软件对比

只要有扫描仪和光学字符识别(OCR)软件,将扫描文档转换成Word文档是相当容易的。扫描仪将纸质文档转换成扫描图像,而光学字符识别(OCR)软件则将所扫描的图像转换成PDF和Word等可编辑和可搜索的文档格式。在文档的转换过程中,OCR软件技术主要用来分析和比较带有数据库中所存字体的文档。虽然,OCR软件的识别准确率不可能达到100%,但是一些OCR软件包含拼写检查功能,可查出无法辨认的字。本文对多款常用OCR软件的性能进行了多角度的对比,希望为用户在选择和使用OCR软件时候提供一些实用性参考。

光学字符识别(OCR)软件比较

名称 支持平台 编程语言 字体语言 输出格式 备注
Tesseract Windows/MacOSX
/Linux
C++, C 40+ 文本,hOCR,其他 开源,支持中文
ExperVisionTypeReader

Windows/MacOSX
/Linux

C/C++ 21 hOCR 多次获奖;不支持中文
ABBYY FineReader Windows/MacOSX
/Linux
C/C++ 198 DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 世界排名第一;识别精度达99%;
LEADTOOLS Windows/MacOSX
/Linux
C/C++, .NET, Objective-C, Java, JavaScript 56 PDF, PDF/A, DOC, DOCX, XLS, XPS, RTF, HTML, ANSI Text, Unicode Text, CSV 支持拉丁语, 亚洲语言,阿拉伯语,MICR字符集;支持整页或者部分区域的OCR识别;
CuneiForm/OpenOCR Windows/MacOSX
/Linux
C/C++ 28 ? 企业级系统,可以保存文本格式,并识别结构的复杂表格
Image to OCR Converter Windows C/C++, VB , .NET 40 PDF, Word, HTML, Text 读取的图像格式和PDF文件,并可以从照相机扫描图像
Dynamsoft OCR SDK Windows C/C++ 40+ PDF, TXT -
Puma.NET Windows C# 28 ? -

你可能感兴趣的:(OCR)