字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)

Tesseract是github上的OCR(optical character recognition,光学字符识别)开源库,可将包含文本的图像识别为计算机文字(计算机黑白点阵)。图像中的文本一般为印刷体文本。

下载

GitHub网址:

GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) 

 

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第1张图片

点击页面链接“Install Tesseract via pre-built binary package”,进入网页 Tesseract User Manual | tessdoc 

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第2张图片 

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第3张图片

最终下载网址: https://github.com/UB-Mannheim/tesseract/wiki 

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第4张图片 

点击下载得到文件“tesseract-ocr-w64-setup-v5.1.0.20220510.exe”,

 

安装

以管理员身份运行下载的exe文件,即开始安装。

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第5张图片

没有中文,只好选择英文。

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第6张图片 

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第7张图片 

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第8张图片 

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第9张图片 

 

 安装目录指定为: d:\Programs\Tesseract-OCR

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第10张图片

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第11张图片 

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第12张图片 

点击“Finish”按钮,即可完成安装。

在开始菜单中新增了下图所示的条目:

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第13张图片

安装目录中的文件及文件夹如下图所示

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第14张图片 

简单的使用

命令行启动

从开始菜单的Tesseract-OCR文件夹中,点击Console,启动命令行窗口。键入命令tesseract,会显示相关提示信息:

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第15张图片

可使用命令“tesseract --help-extra”显示更详细的帮助信息。

基本语法命令

进行文字识别的基本命令语法如下:

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

详细用法可参考网页: Command Line Usage | tessdoc 

识别图片中的英文字母和数字

将图片

保存为文件“D:\temp\abcdef.png”,使用命令

tesseract d:\temp\abcdef.png stdout

进行识别,结果如下图所示:

 

 

可以看出,识别程序的识别结果正确。

不能识别图片中的简体中文(因训练好的数据不能下载)

上述软件安装过程中,并未安装简体中文的训练数据集。

已有的训练数据集可使用命令“tesseract --list-langs”查看,也可直接在目录“D:\Programs\Tesseract-OCR\tessdata”中查看扩展名为traineddata的文件。

为了识别简体中文,需要从“ https://github.com/tesseract-ocr/tessdata_best ”下载相关文件,如下图所示:

 字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第16张图片

点击上图中红框内的文件,进入网页 “ https://github.com/tesseract-ocr/tessdata_best/blob/main/chi_sim.traineddata  ”,

字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)_第17张图片 

但是不知道为什么不能下载,所以,暂时不能识别中文。

相关参考网页:

使用Tesseract做文字识别(OCR) - 知乎

基于tesseract-OCR进行中文识别 - 走看看

 

 

 

 

你可能感兴趣的:(字符识别,OCR,tesseract)