图片文字OCR识别-tesseract-ocr4.00.00安装使用

图片文字的OCR识别有一款开源原件tesseract-ocr,最初是在linux上,当然现在也有windows版本,现在发展到4.0版本。

图片文字OCR识别-tesseract-ocr4.00.00安装使用_第1张图片

工具/原料

  • windows10-64位系统,能联网

方法/步骤

  1. 1

    下载tesseract-ocr软件,软件下载网址https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows

    选择4.0.0-alpha for Windows下面Windows Installer made with MinGW-w64 from UB Mannheim,点击UB Mannheim进入另一网页。

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第2张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第3张图片

  2. 2

    进入得网址为https://github.com/UB-Mannheim/tesseract/wiki

    点击tesseract-ocr-setup-4.0.0-alpha.20170804.exe,下载4.0版本的软件

    下载链接为http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.0.0-alpha.20170804.exe

    下载链接会根据软件版本更新,下载地址会不断更新。大家可以到网页自行查找下载链接。

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第4张图片

  3. 3

    下载好的软件安装包如图,双击安装软件。安装过程按照下面的图片指示进行。

    注意选择安装语言包,包含英文(默认安装)、中文、数学公式等,可以根据需要自己下载。

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第5张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第6张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第7张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第8张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第9张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第10张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第11张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第12张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第13张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第14张图片

  4. 安装完后打开软件坐在目录,这里我选择的是默认目录C:\Program Files (x86)\Tesseract-OCR

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第15张图片

  5. tesseract-ocr没有窗口界面,只能通过命令调用。调用需要cmd或powershell,

    cmd打开可以通过,开始->Windows系统->命令提示符或者按快捷键win+r输入cmd后回车调用。

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第16张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第17张图片

  6. powershell打开可以通过:开始->Windows Powershell下面任选一个或者在目录中点击左上文件->打开windowspowershell->打开windowspoweshell(推荐这样使用,在当前图片所在目录调出powershell)

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第18张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第19张图片

  7. 在软件所在目录,调出的powershell中输入tesseract如图,调出了软件的帮助说明,详细的命令参数说明。现在只能在软件所在的目录中才能够使用该软件,为了能将该软件作为系统的cmd一样,在任意目录中调用,下面将调整系统环境变量。

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第20张图片

  8. 文件资源管理器中选中此电脑->右键属性打开界面->点击高级系统设置->在打开的系统属性界面点击环境变量->在环境变量界面选择系统变量中选中path,然后点下面的编辑,打开编辑环境变量界面新建一个C:\Program Files (x86)\Tesseract-OCR的值,然后确定

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第21张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第22张图片

  9. 在系统变量下面点击新建,按照如图建一个变量如图

    变量名TESSDATA_PREFIX

    变量值C:\Program Files (x86)\Tesseract-OCR\tessdata

    ,然后点击确定,之后界面依次点击确定,完成设置。变量建立完成。

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第23张图片

  10. 经过上面的调整tesseract命令可以在任意目录调用了,下面是tessract应用实例

    识别中文图片

    1.在一个盘符的根目录放置了1.jpg图片,然后打开这个目录

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第24张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第25张图片

  11. 2.在图片坐在文件夹打开powersehll,

    在里面输入 

    tesseract 1.jpg 1.txt -l chi_sim+equ+eng

    然后回车

    1.jpg是当前目录中的1.jpg图片

    1.txt是指定结果输出到文本文件

    -l是指定使用的包

    chi_sim是中文识别包,equ是数学公式包,eng是英文包

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第26张图片

  12. 回车后,稍等待后结果如图,在图片坐在目录可以看到1.txt文件,打开如图,对于文字中的空格可以用替换工具全部替换,结果如图

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第27张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第28张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第29张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第30张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第31张图片

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第32张图片

  13. tesseract-ocr是一款免费软件,做的已经很棒了,这里只是介绍入门操作,详细请看帮助文件,或

    https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc

    图片文字OCR识别-tesseract-ocr4.00.00安装使用_第33张图片

你可能感兴趣的:(算法)