win11 安装tesseract-ocr

1. OCR

OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。

2、下载地址

tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/
进入下载页面,可以看到有各种.exe文件的下载列表,这里可以选择下载3.0版本。

win11 安装tesseract-ocr_第1张图片

3、安装

默认安装路径是:C:\Program Files (x86)\Tesseract-OCR,可以不用修改。个人习惯不存放在C盘,改为:D:\Tesseract-OCR

直接傻瓜式的下一步,到选择语言时,选择一些需要的,比如可以选择math,英文,中文等。然后一路点击Next按钮即可,不然安装时间特别长。

在这里插入图片描述

4、配置环境变量

1)配置path

高级系统设置——>环境变量——>系统变量中path路径——>存放刚刚的地址:D:\Tesseract-OCR

win11 安装tesseract-ocr_第2张图片

2)配置TESSDATA_PREFIX

变量名:TESSDATA_PREFIX

变量值:D:\Tesseract-OCR\

 win11 安装tesseract-ocr_第3张图片

这一步如果没配置,会报错:

Error opening data file \Program Files (x86)\Tesseract-OCR\tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

5、验证

1)查看版本号

cmd中输入:tesseract -v

 win11 安装tesseract-ocr_第4张图片

2)查看支持多少种语言

cmd中输入:tesseract --list-langs

win11 安装tesseract-ocr_第5张图片

 

 3)识别能力

图片是网上随便找的一个,在图片的地址打开cmd,输入指令:

tesseract E:\image.jpg result -l eng

图片所在的路径下,自动新建一个result.txt,里面的内容就是识别出来的内容

可自行下载:https://img-blog.csdnimg.cn/b3f1c541bb124f19b88dcdfd199d9298.jpeg

win11 安装tesseract-ocr_第6张图片

 

 

 

win11 安装tesseract-ocr_第7张图片 

win11 安装tesseract-ocr_第8张图片

但是:

我识别需要降噪的图片就不行

图片:

 报错:

win11 安装tesseract-ocr_第9张图片

 目前还没找到解决方法,先记录一下,如果有大神搞定了,麻烦评论里面放一下链接或留言,万分谢谢!

 

 

 

 

 

你可能感兴趣的:(JMeter,ocr)