opencv实战--环境配置和文字识别

文章目录

  • 前言
  • 一、环境配置
  • 二、文字识别
    • 2.1 文字单个识别
    • 2.2 文字单个带边框
  • 总结


前言

opencv实战--环境配置和文字识别_第1张图片


一、环境配置

cmd输入python的时候跳转应用商店的解决方法。https://blog.csdn.net/qq_62294840/article/details/120623501

anaconda官方下载地址:https://www.anaconda.com/download-success
清华源下载地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

anaconda 界面https://blog.csdn.net/qq_44942936/article/details/104623714

pycharm环境配置。
opencv实战--环境配置和文字识别_第2张图片
pytharm中下载cv

pip install opencv-python -i https://pypi.tuna.tsinghua.edu.cn/simple 

https://blog.csdn.net/qq_52519271/article/details/130072076 这个方法不行!!!

二、文字识别

首先要安装库
参考这个文字https://blog.csdn.net/Castlehe/article/details/118751833
我 对他的文章进行简述。
首先下载这个https://digi.bib.uni-mannheim.de/tesseract/
然后点默认安装即可。
随后在安装目录下找到tesseract.exe这个文件,要是不在安装目录那就在c盘里面,可以直接用everything的软件找。
接着跟个那个博主的开始配置环境,但是我的虽然配置环境了,也还是执行不了。又看了这个https://www.python51.com/jc/17786.html
也还是不行。不过没有关系
我们在pycharm中来安装 pip install pytesseract
当安装完成以后呢写一个代码试试

import cv2
import pytesseract

也许你会报错,要是报错了也没关系
你在这样写

import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd ='C:\\ProgramData\\SOLIDWORKS\\SOLIDWORKS Inspection 2022 Standalone\TrainableOCR\\tesseract.exe'

我的这个目录是我的exe所在的位置,你只需要填写你的那个位置就可以了,不过你直接在windows的窗口中复制的是单个斜杠,我们再添一个写成我们那样就行了。
我们再随便搞一个图片例如:
opencv实战--环境配置和文字识别_第3张图片

2.1 文字单个识别

是否能够检测出文字

import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd ='C:\\ProgramData\\SOLIDWORKS\\SOLIDWORKS Inspection 2022 Standalone\TrainableOCR\\tesseract.exe'


img = cv2.imread('utool.png')
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
print(pytesseract.image_to_string(img))


cv2.imshow('user',img)
cv2.waitKey(0)

opencv实战--环境配置和文字识别_第4张图片

中文需要去github上下载chi_sim的文件,然后放到对应文件夹后就可以了待写

2.2 文字单个带边框

接着让我们得到文字的位置和边框,我们一步步来
首先是文字位置和边框大小的识别

import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd ='C:\\ProgramData\\SOLIDWORKS\\SOLIDWORKS Inspection 2022 Standalone\TrainableOCR\\tesseract.exe'


img = cv2.imread('utool.png')
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)

# print(pytesseract.image_to_string(img))

print(pytesseract.image_to_boxes(img))


cv2.imshow('user',img)
cv2.waitKey(0)

可以看到有6个数,其中第一个代表字符,后面四个分别分别是x,y,w,h。
opencv实战--环境配置和文字识别_第5张图片
接着我们使用splitlines函数来分割可以看这个讲解

boxes = pytesseract.image_to_boxes(img)

for b in boxes.splitlines():
    print(b)

opencv实战--环境配置和文字识别_第6张图片
虽然我们得到了,但是不是一组组的数据我们没法使用所以,使用b.split(' ')来进行数据的分割。
要注意的是得到w,h是对应的坐标不是长度!!!

boxes = pytesseract.image_to_boxes(img)

for b in boxes.splitlines():
	b = b.split(' ')
    print(b)

opencv实战--环境配置和文字识别_第7张图片

然后我们做框框。 首先要把字符型转化成int类型。
然后呢就是cv2.rectangle函数可以看这个文章
主要就是

cv2.rectangle(img, pt1, pt2, color, thickness, lineType, shift )
参数表示依次为: (图片,长方形框左上角坐标, 长方形框右下角坐标, 字体颜色,字体粗细)
在图片img上画长方形,坐标原点是图片左上角,向右为x轴正方向,向下为y轴正方向。左上角(x,y),右下角(x,y) ,颜色(B,G,R), 线的粗细

一定要注意得到的值要用图片的高度减去 h ,因为从下往上。

hImg,wImg,_ = img.shape

boxes = pytesseract.image_to_boxes(img)

for b in boxes.splitlines():
    b = b.split(' ')
    print(b)
    x,y,w,h = int(b[1]),int(b[2]),int(b[3]),int(b[4])
    cv2.rectangle(img,(x,hImg-y),(w,hImg-h),(0,255,0),2)

opencv实战--环境配置和文字识别_第8张图片
然后在框框的旁边我们显示字符
主要用到的是cv2.putText可以看这篇文章
简述

cv2.putText()函数用法
cv2.putText(image, text, org, font, fontScale, color[, thickness[, lineType[, bottomLeftOrigin]]])
参数
image:要在其上绘制文本的图像。
text:要绘制的文本字符串。
org:它是图像中文本字符串左下角的坐标。坐标表示为两个值的元组,即(X坐标值,Y坐标值)。
font:它表示字体类型。一些字体类型是FONT_HERSHEY_SIMPLEX,FONT_HERSHEY_PLAIN等。
fontScale:字体比例因子乘以font-specific基本大小。
color:它是要绘制的文本字符串的颜色。对于BGR,我们通过一个元组。例如:(255,0,0)为蓝色。
thickness:它是线的粗细像素。
lineType:这是一个可选参数,它给出了要使用的行的类型。
bottomLeftOrigin:这是一个可选参数。如果为true,则图像数据原点位于左下角。否则,它位于左上角。
字体选择
  Python: cv.FONT_HERSHEY_SIMPLEX
  normal size sans-serif font正常大小的无衬线字体
  Python: cv.FONT_HERSHEY_PLAIN
  small size sans-serif font小尺寸无衬线字体
  Python: cv.FONT_HERSHEY_DUPLEX
  normal size sans-serif font (more complex than FONT_HERSHEY_SIMPLEX)
  正常大小的无衬线字体(比 FONT_HERSHEY_SIMPLEX 更复杂)
  Python: cv.FONT_HERSHEY_COMPLEX
  normal size serif font正常尺寸衬线字体
  Python: cv.FONT_HERSHEY_TRIPLEX
  normal size serif font (more complex than FONT_HERSHEY_COMPLEX)
  正常大小的衬线字体(比 FONT_HERSHEY_COMPLEX 更复杂)
  Python: cv.FONT_HERSHEY_COMPLEX_SMALL
  smaller version of FONT_HERSHEY_COMPLEX
  FONT_HERSHEY_COMPLEX 的较小版本
  Python: cv.FONT_HERSHEY_SCRIPT_SIMPLEX
  hand-writing style font手写风格字体
  Python: cv.FONT_HERSHEY_SCRIPT_COMPLEX
  more complex variant of FONT_HERSHEY_SCRIPT_SIMPLEX
  FONT_HERSHEY_SCRIPT_SIMPLEX 的更复杂变体
  Python: cv.FONT_ITALIC
  flag for italic font斜体字体标志

import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd ='C:\\ProgramData\\SOLIDWORKS\\SOLIDWORKS Inspection 2022 Standalone\TrainableOCR\\tesseract.exe'

img = cv2.imread('utool.png')
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)

# print(pytesseract.image_to_string(img))
hImg,wImg,_ = img.shape

boxes = pytesseract.image_to_boxes(img)

for b in boxes.splitlines():
    b = b.split(' ')
    print(b)
    x,y,w,h = int(b[1]),int(b[2]),int(b[3]),int(b[4])
    cv2.rectangle(img,(x,hImg-y),(w,hImg-h),(0,255,0),2)
    cv2.putText(img,b[0],(x,hImg-y+24),cv2.FONT_HERSHEY_SIMPLEX,1,(0,255,0),2)

cv2.imshow('user',img)
cv2.waitKey(0)



opencv实战--环境配置和文字识别_第9张图片

现在我们已经能够得到每个字符了,但是不是字符串(word)。让我们来得到字符串

import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd ='C:\\ProgramData\\SOLIDWORKS\\SOLIDWORKS Inspection 2022 Standalone\TrainableOCR\\tesseract.exe'

img = cv2.imread('utool.png')
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)

# print(pytesseract.image_to_string(img))
hImg,wImg,_ = img.shape

boxes = pytesseract.image_to_data(img)
print(boxes)

cv2.imshow('user',img)
cv2.waitKey(0)

这样子让我们打印出这个
可以看到都是分裂的我们无法使用

opencv实战--环境配置和文字识别_第10张图片
可以看到,打印的第一行是没有用的,所以第一行不要那自然就可以用

for x,b in enumerate(boxes.splitlines()):
    if x!=0:

来去除第一行

import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd ='C:\\ProgramData\\SOLIDWORKS\\SOLIDWORKS Inspection 2022 Standalone\TrainableOCR\\tesseract.exe'

img = cv2.imread('utool.png')
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
hImg,wImg,_ = img.shape
boxes = pytesseract.image_to_data(img)
for x,b in enumerate(boxes.splitlines()):
    if x!=0:
        print(b)
cv2.imshow('user',img)
cv2.waitKey(0)

opencv实战--环境配置和文字识别_第11张图片
那么接着应该是把每一行都放在数组中。
其中的enumerate就是枚举类似于计数器。看这篇文章

使用

for x,b in enumerate(boxes.splitlines()):
    if x!=0:
        b = b.split()
        print(b)    

这个就可以得到了,不过此时可以看到有些没有识别到字符串的也在里面,但是他们都是11个而有字符串的是12个那么

for x,b in enumerate(boxes.splitlines()):
    if x!=0:
        b = b.split()
        if len(b)==12:
            print(b)

opencv实战--环境配置和文字识别_第12张图片
和上面一样是画框框,但是不同的是image_to_data得到的本别是左上角端点的位置,以及长宽的长度。

import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd ='C:\\ProgramData\\SOLIDWORKS\\SOLIDWORKS Inspection 2022 Standalone\TrainableOCR\\tesseract.exe'


img = cv2.imread('utool.png')
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
# print(pytesseract.image_to_string(img))
hImg,wImg,_ = img.shape

boxes = pytesseract.image_to_data(img)

for x,b in enumerate(boxes.splitlines()):
    if x!=0:
        b = b.split()
        if len(b)==12:
            print(b)
            cv2.rectangle(img,(int(b[6]),int(b[7])),(int(b[6])+int(b[8]),int(b[7])+int(b[9])),(0,255,0),2)
            cv2.putText(img,b[11],(int(b[6]),int(b[7])),cv2.FONT_HERSHEY_SIMPLEX,1,(0,255,0),2)
            
cv2.imshow('user',img)
cv2.waitKey(0)

还有只读取阿拉伯数字的配置可以看b站视频的24分左右的位置。


总结

你可能感兴趣的:(opencv,人工智能,计算机视觉)