Python实现图片中文字提取(OCR)

用Python提取图片中的文字,用到的工具包有PIL,pytesseract,tesseract-ocr
注意:
库的安装相对麻烦一点,一般都是不能直接安装成功的,这里总结了安装过程中的一些坑给大家参考。
(1)首先是PIL库安装,有的电脑可以直接从PYCHARM库里直接导入,但是大部分的电脑是安装不了的,可以采取两种方式一种是用pip install PIL这种方式一般比较慢,还有一种方法就是在PYCHARM库里面直接安装pillow-PIL安装成功后就不会报错了。
(2)然后就是pytesseract库的安装,在pycharm库里面可以直接搜索到然后安装。这两个库安装完成后运行代码还是会报错:‘tesseract is not installed or it’s not in your path’,原因是没有找到 Tesseract-OCR\tesseract.exe 的位置,需要先下载tesseract.exe具体安装参考:下载安装链接
安装完成后打开pytesseract源码查找 tesseract_cmd = ‘tesseract’,修改成红色方框里面是刚才安装的目录。Python实现图片中文字提取(OCR)_第1张图片
库安装好之后运行代码:

from PIL import Image

import pytesseract

images=Image.open('003.jpg')
print(images.size)
text=pytesseract.image_to_string(images)
print(text)

结果:
Python实现图片中文字提取(OCR)_第2张图片
Python实现图片中文字提取(OCR)_第3张图片
如果要提取中文文字还需安装相关的新的库,把下载的中文库放在 Tesseract-OCR 安装目录下的 tessdata 文件夹中。
下载链接:中文库下载
下载完之后运行代码:

import pytesseract
from PIL import Image

im_en = Image.open('003.jpg')
im_ch = Image.open('004.jpg')

print('========识别字母========')
print(pytesseract.image_to_string(im_en), '\n\n')

print('========识别中文========')
print(pytesseract.image_to_string(im_ch, lang='chi_sim'))

结果:
Python实现图片中文字提取(OCR)_第4张图片
Python实现图片中文字提取(OCR)_第5张图片
至此实现了用Python的工具包实现OCR字符提取的功能,包括中文和英文字符的提取,一个简单的小例子啦~~

你可能感兴趣的:(深度学习,Python)