本文通过使用 Tesseract-OCR 进行图片文本识别。并通过python进行后续处理把识别的文本保存到word文档。本文仅作为入门,由于对于中文图片的识别率并不高,需要后续优化。
Tesseract是一个开源文本识别引擎,通过Apache 2.0授权可用。可以直接使用,或者通过接口编程从图片提取文本,该引擎广泛支持各种语言,本文以Python为例说明:
位数
版本.添加安装目录到系统环境变量path,比如:
//添加安装目录到系统path
C:\Program Files (x86)\Tesseract-OCR;
//cmd运行下列命令
pip install pytesseract
from PIL import Image
import pytesseract
import os
import io
tessdata_dir = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
txt = pytesseract.image_to_string(Image.open(
'./img/20180804.jpg'), lang='chi_sim', config=tessdata_dir)
print(txt)
if not os.path.exists('./result'):
os.mkdir('./result')
with io.open('./result/test.doc', 'w') as fp:
fp.write(txt)
中文图片需要使用参数 lang=‘chi_sim’
图片路径可自己设定, 比如:D:/test.jpg
如果安装Tesseract-OCR时未安装该数据包, 可重新运行安装程序,并选择额外的语言包进行安装
为避免系统变量设置问题程序不能找到训练数据,建议设置tessdata_dir
参数
print(txt) 为调试使用,可删除或者注释掉
学习流程图:
Actions speak louder than words.
210 = 1024.