使用pytesseract库进行图片文字识别报错

对图片进行文字识别,使用pytesseract中的image_to_string方法,指定lang='chi_sim’进行中文文字识别,运行代码,报错如下:pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file D:\pycharm2019\tesseract-ocr/chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory. Failed loading language ‘chi_sim’ Tesseract couldn’t load any languages! Could not initialize tesseract.’)
然后在GitHub上下载了中文的语言包chi_sim.traineddata,将其放在自己安装的tesseract下tessdata文件里,再运行代码则可以看到识别出的文字了。
如果图片中包含英文,可以将lang设置为lang=‘chi_sim+eng’

你可能感兴趣的:(自然语言处理,python)