如何解析图片文字进行文本分析

最近工作中需要解析图片中的文本信息,进行文本数据分析,首先需要提取图片中的文字,解决方案如下:

1、需要安装包

pip install Pillow
pip install pytesseract

2、提取示例

from PIL import Image
import pytesseract
im = Image.open('test.jpg')
print (pytesseract.image_to_string(im))

3、可能遇到问题

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.

解决方案:

  • Windows 安装需要从 https://github.com/UB-Mannheim/tesseract/wiki 下载二进制文件。
  • 添加 pytesseract.pytesseract.tesseract_cmd = 'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe' 到脚本中,或者添加到环境变量中。
from PIL import Image
import pytesseract
pytesseract.pytesseract.tesseract_cmd = "D:\\software\\tesseract_ocr\\tesseract.exe"
im = Image.open('test.jpg')
print (pytesseract.image_to_string(im))

4、参考链接

  • https://www.cjavapy.com/article/807/

通过以上方案,完美解决了图片文字分析,英文文字识别率较高,你有什么好的解决方案,欢迎留言区交流学习。

如有需求,可以私聊合作。

你可能感兴趣的:(如何解析图片文字进行文本分析)