easyocr快速安装及图片文字提取演示(小语种)

前几天工作中需要用到图片识别,由于从图片中提取的文字是小语种越南语,了解了几种图片识别库之后决定使用easyocr(支持80+种语言)来进行文字提取,easyocr的介绍可详见官网:https://github.com/JaidedAI/EasyOCR,
想要使用该图片识别库的童鞋,可以先在demo(https://www.jaided.ai/easyocr/)上试验一下,看看自己的图片在demo上识别的准确度:
easyocr快速安装及图片文字提取演示(小语种)_第1张图片
一,easyocr安装:
安装easyocr之前最好安装pytorch,笔者是windows环境,没有显卡,pytorch官网https://pytorch.org/:
easyocr快速安装及图片文字提取演示(小语种)_第2张图片
如图,需要安装Torch,Torchvision和torchaudio。然而如果直接pip安装会极其地慢,直接pip install easyocr也会极其地慢,甚至readed time out 下载失败,这里建议直接使用清华镜像源安装:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple easyocr
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torch
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torchvision
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torchaudio

二,下载easyocr语言模型
在网页https://www.jaided.ai/easyocr/modelhub/查看语言模型包,可以将文字检测模型(craft)包以及常用的英文和简体中文包提前下载:
easyocr快速安装及图片文字提取演示(小语种)_第3张图片
之后将zip包和解压后的.pth文件都放在C:\Users\用户名.EasyOCR\model路径,注意需要将zip包也放到该路径下,否则运行代码的时候会出错:
easyocr快速安装及图片文字提取演示(小语种)_第4张图片
三,运行示例代码:

import easyocr

reader = easyocr.Reader(['vi'],gpu=False)     # 没有cpu的话需要加上gpu=False
result = reader.readtext('1_00.jpg')
print(result)

由于笔者需要的是越南语识别,模型界面(https://www.jaided.ai/easyocr/modelhub/)未直接提供越南语的语言模型包(准确的来说是笔者不知道哪个语言模型对应越南语),所以还是需要运行时下载语言包,运行时的下载界面如下:
在这里插入图片描述
第一次运行会比较慢,之后再执行脚本就不会再提醒下载模型了,会直接输出如下:
在这里插入图片描述
可以看到文字中的图片准确识别啦
easyocr快速安装及图片文字提取演示(小语种)_第5张图片

你可能感兴趣的:(python,爬虫,pytorch,python,图像处理,深度学习)