MMOCR是一个基于PyTorch和MMDetection的开源工具箱,专注于文本检测、文本识别以及相应的下游任务,如关键信息提取,是OpenMMLab项目的一部分,源码在https://github.com/open-mmlab/mmocr,最新发布版本为v0.6.1,License为Apache-2.0。它支持在Windows、Linux和Mac上运行。
1.安装:使用conda安装
(1).创建openmmlab虚拟环境:
conda create -n openmmlab python=3.8
conda activate openmmlab
(2).安装PyTorch:这里PyTorch使用1.11.0版本,CUDA使用10.2版本,此CUDA版本对PyTorch各版本都支持
conda install pytorch==1.11.0 torchvision==0.12.0 torchaudio==0.11.0 cudatoolkit=10.2 -c pytorch
(3).安装MMCV:MMCV有两个版本,这里安装带CUDA的mmcv-full
1).mmcv-full: 完整版,包含所有的特性以及丰富的开箱即用的CUDA算子,安装此版本需要较长时间。
2).mmcv:精简版,不包含CUDA算子但包含其余所有特性和功能,类似MMCV 1.0之前的版本。
不要在同一个环境中安装两个版本,否则可能会遇到类似ModuleNotFound的错误。在安装一个版本之前,需要先卸载另一个:
pip uninstall mmcv-full
pip uninstall mmcv
注意:这里mmcv-full使用1.5.3版本。CUDA版本和PyTorch版本与安装PyTorch时保持一致
pip install mmcv-full==1.5.3 -f https://download.openmmlab.com/mmcv/dist/cu102/torch1.11.0/index.html
(4).安装MMDetection:
pip install mmdet==2.25.1
(5).安装tesseract
conda install -c conda-forge tesserocr
(6).安装MMOCR:没有通过源码安装,要求GCC版本为5.4.0及以上版本
pip install mmocr==0.6.1
2.测试:论文:《TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes》
(1).准备测试图像:原始图像来自网络
image_path = "../../data/image/"
image_name = "ocr_english.png"
(2).下载检测模型(checkpoint):
def download_checkpoint(path, name, url):
if os.path.isfile(path+name) == False:
print("checkpoint(model) file does not exist, now download ...")
subprocess.run(["wget", "-P", path, url])
path = "../../data/model/"
checkpoint = "textsnake_r50_fpn_unet_1200e_ctw1500-27f65b64.pth"
url = "https://download.openmmlab.com/mmocr/textdet/textsnake/textsnake_r50_fpn_unet_1200e_ctw1500-27f65b64.pth"
download_checkpoint(path, checkpoint, url)
(3).根据配置文件和checkpoint文件构建模型:
config = "../../src/mmocr/configs/textdet/textsnake/textsnake_r50_fpn_unet_1200e_ctw1500.py"
ocr = MMOCR(det="TextSnake", det_config=config, det_ckpt=path+checkpoint, recog=None, device=device)
(4).进行检测推理:
results = ocr.readtext(image, output="../../data/result_mmocr_text_detection.png", export="../../data/", export_format="json")
(5).下载识别模型(checkpoint):
checkpoint2 = "seg_r31_1by16_fpnocr_academic-72235b11.pth"
url = "https://download.openmmlab.com/mmocr/textrecog/seg/seg_r31_1by16_fpnocr_academic-72235b11.pth"
download_checkpoint(path, checkpoint2, url)
(6).根据配置文件和checkpoint文件构建模型,包括检测和识别:
config2 = "../../src/mmocr/configs/textrecog/seg/seg_r31_1by16_fpnocr_toy_dataset.py"
ocr2 = MMOCR(det="TextSnake", det_config=config, det_ckpt=path+checkpoint, recog="SEG", recog_config=config2, recog_ckpt=path+checkpoint2, device=device)
(7).进行检测及识别推理:
results2 = ocr2.readtext(image, output="../../data/result_mmocr_text_recognition.png")
print("recognition result:", results2)
执行结果如下图所示:
GitHub: https://github.com/fengbingchun/PyTorch_Test