OCR 语料数据集生成工具

这段时间和同事一起写的OCR数据生成器(也可生成文字检测数据(直接输出voc格式,coco格式后期会补上去)、字体分类数据(在json 文件里有标注)),主要针对特殊场景文字识别及检测,可能对自然场景的文字生成支持不够好(因为我们没有加入场景深度估计,虽然是贴图贴在平滑区域,但是还是缺少了语义)。

github地址:(github 地址)


特性

生成基于不同语料的,不同字体、字号、颜色、旋转角度的文字贴图

支持多进程快速生成

文字贴图按照指定的布局模式填充到布局块中

在图像中寻找平滑区域当作布局块

支持文字区域的图块抠取导出(导出json文件,txt文件和图片文件,可生成voc数据,coco格式coming soon!)

支持用户自己配置各项生成配(图像读取,生成路径,各种概率)


数据生成格式:

OCR数据主要以  图像  和  txt  文件构成, txt文件内容(中间靠 '^' 这个符号分割, 可自己配置):

xxxxxxxxxxx.jpg^abcdefgadagf

ccccccccccc.jpg^nhdnciemcs

图片名.jpg^语料里的句子


生成效果图:(背景图片如侵权请联系本人删除)

OCR 语料数据集生成工具_第1张图片
OCR 语料数据集生成工具_第2张图片
OCR 语料数据集生成工具_第3张图片

​使用方法:

环境安装(Python3.6+,建议使用conda环境)

pip install requirements.txt

sh make.sh

编辑配置文件config.yml(可选,配置自己的一些路径,或线程数等)

python3 run.py

生成的数据存放在config.yml中的provider> layout> out_put_dir指定的目录下。

你可能感兴趣的:(OCR 语料数据集生成工具)