机器学习笔记 - 了解常见开源文本识别数据集以及了解如何创建用于文本识别的合成数据

一、部分开源数据集

以下是一些英文可用的开源文本识别数据集。

ICDAR 数据集:ICDAR 代表国际文档分析和识别会议。该活动每两年举行一次。他们带来了一系列塑造了研究社区的场景文本数据集。例如, ICDAR-2013和ICDAR-2015数据集。

MJSynth 数据集:该合成词数据集由牛津大学视觉几何组提供。该数据集由综合生成的 900 万张图像组成, 涵盖 9 万个英语单词,并包括我们工作中使用的训练、验证和测试分割。

你可能感兴趣的:(深度学习从入门到精通,数字图像处理从入门到精通,机器学习,人工智能,文本识别数据集,文本合成,神经网络,OCR)