ICDAR 2017 RCTW 中文场景文本检测和识别数据集

简介

ICDAR是进行场景文本检测和识别(Scene Text Detection and Recognition)任务最知名和常用的数据集。ICDAR 2017 RCTW[1](Reading Chinest Text in the Wild),由Baoguang Shi等学者提出。RCTW主要是中文,共12263张图像,其中8034作为训练集,4229作为测试集。使用四边形框标注文本行。
数据集绝大多数是相机拍的自然场景,一些是屏幕截图;包含了大多数场景,如室外街道、室内场景、手机截图等等。

数据集下载

  • 官网链接:http://rctw.vlrlab.net/dataset/
  • 训练集图像和标注(8034,7.6G):百度网盘下载 | hust.edu.cn下载
  • 测试集图像(4229,4.1G):谷歌网盘下载 | host.edu.cn下载

数据集分布

图像

分辨率

  • 图像分辨率大小不等,小则300+,大则3000+
  • 图像清晰程度不一,绝大多数背景和文字很清晰,极少数模糊

场景

  • 街道场景:主要是建筑、标志牌、条幅等带有文字的图像,这类场景占据大多数
  • 截图:主要是网络上带有文字的图像截图、手机上带有文字的图像截图、带文字的表情包图像
  • 室内:主要是商场、墙壁等带有文字的图像
  • 证件类:主要是车牌照、驾驶证、身份证等带有文字的图像

文本

  • 方向(multi-oriented):图像中的文本方向水平垂直倾斜均有,绝大多数是水平方向,弯曲方向极少数
  • 大小(multi-scale):由于图像拍照远近,图像有近距离或远距离的,因此文本大小不等,有较多的长文本
  • 质量:少数文本存在模糊、光照不均匀、低分辨率等情况
  • 字体:绝大多数字体为楷书,极少数艺术字,几乎没有手写字体
  • 遮挡:绝大多数文本没有遮挡,极少数有遮挡

标注

数据集的标注保存在.txt文件中,其中格式如下:

  • x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<"文本">
  • x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<"文本">
  • x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<"文本">

注:x1,y1,x2,y2,x3,y3,x4,y4分别为左上、右上、右下、左下四个坐标,值为像素值。
注:<识别难易程度>01表示,0表示容易识别,即图像中文本清晰可见;1表示很难识别,即图像中文本较小或模糊不清楚。
注:<"文本">中如果有不清楚的字符,以#表示;如果文本完全不清楚,很难识别(对应<识别难易程度>=1),则以"###"表示。

数据样例

参考

[1] Baoguang Shi, Cong Yao, Minghui Liao, Mingkun Yang, Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, and Xiang Bai. Icdar2017 competition on reading chinese text in the wild (rctw-17). In Document Analysis and Recognition (ICDAR), 2017 14th IAPR Inter- national Conference on, volume 1, pages 1429–1434. IEEE, 2017.
[2] Long S, He X, Ya C. Scene Text Detection and Recognition: The Deep Learning Era[J]. arXiv preprint arXiv:1811.04256, 2018.

你可能感兴趣的:(论文阅读)