ICDAR 2019比赛及数据集下载--在招牌上阅读中文文本的稳健阅读挑战

ICDAR 2019比赛及数据集下载

https://rrc.cvc.uab.es/?ch=12&com=tasks

任务-ICDAR 2019在招牌上阅读中文文本的稳健阅读挑战

ReCTS数据集包括25,000张带标签的图像,这些图像是在不受控制的条件下通过电话摄像机野外采集的。它主要侧重于餐厅招牌上的中文文本。

数据集分为训练集和测试集。训练集包含20,000张图像,测试集包含5,000张图像。引入了四个任务:(1)字符识别,(2)文本行识别,(3)文本行检测和(4)端到端文本发现。

数据集中的每个图像都用文本行位置,字符位置以及文本行和字符的成绩单进行注释。用具有四个顶点的多边形来标注位置,这些顶点从左上顶点开始按顺时针顺序排列。成绩单是UTF-8编码的字符串。

外部数据:允许公开免费提供外部数据。在参与方法的最终简短描述中必须提及任何外部数据的来源。

注意,在评估时,半角字符及其对应的全角字符被视为一个字符。在这里,我们在文件/rrc.cvc.uab.es/files/half_width_full_width_dict.zip中给出了半角字符及其对应的全角字符的  列表。同样,在评估task2和task4时,英文字母也不区分大小写。

挑战期间我们不提供任何反馈意见。每个小组最多只能提交5个结果,我们将从5个结果中选择最佳结果作为最终结果。此外,每个参与者必须提供真实姓名和组织。提交团队信息后,将无法再对其进行修改。

基本真理格式

对于每个图像,我们使用名为[img_name] .json的json文件以如下结构化格式存储地面真相:

{

    “字符”:[

        {“点”:[x1,y1,x2,y2,x3,y3,x4,y4],“ transcription”:“ trans1”,“ ignore”:0},

        {“点”:[x1,y1,x2,y2,x3,y3,x4,y4],“转录”:“ trans2”,“忽略”:0}],

    “行”:[

        {“点”:[x1,y1,x2,y2,x3,y3,x4,y4],“ transcription”:“ trans3”,“ ignore“:0}],

}

其中“点”中的x1,y1,x2,y2,x3,y3,x4,y4是多边形边界框的坐标,“字符”表示单个字符信息,“线”表示文本行信息。设置为“ true”时,“转录”表示每行文本,“忽略”表示“无关”文本区域。可以下载示例图像及其对应的真实情况  https://rrc.cvc.uab.es/files/ReCTS_sample_gt.zip

地面真相歧义

在某些招牌中,始终存在以下情况:ICDAR 2019比赛及数据集下载--在招牌上阅读中文文本的稳健阅读挑战_第1张图片

 

很难确定是否将“砂锅”,“炒面”,“拌面”,“烩肉”,“泡馍”框合并到大文本框中。因此,我们将两种情况((a)和(b))视为正确的事实。

如果可能,我们将为每个测试图像提供一个或多个基本事实。在评估时,我们将预测结果与所有基本事实进行比较,并使用最匹配的结果来计算评估指标。

任务1.招牌中的字符识别

该任务的目的是从裁剪的字符图像中识别字符。输入示例如图1所示。

ICDAR 2019比赛及数据集下载--在招牌上阅读中文文本的稳健阅读挑战_第2张图片ICDAR 2019比赛及数据集下载--在招牌上阅读中文文本的稳健阅读挑战_第3张图片

  图1.字符图像 

投稿格式

要求参与者提交txt文件,其中包含所有测试图像的结果。结果格式为:

img_name,转录

例如。test_000001.jpg,炸

评估指标

精度= N_ok / N,其中N_ok是正确预测的字符数,N是测试字符数。

请注意,测试图像test_ReCTS_task1_000001.jpg在提交txt文件中应重命名为test_000001.jpg。

任务2.招牌中的文本行识别

还给出了裁剪后的文本行图像以及图像中多边形边界框的坐标。输入示例如图2所示。

 

  ICDAR 2019比赛及数据集下载--在招牌上阅读中文文本的稳健阅读挑战_第4张图片

图2.文本行图像 

投稿格式

要求参与者提交txt文件,其中包含所有测试图像的结果。结果格式为:

img_name,转录

例如。test_000001.jpg,炸鸡

评估指标

我们使用“规范化编辑距离”作为文本行识别的评估指标,公式如下:

ICDAR 2019比赛及数据集下载--在招牌上阅读中文文本的稳健阅读挑战_第5张图片

其中D表示Levenshtein距离,si表示预测的文本行,si-hat表示相应的地面真相。N是文本行的总数。

请注意,在提交txt文件中,应将测试图像test_ReCTS_task2_000001.jpg重命名为test_000001.jpg。

任务3.招牌中的文本行检测

此任务的目的是在招牌中定位文本行。输入的图像是完整的招牌图像。

投稿格式

要求参与者提交txt文件,其中包含所有测试图像的结果。结果格式为:

img_name

x1,y1,x2,y2,x3,y3,x4,y4

x1,y1,x2,y2,x3,y3,x4,y4

img_name

x1,y1,x2,y2,x3,y3,x4,y4

x1,y1,x2,y2,x3,y3,x4,y4

......

例如。

test_000001.jpg

457,51,699,124,697,206,452,143

test_000002.jpg

test_000003.jpg

75,202,336,249,322,315,59,270

490,311,582,311,582,345,490,345

如果未检测到test_0002.jpg的文本框,则仅在文件中写入test_0002.jpg。这些点应按顺时针顺序排列。测试图像test_ReCTS_task3_and_task_4_000001.jpg在提交txt文件中应重命名为test_000001.jpg。

评估指标

遵循ICDAR 2017-RCTW [2]数据集的评估协议,根据IoU阈值为0.5和0.7的Precision,Recall和F分数评估检测任务。

IoU = 0.5的F分数将用作最终排名的唯一指标。

所有检测到的或遗漏的“忽略的”事实将不会对评估结果有所帮助。

任务4.招牌中的端到端文本查找

该任务的目的是定位和识别招牌中的每个文本实例。输入的图像是完整的招牌图像。

投稿格式

要求参与者提交txt文件,其中包含所有测试图像的结果。结果格式为:

img_name

x1,y1,x2,y2,x3,y3,x4,y4,转录

x1,y1,x2,y2,x3,y3,x4,y4,转录

img_name

x1,y1,x2,y2,x3,y3,x4,y4,转录

x1,y1,x2,y2,x3,y3,x4,y4,转录

......

例如。

test_000001.jpg

457,51,699,124,697,206,452,143,所有锅

test_000002.jpg

test_000003.jpg

75,202,336,249,322,315,59,270,山里人

490,311,582,311,582,345,490,345,山里人

如果未检测到test_0002.jpg的文本框,则仅在文件中写入test_0002.jpg。这些点应按顺时针顺序排列。测试图像test_ReCTS_task3_and_task_4_000001.jpg在提交txt文件中应重命名为test_000001.jpg。

评估指标

首先,将每个检测与具有最大IOU的地面真实多边形匹配,如果IOU不大于0.5,则将其与“ None”匹配。如果多个检测与同一地面真相匹配,则仅保留最大IOU的检测,而其他检测则记录为“无”。

然后,我们计算所有匹配对(si,si-hat)之间的编辑距离。我们将使用归一化编辑距离(NED)评估预测的转录,公式为:

ICDAR 2019比赛及数据集下载--在招牌上阅读中文文本的稳健阅读挑战_第6张图片

其中D表示Levenshtein距离,si表示预测的文本行,si-hat表示相应的地面真相。N是文本行的总数。

 

参考

[1] MSRA-500:C。姚X.白,刘W.马Y,涂Z。在自然图像中检测任意方向的文本。CVPR,2012年。  

[2] RCTW:史波,姚春,廖明,等。ICDAR2017野外中文阅读比赛(RCTW-17)[J]。2017。

[3] SCUT-CTW1500:俞良良,连文健,帅涛Z等。关键词:野外检测曲线文本,新数据集,新解法 2017。

[4] CTW:袁德良,朱志,徐克等。野外中文文本[J]。2018。

 

下载-ICDAR2019在招牌上阅读中文文本的稳健阅读挑战
https://rrc.cvc.uab.es/?ch=12&com=downloads
ReCTS数据集包括25,000张图像。它分为20000张图像的训练集和5000张图像的测试集。

Training Set

Mirror 1: https://link-pan.sankuai.com/plink/QpwtLx8A     code:    1HvkY8

Mirror 2: https://drive.google.com/file/d/1orMtLhJt3rQl3pMoLm31eh-SmDG74W1K/view

Mirror 3: Hosted at the RRC

 

Test Set

1. The first part of the test set :

Mirror 1: https://link-pan.sankuai.com/plink/Qt5_VPhC  code:    R1kt5N

Mirror 2: https://drive.google.com/open?id=1mKqhPBDM-7BgUud69AYvQ7_BYmHqvFJC

Mirror 3: Hosted at the RRC

2. The second part of the test set:

Mirror 1:https://link-pan.sankuai.com/plink/QrEmyPv3    code:    28tHs0

Mirror 2: https://drive.google.com/file/d/1E8BlG5kh-JRAGOdYmCO75oi7Jy-UHHoW/view 

 

你可能感兴趣的:(深度学习,数据集,中文识别)