https://rrc.cvc.uab.es/?ch=15&com=tasks
为了参加RRC-MLT-2019挑战赛,您必须至少参加一项任务。这是任务的描述。前三个任务与RRC-MLT-2017中的任务相似,但针对RRC-MLT-2019重新打开了它们,为数据集添加了新语言并提高了整个数据集的地面真实性。我们还将介绍有关End-2-End文本检测和识别的新任务。
在此任务中,参与者方法应该能够概括为检测不同脚本的文本。此任务的输入是带有各种语言的嵌入文本的场景图像,并且需要在单词级别进行检测。
地面真相(GT)格式
注意:为此任务提供的GT包含的信息比该任务所需的信息更多,因为该GT也与任务3和4共享。因此,请确保您的方法生成的结果格式与“结果格式”段落中所述。
基本事实是根据单词边界框提供的。边界框不是面向轴的,并且由它们的四个角的坐标以顺时针方式指定。对于训练集中的每个图像,按照命名约定提供相应的UTF-8编码的文本文件:
gt_ [图片名称] .txt
文本文件是用逗号分隔的文件,其中每一行对应于图像中的一个文本块,并以以下格式给出其边界框坐标(顺时针为四个角),其脚本及其转录:
x1,y1,x2,y2,x3,y3,x4,y4,脚本,转录
有效的脚本是:“阿拉伯语”,“拉丁语”,“中文”,“日语”,“韩语”,“孟加拉语”,“印地语”,“符号”,“混合”,“无”
请注意,转录是在第9个逗号之后直至行尾的所有内容。不得使用转义字符。
如果将抄写提供为“ ###”,则将文本块(单词)视为“无关紧要”。一些“无关”单词具有与语言相对应的脚本类,而其他一些则具有“无”脚本类。后一种情况是由于分辨率低或其他失真而无法识别单词脚本的情况。
结果格式
预期的本地化(检测)结果如下:预期每个测试图像一个UTF-8编码的文本文件。要求参与者将所有结果提交到一个zip文件中。结果文件应遵循命名约定以测试图像ID命名:
res_ [图片名称] .txt
(例如res_1245.txt)。每行应对应图像中的一个单词,并以以下格式提供其边界框坐标(顺时针四个角)和置信度得分:
x1,y1,x2,y2,x3,y3,x4,y4,置信度
评价
f度量(Hmean)用作对参与者方法进行排名的度量。标准f量度基于与基本事实相比所检测到的单词边界框的召回率和精度。如果检测到的边界框与GT框的重叠量大于50%(并交相交),则认为检测正确(真阳性)。如何计算分数的详细信息在本文的III-B部分中:MLT2017
问题:任务1和3:我们是否应该检测到“无关”框(转录为“ ####”),将如何评估?
答:“无关”框不计入评估。这意味着检测或遗漏无关框不会影响您的最终分数。
我们的数据集图像中的文本以10种不同的语言显示,其中一些共享相同的脚本。另外,标点符号和一些数学符号有时会显示为单独的单词,这些单词被分配了一个特殊的脚本类,称为“符号”。因此,我们共有8个不同的脚本。我们已排除了此任务中具有“混合”脚本的单词。我们也排除了所有“无关”字眼,无论它们是否具有已识别的脚本。
基本真理格式
对于单词脚本识别任务,我们将数据集中的所有单词(裁剪的单词)作为单独的图像文件提供,并提供相应的地面脚本和抄录。在此任务中不使用转录,可以忽略。对于每个文本块,都提供了紧密包含文本块的面向轴的区域。
整个集合的单个UTF-8文本文件中提供了所有单词的脚本和抄本。地面真相文件中的每一行具有以下格式
[单词图像名称],脚本,转录
请注意,转录是第二个逗号之后直到行尾的所有内容。不得使用转义字符。有效的脚本是“阿拉伯语”,“拉丁语”,“中文”,“日语”,“韩语”,“孟加拉语”,“印地语”,“符号”。
此外,我们提供有关从中提取单词图像的原始图像的信息,如下所示:在切出的文本块图像中定义文本块的(非轴定向)边界框的相对坐标为在整个集合的单独SINGLE文本文件中提供。文本框的坐标是参照切出框给出的,作为边框的四个角按顺时针方向给出。基本事实文件中的每一行都具有以下格式。
[原始图片名称],x1,y1,x2,y2,x3,y3,x4,y4,[原始图片名称]
结果格式
参与者方法应提供每个图像的脚本,其中每个输入图像都是裁剪的单词图像(场景图像中的剪切出的文本块)。每个图像要求一个脚本名称。所有输出脚本应在单个UTF-8编码的文本文件中列出,每个单词图像一个脚本,并使用以下格式:
评价
针对基本事实对结果的评估以以下方式计算:参与者为每个单词图像提供一个脚本ID,如果结果正确,则正确结果的计数会增加。给定方法的最终评估是这种预测的准确性。可以用下面的简单定义来总结:
令G = {g1,g2,。。。,gi,。。,gm}是地面真理中正确的脚本类的集合,并且T = {t1,t2,...。。。,ti,。。。,tm}是给定方法返回的一组脚本类,其中gi和ti引用相同的原始图像。如果gi = ti,则每个单词的脚本标识被视为正确(一个),否则为假(零),所有m个标识的总和除以m可得出此任务的整体准确性。
该任务结合了多脚本文本识别所需的所有准备步骤。一个参与者方法应该以一个完整的场景图像作为输入,然后找到所有单词的边界框,以及关于每个单词的脚本ID信息。
基本真理格式
基本事实的提供方式与任务1相同。
结果格式
联合检测和脚本识别结果应在单个zip文件中提供。每个图像需要一个文本文件。应使用以下命名约定以测试图像ID命名该文件:
res_ [图片名称] .txt
在每个文本文件中,应提供检测到的边界框坐标的列表(顺时针四个角),以及检测的可信度和脚本类:
x1,y1,x2,y2,x3,y3,x4,y4,置信度,脚本
评价
此任务的评估是对文本框的正确定位(检测)和正确的脚本分类的级联。如果根据任务1的评估标准正确地检测到单词边界框,并且也如任务2中一样正确识别了此正确检测到的单词的脚本,则将该单词的联合检测和脚本识别视为正确。
对于多种语言的统一OCR是一项非常艰巨的任务。多语言环境下的端到端场景文本检测和识别任务与其英语对应任务是一致的。给定一个输入场景图像,目标是定位一组边界框及其对应的转录。
综合MLT数据( 阿拉伯语, 孟加拉语, 中文, 日语, 韩语, 拉丁语,印地语)
MLT格式的GT( 阿拉伯语, 孟加拉语, 中文, 日语, 韩语, 拉丁语,印地语)
您可以在以下位置找到方法的详细信息以及合成数据集:
E2E-MLT-用于多语言场景文本的不受约束的端到端方法:https://arxiv.org/abs/1801.09919
基本真理格式
基本事实的提供方式与任务1相同。
结果格式
联合检测和识别结果应在单个zip文件中提供。每个图像需要一个文本文件。应使用以下命名约定以测试图像ID命名该文件:
res_ [图片名称] .txt
在每个文本文件中,应提供检测到的边界框坐标(顺时针四个角)的列表以及检测的转录:
x1,y1,x2,y2,x3,y3,x4,y4,信心,转录
评价
此任务的评估是对文本框的正确定位(检测)和 正确识别(单词转录)的级联 。如果根据任务1的评估标准正确检测到单词边界框,并且也正确识别了此正确检测到的单词的转录(根据编辑距离度量),则将该单词的联合检测和识别记为正确。
测试集中所有包含未出现在训练集中的字符的单词都将设置为“无关”,因此无论您的方法是否正确检测/识别它们,都不会影响评价,他们根本就不算在内。这意味着您可以根据训练集的词典进行训练。
在下方下载训练数据集和每个任务的相关基础知识。
您可能还需要阅读本页末尾的“常见问题解答”部分。
训练集由10,000张图像组成,可以从以下2个链接下载:
TrainSetImagesTask1_Part1 (3.5G)
TrainSetImagesTask1_Part2 (3.3G)
基本事实由10,000个文本文件(与图像相对应)组成,具有单词级的本地化,脚本和转录,可以从以下链接下载:
TrainSetGT(6.5M)
请注意,此任务仅需要本地化结果(如任务页面中的结果格式所示),但是基本事实还提供每个边界框和脚本的脚本ID。任务3和4中将需要这些额外信息。
有关训练集的额外信息(对于只关注一种或仅几种语言,而不是全部多语言集的研究人员可能有用):
10,000张图像在训练集中的排序如下:每个连续的1000张图像包含一种主要语言的文本(当然,它可能还包含1种或2种其他语言的其他文本,全部来自10种语言)
00001-01000 :阿拉伯语
01001-02000:英语 02001-03000
:法语
03001-04000:中文
04001-05000:德语 05001-06000
:韩语
06001-07000 :日语07001-08000
:意大利语 08001-09000
:孟加拉语
09001-10000:印地语
图片(10,000张图片):
MLT19_TestImagesPart1.zip
MLT19_TestImagesPart2.zip
Word_Images_Part1 (单词图像[2个文件]的基本含义也在这里[与图像位于同一文件夹中])
Word_Images_Part2
Word_Images_Part3
裁剪文字图片:
MLT19_images_task2.zip
与任务1相同的训练集和基本事实(请参见上面的任务1)。
测试集: 与任务1相同的测试集。
训练集:它包括两个部分:
请注意,我们为此任务提供了基准方法: E2E-MLT。https://github.com/MichalBusta/E2E-MLT您可以在以下位置找到方法的详细信息以及合成数据集:
E2E-MLT-用于多语言场景文本的不受约束的端到端方法:https://arxiv.org/abs/1801.09919
测试集:与任务1相同的测试集。
“多语言场景文本检测和脚本识别(MLT)”数据集和相应的注释已根据 知识共享署名4.0许可获得许可。