在训练数据集下方下载每个任务的相关基础事实。
您可能还想阅读本页末尾的“常见问题解答”部分。
训练集由10,000个图像组成,可以从以下2个链接下载:
TrainSetImagesTask1_Part1 (3.5G)
TrainSetImagesTask1_Part2 (3.3G)
基本事实由10,000个文本文件(对应于图像)组成,具有文字级本地化,脚本和转录,可以从以下链接下载:
TrainSetGT(6.5M)
请注意,此任务仅需要本地化结果(如任务页面中的结果格式所示),但基本事实还提供每个边界框和转录的脚本ID。任务3和4中将需要此额外信息。
有关培训集的额外信息(对于专注于一种或几种语言的研究人员而言,可能非常有用,而不是所有的多语言集合):
10,000个图像在训练集中排序,使得:每个连续的1000个图像包含一种主要语言的文本(当然它可以包含来自1种或2种其他语言的附加文本,全部来自10种语言的集合)
00001 - 01000 :Arabic
01001 - 02000:English
02001 - 03000:French
03001 - 04000:Chinese
04001 - 05000:German
05001 - 06000:Korean
06001 - 07000:Japanese
07001 - 08000:Italian
08001 - 09000:Bangla
09001 - 10000:Hindi
图像(10,000张图像):
MLT19_TestImagesPart1.zip
MLT19_TestImagesPart2.zip
Word_Images_Part1 (单词图像[2个文件]的基本事实也在这里[与图像在同一个文件夹中])
Word_Images_Part2
Word_Images_Part3
裁剪的文字图片:
MLT19_images_task2.zip
与任务1中相同的训练集和基本事实(参见上面的任务1)。
测试集: 任务1的相同测试集。
训练集:它有两部分:
请注意,我们为此任务提供了基准方法: E2E-MLT。您可以在以下位置找到该方法的详细信息以及合成数据集:
E2E-MLT - 一种用于多语言场景文本的无约束端到端方法:https://arxiv.org/abs/1801.09919
测试集:任务1的相同测试集。
“多语言场景文本检测和脚本识别(MLT)”数据集和相应的注释根据 知识共享署名4.0许可进行许可。
问:如何为任务1,3和4完成排名/评估:
对于任务1:
排名基于f-measure(Hmean)[NOT average precision],并在最后使用方法的平均召回和平均精度计算,其中:
methodRecall =匹配数/边界框数GT(正确检测到框时匹配的位置)
methodPrecision = 检测方法中的匹配数/数字边界框
_Hanan = 2 * methodRecall * methodPrecision /(methodRecall + methodPrecision)
不会为每个图像单独计算召回率,精度和f度量。它们是基于所有图像中检测到的框计算的(当然,这些框是按图像匹配/处理的)。有一个混乱,因为在MLT-2017的论文中,描述评估协议时出现了错误(在论文中,提到f-measure是按照图像计算的,然后在图像中取平均值 - 这不是我们做了什么)
对于任务3:除“匹配”的定义外,具有相同的排名和评估。当正确检测到框并且具有正确的脚本标识时,将计算匹配。
对于任务4:相同的排名和评估,但是当正确检测和识别框时计算匹配。额外信息:1)识别度量是编辑距离,2)包含未出现在列车组中的字符的测试集词将被设置为“不关心”检测和识别。这意味着无论您是否正确检测到它们,或者是否正确识别它们,它们都不会计入评估中。
============
为了参加RRC-MLT-2019挑战,您必须参加至少一项任务。这是任务的描述。前三项任务类似于RRC-MLT-2017中的任务,但它们为RRC-MLT-2019重新开放,为数据集添加了新语言,并提高了整个数据集的基础事实质量。我们还在End-2-End文本检测和识别方面引入了新的第四项任务。
在此任务中,参与者方法应该能够概括为检测不同脚本的文本。此任务的输入是具有各种语言的嵌入文本的场景图像,并且所需的检测是在单词级别。
地面真相(GT)格式
注意:为此任务提供的GT包含的信息多于此任务所需的信息,因为此GT也与任务3和4共享。因此,请确保您的方法生成的结果格式如“结果格式”段落中所述。
根据单词边界框提供了基本事实。边界框不是面向轴的,它们由四个角的坐标以时钟方式指定。对于训练集中的每个图像,按照命名约定提供相应的UTF-8编码文本文件:
gt_ [图片名称] .txt
文本文件是逗号分隔文件,其中每行对应于图像中的一个文本块,并以下列格式给出其边界框坐标(四个角,顺时针),其脚本及其转录:
X1,Y1,X2,Y2,X3,Y3,X4,Y4,脚本,转录
有效的脚本是:“阿拉伯语”,“拉丁语”,“中文”,“日语”,“韩语”,“孟加拉语”,“印地语”,“符号”,“混合”,“无”
请注意,转录是第9个逗号后面的任何内容,直到行尾。不使用转义字符。
如果转录被提供为“###”,则文本块(单词)被认为是“不关心”。一些“不关心”单词具有与语言对应的脚本类,而其他单词具有“无”脚本类。后一种情况是由于低分辨率或其他失真而无法识别单词脚本。
结果格式
预期本地化(检测)结果如下:预期每个测试图像一个UTF-8编码的文本文件。要求参与者在单个zip文件中提交所有结果。结果文件应按照命名约定以测试图像ID命名:
res_ [图像名称] .txt
(例如res_1245.txt)。每行应对应图像中的一个单词,并提供其边界框坐标(四个角,顺时针)和格式的置信度分数:
X1,Y1,X2,Y2,X3,Y3,X4,Y4,信心
评估
f-measure(Hmean)用作对参与者方法进行排名的度量。标准f-度量基于检测到的单词边界框的回忆和精确度与基础事实相比较。如果检测到的边界框与GT框具有超过50%的重叠(交叉结合),则认为检测是正确的(真正的正)。有关如何计算得分的详细信息,请参见本文第III-B节:MLT2017
问题:任务1和3:如果我们检测到“不关心”框(转录为“####”),将如何评估?
答:“不关心”的盒子不计入评价。这意味着检测或丢失不关心框不会影响您的最终得分。
我们的数据集图像中的文本以10种不同的语言显示,其中一些语言共享相同的脚本。此外,标点符号和一些数学符号有时会显示为单独的单词,这些单词会被分配一个名为“符号”的特殊脚本类。因此,我们共有8个不同的脚本。我们已经为此任务排除了具有“混合”脚本的单词。我们也排除了所有“不关心”字样,无论它们是否有识别的脚本。
地面真相格式
对于单词脚本识别任务,我们将数据集中的所有单词(裁剪单词)作为单独的图像文件提供,以及相应的地面真实脚本和转录。转录不用于此任务,可以忽略。对于每个文本块,提供了紧密包含文本块的面向轴的区域。
所有单词的脚本和转录都在整个集合的SINGLE UTF-8文本文件中提供。地面实况文件中的每一行都具有以下格式
[字图像名称],脚本,转录
请注意,转录是第二个逗号之后的任何内容,直到行尾。不使用转义字符。有效的脚本是“阿拉伯语”,“拉丁语”,“中文”,“日语”,“韩语”,“孟加拉语”,“印地语”,“符号”。
此外,我们提供有关从中提取单词图像的原始图像的信息,如下所示:定义切出的文本块图像中的文本块的(非轴定向)边界框的相对坐标是在整个集合的单独的SINGLE文本文件中提供。文本块的坐标是参考切出框给出的,作为时钟方式的边界框的四个角。地面实况文件中的每一行都具有以下格式。
[字图像名称],x1,y1,x2,y2,x3,y3,x4,y4,[原始图像名称]
结果格式
参与者方法应该提供每个图像的脚本,其中每个输入图像是裁剪的单词图像(来自场景图像的剪切文本块)。请求每个图像一个脚本名称。所有输出脚本应该使用以下格式列在单个UTF-8编码的文本文件中,每个单词图像一个脚本:
评估
结果与地面实况的评估以下列方式计算:参与者为每个单词图像提供脚本ID,如果结果正确,则递增正确结果的计数。对给定方法的最终评估是这种预测的准确性。这可以通过以下简单定义进行总结:
设G = {g1,g2 ,. 。。,gi ,. 。。,gm}是基础事实中正确的脚本类的集合,并且T = {t1,t2,.... 。。,ti ,. 。。,tm}是给定方法返回的一组脚本类,其中gi和ti引用相同的原始图像。每个单词的脚本标识被计为正确(一个)如果gi = ti,否则它是假(零),所有m个标识的总和除以m给出该任务的总体准确度。
此任务结合了多脚本文本识别所需的所有准备步骤。参与者方法应该将完整的场景图像作为输入,然后找到所有单词的边界框,并根据脚本id找到关于每个单词的信息。
地面真相格式
基本事实的格式与任务1中的相同。
结果格式
应在单个zip文件中提供联合检测和脚本识别结果。期望每个图像的文本文件。应使用以下命名约定在测试映像ID后面命名该文件:
res_ [图像名称] .txt
在每个文本文件中,应提供检测到的边界框坐标列表(四个角,顺时针),以及检测和脚本类的置信度:
X1,Y1,X2,Y2,X3,Y3,X4,Y4,信心,脚本
评估
此任务的评估是文本框的正确本地化(检测)和正确的脚本分类的级联。如果根据任务1的评估标准正确检测到单词边界框,并且正如在任务2中正确识别该正确检测到的单词的脚本,则将该单词的联合检测和脚本识别计为正确。
对于多语言的统一OCR来说,这是一项非常具有挑战性的任务。多语言设置中的端到端场景文本检测和识别任务与其英语对应物一致。给定输入场景图像,目标是定位一组边界框及其对应的转录。
合成MLT数据( 阿拉伯语, 孟加拉语, 中文, 日语, 韩语, 拉丁语,印地语)
MLT格式的GT( 阿拉伯语, 孟加拉语, 中文, 日语, 韩语, 拉丁语,印地语)
您可以在以下位置找到该方法的详细信息以及合成数据集:
E2E-MLT - 一种用于多语言场景文本的无约束端到端方法:https://arxiv.org/abs/1801.09919
地面真相格式
基本事实的格式与任务1中的相同。
结果格式
联合检测和识别结果应在单个zip文件中提供。期望每个图像的文本文件。应使用以下命名约定在测试映像ID后面命名该文件:
res_ [图像名称] .txt
在每个文本文件中,应提供检测到的边界框坐标列表(四个角,顺时针),以及检测的转录:
X1,Y1,X2,Y2,X3,Y3,X4,Y4,信心,转录
评估
该任务的评估是文本框的正确定位(检测)和 正确识别(单词转录)的级联 。如果根据任务1的评估标准正确检测到单词边界框,并且正确识别该正确检测到的单词的转录(根据编辑距离测量),则将该单词的联合检测和识别计为正确。
测试集中包含未出现在训练集中的字符的所有单词将被设置为“不关心”,因此无论是否通过您的方法正确检测/识别它们,都不会影响评估,他们根本不计算在内。这意味着您可以根据训练集的词典进行训练。