场景文本检测综述

概念及挑战

OCR(Optical Character Recognition, 光学字符识别)传统上指对输入扫描文档图像进行分析处理,识别出图像中文字信息,该技术已经成熟。
场景文字识别(Scene Text Recognition,STR) 指识别自然场景图片中的文字信息。自然场景图像中的文字识别,其难度远大于扫描文档图像中的文字识别,因为它的文字展现形式极其丰富:

  • 颜色变化
    颜色、亮度、对比度
  • 几何变化
    横向、竖向、弯曲、旋转、扭曲、透视、仿射变换、尺度变化大
  • 倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽
  • 长文本
  • 多语言混合文本
    中英混合字体
  • 文本密集
  • 背景复杂多变
    文字可以出现在平面、曲面或折皱面上;文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理,比如沙地、草丛、栅栏、砖墙等。
  • 数据标注不一致
    字符、词、文本行、标注序列的顺序
  • 完整性
    完整检测才能识别准确,IOU>0.5是否能检出某个词的所有字符
    场景文本检测综述_第1张图片
    本图摘自新浪微博《光学字符识别技术:让电脑像人一样阅读》

发展趋势

场景文本检测综述_第2张图片
发展趋势

文本检测算法分类

  • 基于回归的方法
  • 基于分割的方法
  • 混合方法(分割+回归)
  • 优缺点
    回归方法:对长文本不易检测完整
    分割方法:不容易准确区分相邻或重叠文本

解决方案

  • 检测模型+识别模型


    场景文本检测综述_第3张图片
    检测模型+识别模型
  • 端到端(检测+识别)


    场景文本检测综述_第4张图片
    单个模型

    端到端检测模型中,检测分支和识别分支能相互监督,相互促进提高彼此精度。

应用场景

图像文字检测和识别技术有着广泛的应用场景。已经被互联网公司落地的相关应用涉及了识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等。

已经有不少服务商在提供图像文字检测和识别服务,这些服务商既包括了腾讯、百度、阿里、微软、亚马逊、谷歌等大型云服务企业,也包括了一些活跃在物流、教育、安防、视频直播、电子政务、电子商务、旅游导航等垂直细分行业的服务企业。这些企业既可以使用提前训练好的模型直接提供场景图文识别、卡证识别、扫描文档识别等云服务,也可以使用客户提供的数据集训练定制化模型(如票据识别模型),以及提供定制化AI服务系统集成等。

文本检测模型

视觉领域常规物体检测方法(SSD, YOLO, Faster-RCNN等)直接套用于文字检测任务效果不理想, 主要原因就在于上述概念与挑战中介绍的内容。

针对存在的挑战,近年来出现了各种基于深度学习的技术解决方案。它们从特征提取、区域建议网络(RPN)、多目标协同训练、Loss改进、非极大值抑制(NMS)、半监督学习等角度对常规物体检测方法进行改造,极大提升了自然场景图像中文本检测的准确率。

  • CTPN算法中,用BLSTM模块提取字符所在图像上下文特征,以提高文本块识别精度。
  • RRPN等算法中,文本框标注采用BBOX +方向角度值的形式,模型中产生出可旋转的文字区域候选框,并在边框回归计算过程中找到待测文本行的倾斜角度。
  • DMPNet等算法中,使用四边形(非矩形)标注文本框,来更紧凑的包围文本区域。
  • SegLink算法中,将单词切割为更易检测的小文字块,再预测邻近连接将小文字块连成词。
  • TextBoxes等算法中,调整了文字区域参考框的长宽比例,并将特征层卷积核调整为长方形,从而更适合检测出细长型的文本行。
  • FTSN算法中,作者使用Mask-NMS代替传统BBOX的NMS算法来过滤候选框。
  • WordSup算法中,采用半监督学习策略,用单词级标注数据来训练字符级文本检测模型。

数据集

  • Chinese Text in the Wild(CTW)
    该数据集包含32285张图像,1018402个中文字符(来自于腾讯街景), 包含平面文本,凸起文本,城市文本,农村文本,低亮度文本,远处文本,部分遮挡文本。图像大小2048*2048,数据集大小为31GB。以(8:1:1)的比例将数据集分为训练集(25887张图像,812872个汉字),测试集(3269张图像,103519个汉字),验证集(3129张图像,103519个汉字)。
    CTW文献下载
    CTW数据集下载

    场景文本检测综述_第5张图片
    实例图片

  • Reading Chinese Text in the Wild(RCTW-17)
    该数据集包含12263张图像,训练集8034张,测试集4229张,共11.4GB。大部分图像由手机相机拍摄,含有少量的屏幕截图,图像中包含中文文本与少量英文文本。图像分辨率大小不等。
    RCTW-17文献下载
    RCTW-17数据集下载

    场景文本检测综述_第6张图片
    实例图片

  • ICPR MWI 2018 挑战赛
    大赛提供20000张图像作为数据集,其中50%作为训练集,50%作为测试集。主要由合成图像,产品描述,网络广告构成。该数据集数据量充分,中英文混合,涵盖数十种字体,字体大小不一,多种版式,背景复杂。文件大小为2GB。


    场景文本检测综述_第7张图片
    实例图片
  • Total-Text
    该数据集共1555张图像,11459文本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。大部分为英文文本,少量中文文本。训练集:1255张 测试集:300。
    Total-Text文献下载
    Total-Text数据集下载

    场景文本检测综述_第8张图片
    实例图片

  • Google FSNS(谷歌街景文本数据集)
    该数据集是从谷歌法国街景图片上获得的一百多万张街道名字标志,每一张包含同一街道标志牌的不同视角,图像大小为600*150,训练集1044868张,验证集16150张,测试集20404张。
    FSNS文献下载
    FSNS数据集下载

    场景文本检测综述_第9张图片
    实例图片

  • COCO-TEXT
    该数据集,包括63686幅图像,173589个文本实例,包括手写版和打印版,清晰版和非清晰版。文件大小12.58GB,训练集:43686张,测试集:10000张,验证集:10000张
    COCO-TEXT文献下载
    COCO-TEXT数据集下载

    场景文本检测综述_第10张图片
    实例图片

  • Synthetic Data for Text Localisation
    在复杂背景下人工合成的自然场景文本数据。包含858750张图像,共7266866个单词实例,28971487个字符,文件大小为41GB。该合成算法,不需要人工标注就可知道文字的label信息和位置信息,可得到大量自然场景文本标注数据。
    Synthetic Data for Text Localisation文献下载
    Synthetic Data for Text Localisation数据集下载
    Code英文版
    Code中文版

    场景文本检测综述_第11张图片
    实例图片

  • Synthetic Word Dataset
    合成文本识别数据集,包含9百万张图像,涵盖了9万个英语单词。文件大小为10GB
    Synthetic Word Dataset数据集下载

    实例图片

  • Caffe-ocr中文合成数据
    数据利用中文语料库,通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成,共360万张图片,图像分辨率为280x32,涵盖了汉字、标点、英文、数字共5990个字符。文件大小约为8.6GB
    Caffe-ocr中文数据集

    image

参考文献

自然场景文本检测识别技术综述

你可能感兴趣的:(场景文本检测综述)