Recognizing Chinese Texts with 3D convolutional neural network论文阅读

摘要

本文提出了一种利用三维卷积神经网络对带有广告牌和道路标记的场景中的中文文本进行定位和识别的深度学习系统。该系统采用YOLO检测目标位置,利用三维卷积神经网络进行内容识别。该设计比现有的基于LSTM的设计具有更好的实时性,可以在嵌入式平台上实现。在配备了鱼眼摄像头的自动驾驶汽车上,该系统在鸟瞰道路标志上识别中文文本的准确率达到90%以上。另外实验证明该系统的执行速度对于自动驾驶应用已经足够快了。

介绍

目标: 设计一个基于计算机视觉的检测系统来检测道路上的标记和文字,用于自动驾驶的应用。该系统可以为自动驾驶车辆提供道路驾驶信息和警告。

背景: 大多数研究者将目标检测分解为定位和分类两大任务。Fast R-CNN使用ROI池更新整个卷积网络权重,Faster R-CNN使用区域建议网络来替代选择搜索,加快了R-CNN的速度。但是这些方法的速度和实时性还存在很大差距。

YOLO: 它是一种快速的目标检测器,将目标检测作为一个回归问题来解决。虽然YOLO模型在目标检测方面有很好的表现,但是YOLO模型在区分中文单词和道路标记方面存在困难。

辅助分类器: 解决上面问题的一个方法是加入辅助分类器,即使用SqueezeNet来帮助YOLO区分中文单词。相对于AlexNet、GoogLeNet和ResNet,基于CNN的轻量级二维分类器(SqueezeNet)显著提高了分类性能。但是又存在新的问题,它可以成功将中文与其他道路标记分开但是不能区分两个不同的中文单词,这可能是因为简单的二维分类网络学到的特征十分有限造成的。

方法设计

提出了一种结合一阶段检测器和辅助分类器的端到端道路标记检测系统。检测部分使用YOLOv2,辅助分类器使用三维卷积神经网络。

作者对SqueezeNet和C3D进行了比较。

SqueezeNet在设计参数更少的同时达到了AlexNet级别的精度。但是当5类中文文本以不同角度出现时,SqueezeNet的分类不够鲁棒。需要一个更健壮的分类器来处理这个问题,为此提出一种基于三维卷积神经网络的此分类器。

三维卷积神经网络模型最初的应用是为了对行为分类,这与二维神经网络目的不同。通常二维卷积层用于单通道和多通道图像;然而二维卷积神经网络最终输出的是一幅二维的特征映射,所以在这个过程中多通道的特征映射必须进行压缩。如果使用三维卷积层,最终输出的特征映射仍然是一个多通道特征的三维特征映射,因此能够解决上述识别相似中文分词的问题。

Recognizing Chinese Texts with 3D convolutional neural network论文阅读_第1张图片
当用YOLOv2检测出中文区域后,将该区域以四个不同角度叠加作为三维卷积神经网络的输入,这样可以使三维卷积网络从不同角度学习同一单词的特征,这样训练出的模型会更加鲁棒。Figure2是三维网络的结构图,具体的各层信息如下:
Recognizing Chinese Texts with 3D convolutional neural network论文阅读_第2张图片

实验结果

Recognizing Chinese Texts with 3D convolutional neural network论文阅读_第3张图片
这是数据集的示例图像。所有图像从真实驾驶环境中获取,然后转换成鸟瞰视角图像。数据集中包含11个路标类,有边界框和标签。

辅助分类器的训练集有5个类别:30、速、限、慢、让。使用数据增强来增加训练集的用例。图4是数据增强中使用的4种方法。
Recognizing Chinese Texts with 3D convolutional neural network论文阅读_第4张图片
三维卷积网络中使用了批归一化,用于对单词的四个角度特征进行归一化。如果不适用批归一化,由于单词角度不同,提取的特征会有很大的差异,使得模型在训练时无法收敛。如下表所示:在这里插入图片描述
因此训练时必须使用高斯分布初始化三维卷积层和批归一化层。

通过实验,我们得出三维神经网络分类误差主要有两个原因:(1)不同光照强度和阴影导致道路特征变化,进而导致三维网络分类精度下降;(2)另一点是当单词从远处出现时,会因为鸟瞰而模糊。

为了解决第一个问题,需要有更多不同光强和阴影的数据样本。一种可能的方法是使用GAN网络来模仿光强度和阴影的风格,以产生更多的在光强度和阴影中变化的道路标记。
为了解决第二个问题,可以将YOLOv2检测器的单词检测阈值提高到0.8,以避免发送给三维网络分类器的单词过于模糊。

三维分类网络的微调和检测器是分开训练的,在进行检测时,它们被整合在一起成为一个端到端的系统。该系统可以在1080TI下实现20fps的执行速度。

结论

本文的实验结果证明本文提出的三维分类模型可以用于中文单词的分类,并且结合YOLOv2目标检测器可以检测到道路标记。在地图上精度达到91%。在单词分类性能方面,提出的三维卷积网络模型比SqueezeNet具有更好的性能。此外,发现光照强度和阴影的变化会影响单词分类的准确性,随着训练数据集的增加,光照强度和阴影的变化,该设计将更加稳健。

你可能感兴趣的:(#,CV论文阅读)