基于深度学习、OpenCV文本图像表格提取

基于Mask R-CNN以及形态学操作的文本图像中表格区域的提取

训练一个可用于检测表格区域的分割网络,在得到网络的输出即文本图像中表格区域后,利用形态学中的开运算提取表格区域中的线段用于后续的操作。

Mask R-CNN:

MaskRcnn顾名思义由两部分组成:mask、rcnn,在原来rcnn网络的基础上加入了一个mask分支,同时实现了目标检测和实体分割,个人认为是非常值得深入研究的一个架构。

R-CNN:

rcnn网络是非常经典的two-stage目标检测网络,在很多目标检测数据集上都能达到SOT水准。本文会做一个概括的说明,更多的细节可以参考Google。

stage1:
通过RPN网络得到Region Proposal。
stage2:
stage1的结果进行bounding box回归和分类,实现目标检测。

基于深度学习、OpenCV文本图像表格提取_第1张图片
如上图,首先输入图像经由共享卷积层提取feature maps,然后一个分支输入到RPN网络进行Region Proposal,另一个分支结合rpn网络的输出得到ROI,通过池化层得到固定维度的特征向量,最后进行框回归和分类。
RPN网络
接收feature maps,然后在feature maps每一点做33的卷积,channel=512(VGG-16)如果前面的卷积网

你可能感兴趣的:(深度学习,计算机视觉,NLP)