DBNet

文本检测模型-DBNet

    • 描述
    • 模型结构
    • 数据准备
    • Loss

描述

原文链接:https://arxiv.org/pdf/1911.08947.pdf
原文代码链接:https://github.com/MhLiao/DB

DBNet是一种基于分割的文本检测模型,这篇论文提出了一种可微分二值化方式,将模型输出的概率图与阈值图二值化成为预测结果的二值图。该模型引入带k梯度增益因子的sigmoid作为二值化方程,预测了文本的概率图和阈值的概率图,使用阈值+DB增加预测错误的梯度,提升文本检测的效果。
DBNet_第1张图片
如图为DBNet的处理流程。模型会依据输入图片生成segmentation map和threshold map两张图,然后将segmentation map和threshold map输入DB生成binarization map。最后取正样本的最小外接矩形框或多边形框作为文本检测的结果。

模型结构

DBNet_第2张图片
DBNet的基础模型结构为FPN,将图片1/32,1/16,1/8以及1/4的特征融合成原图1/4大小的特征图作为fuse,然后对fuse进行反卷积至原图大小,生成probability map(上文中的segmentation map)和threshold map。

数据准备

需要准备probability map的GT与threshold map的GT。其中概率图为原始文本框按照一定比例缩放,然后将左右缩放框里的像素值置1,其余像素值置0。阈值图计算文本标注边界到缩放及扩张边界的归一化结果,然后将结果缩放至0.3至0.7之间。

Loss

本文采用的loss为Ls + αLb + βLt,其中Ls与Lb使用的是BCEloss,Lt为L1loss
Alt
Alt
Alt

你可能感兴趣的:(算法,人工智能)