DBnet 分割任务

分割方法在文本检测中非常常见. 分割可以对付弯曲的情况. 分割: 对每个像素点做分类.  分割方法现状的缺点: 后处理方式要过滤, 比较麻烦 . 是不是文本的问题,属于二分类, 设定阈值. 

DB: 可微分二值化. 创新点: 阈值不再固定的值,而是通过网络学习出来的自适应的值.  DB自适应阈值的优点: 速度快.

ocr第一步: 找到文字在哪. 第二步分类.

 

DB: 传统路径中, 会对每个点生成一个概率, 再用二值图过滤. 如下图, 传统方法:蓝色.  DB创新方法:红色. 

DBnet 分割任务_第1张图片 

网络过程:

先不断地进行下采样,获取不同的stage. 然后再对深层分别上采样,融合到浅层特征图中.

DBnet 分割任务_第2张图片

backbone层: 负责提取特征,不断进行下采样

 neck层: 对特征进行整合拼接

head输出层:

概率图: 对每一个点的位置做一个多分类,得到一个概率图.

阈值图: 陪练的. 使模型知道边界在哪

到底是两个字段? 还是一个带空格的一个字段?  方法: 把检测框的尺寸往里缩, 检测框变小后, 检测框之间的距离变大, 防止将两个字段识别为一个字段,  让不同字段之间的边界更加清晰

DBnet 分割任务_第3张图片

 

大于阈值的就是文字区域.  小于阈值的就是背景区域.

SB是标准二值化.  即大于0时为1, 小于0时为0.

把一个不可微的东西变成可微的.

k设为一个经验值50.

loss: 交叉熵损失的变异

和sigmoid的区别, sigmoid传入的是概率值, 这里的b传入的是概率值减去边界t之差.

 

你可能感兴趣的:(深度学习,人工智能)