【含17w样本】搜狗验证码识别

搜狗的验证码挺有趣的,干扰给满分,今天不做方案,只做分享

【核心】重中之重

样本下载地址:[https://bbs.nightteam.cn/thread-149.htm](https://bbs.nightteam.cn/thread-149.htm)

一共17W样本,性能再差的网络也能识别的很好了
【含17w样本】搜狗验证码识别_第1张图片
训练并没有什么注意事项,但是印象中这个验证码发生过一次改动,尺寸修改,那么如何应对这种变化而不用二次训练呢?这才是今天的主题

【提升模型的泛化能力——适应尺寸变化】

我们的样本尺寸是单一的,通过观察,我们得知,如果通过裁剪修改图片比例容易丢失重要内容的像素,那么我们可以反其道通过填充模拟:
下面列举几个方案:

方案一:
在这里插入图片描述
可以通过复制【红色区域】向上延展图片内容。——四个方向同理

方案二:
图片拼接:怎么说呢,我们可以手动筛选出部分字符,做一个图像生成器,旋转放大扭曲等等之后拼接于首位或末尾

方案三:
生成一部分尺寸不一,字体相近的验证码按一定的权重和样本混合训练

训练流程

可以参见:
https://blog.csdn.net/kerlomz/article/details/86706542

你可能感兴趣的:(验证码,验证码识别,CRNN)