奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试

战网验证码识别库  战网验证码识别 如何识别战网验证码   如何自动识别战网验证码

上一篇文章,奇迹验证码少样本高精度验证测试。基于新浪微博验证码的测试 

我们一般都是用标记正确的样本来训练,通常的想法是:样本标记的越正确,成功率越高,错误的越多,越影响识别率。

本测试的目的是:

验证一下,错误样本与可疑样本 能不能训练出80-90%的识别库?

可能对可能不对的,收集 了3万张左右,标记全部是错误的结果6500张,不能联网核对对错,又不想人工一个个的核对,怎样训练出识别率80-90%的识别库

 

 
如果能联网核对对错收集正确样本自然简单。我们说的是如果不能联网验证的时候,怎样区分他是对还是错

 一种方法是人工一个个的核对,那样很慢但比较准

一种是根据初步识别的位数来判断 

当然愿意人工一张一张标记成正确的,那是可以的
 
愿意去花钱打码也是可以的
 
或直接花钱买一个本地识别库也是可以的

 

一、随机下载3.7万张样本

https://www.battlenet.com.cn/login/captcha.jpg

二、把验证码分成2部分:“确认错误标记”+“可疑标记” 


 通过分析,正确的验证码一般长度是 7-9位的。
 
那么通过程序 ,可自动把1-6位。和10位或以上的标记答案 确认为“确认错误标记”以下简称【6500错误样本】

 

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试_第1张图片

7-9位的标记为“可疑标记”
奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试_第2张图片
 
下面再把7-9位的合计3万张分为3份,每份1万张。

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试_第3张图片

 

 训练原理如下:
其实这里面重要的是2个分类
 
一个是完全正确的,一个是完全错误的
 
我们把可疑的正确的   里面的最 接近正确的分离出来,就成功了
 
再通过训练的初步识别库。来识别 刚刚6500张, 
训练3个识别库 来,交叉验证一下结果
 
结果相同的分为一类,结果不相同的分类
 
如果识别库A,识别库B,和识别库C 来识别6500张完全错误的。识别的结果与之前的标记不同,且识别的位数是7-9位,那么这个很有可能就是正确的识别结果
 
如果用程序自动来处理,很快就分离出“正确”和“错误”的标记,再进一步修正错误的标记为 “更正确的”的标记

 三、训练6500张图、训练1万张图、训练3万张图,分别跑15000步。


我先来训练一下这6500张图
 
如果想让这6500张里效果更好一些,可以人工标记几张图,
 
比如50-100张,也可以不标

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试_第4张图片

这是完全错误的样本,竟然有60%,看看有没有一点点成功识别率。

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试_第5张图片奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试_第6张图片

效果还是可以的;

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试_第7张图片

这是刚刚的可疑C 目录,1万样本,80%左右

奇迹验证码错误样本与可疑样本训练验证测试。基于战网验证码的测试_第8张图片

这是全部的可疑样本 3万样本,15000  82%

四、实测3个模型库的识别率

经过实测,6500错误样本训练的识别库,实测成功率为83%

可疑C 目录,1万样本训练的识别库,实测成功率91%

全部的可疑样本 3万样本训练的识别库,实测成功率92%

样本分离、模型融合后,实测成功率98%

那么有的朋友要问了,为什么实测成功率比训练的成功率高?那是因为可疑样本中有一部分样本是标记错误的。

五、以上原始样本集标记用到自动标记工具,

验证码 样本批量下载 自动标注  万能英数验证码 识别库

战网验证码识别库  战网验证码识别 如何识别战网验证码   如何自动识别战网验证码

博客地址:https://blog.csdn.net/qq_41895190

 

 

你可能感兴趣的:(深度学习,验证码识别)