qq_45674223

验证码识别

代码运行的环境：
win10系统、pycharm2019.1、anaconda3
需要导入的包：
tensorflow、numpy、random、captcha、matplotlib、PIL等
导入包的方法：
在命令提示符中输入pip install+包名

首先我们应该先明确字符型验证码识别的流程，在一般情况下，对于字符型验证码的识别流程如下：
1.准备原始图片素材
2.图片预处理
3.图片字符切割
4.图片尺寸归一化
5.图片字符标记
6.字符图片特征提取
7.生成特征和标记对应的训练数据集
8.训练特征标记数据生成识别模型
9.使用识别模型预测新的未知图片集
10.达到根据“图片”就能返回识别正确的字符集的目标

当明确代码流程后，我们还要清楚我们需要哪种数据集。生活中，验证码可以有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的密码尝试，实际上用验证码是很多网站通行的方式。我们需要先明确我们需要的是哪种验证码，只有数字、数字加字母、文字等。验证码中字符种类不同，排列组合后验证码的张数也不同。

本文选择的是只有数字的验证码图片，每张图片内有四个字符

下面将介绍代码实现的流程

第一部分生成验证码图片

1、导入包

from captcha.image import ImageCaptcha
import random
import sys

2、数字、大小写字母

number = [‘0’,‘1’,‘2’,‘3’,‘4’,‘5’,‘6’,‘7’,‘8’,‘9’]
alphabet =[‘a’,‘b’,‘c’,‘d’,‘e’,‘f’,‘g’,‘h’,‘i’,‘j’,‘k’,‘l’,‘m’,‘n’,‘o’,‘p’,‘q’,‘r’,‘s’,‘t’,‘u’,‘v’,‘w’,‘x’,‘y’,‘z’]
ALPHABET [‘A’,‘B’,‘C’,‘D’,‘E’,‘F’,‘G’,‘H’,‘I’,‘J’,‘K’,‘L’,‘M’,‘N’,‘O’,‘P’,‘Q’,‘R’,‘S’,‘T’,‘U’,‘V’,‘W’,‘X’,‘Y’,‘Z’]

3、随机生成验证码文本

def random_captcha_text(char_set=number+alphabet+ALPHABET,
captcha_size=4):
captcha_text = []
for i in range(captcha_size):
c = random.choice(char_set)
captcha_text.append©
return captcha_text

4、生成字符对应的验证码

def gen_captcha_text_and_image():
image = ImageCaptcha()
captcha_text = random_captcha_text()
captcha_text = ‘’.join(captcha_text)
captcha = image.generate(captcha_text)
image.write(captcha_text, ‘D:/pycharm/project/text7验证码识别/images/’ + captcha_text + ‘.jpg’)

5、数量少于10000，因为重名

num = 10000 if name == ‘main’:
for i in range(num):
gen_captcha_text_and_image()
sys.stdout.write(’\r>> Creating image %d/%d’ % (i+1, num))
sys.stdout.flush()
sys.stdout.write(’\n’)
sys.stdout.flush()
print(“生成完毕”)

第二部分生成tfrecord文件

1、导入包

import tensorflow as tf
import os
import random
import math import sys
from PIL import Image import numpy as np

2、初始化

#验证集数量
_NUM_TEST = 500
#随机种子
_RANDOM_SEED = 0
#数据集路径
DATASET_DIR = “D:/pycharm/project/text7验证码识别/images/”
#tfrecord文件存放路径
TFRECORD_DIR = “D:/pycharm/project/text7验证码识别/”

tfrecord数据文件是一种将图像数据和标签统一存储的二进制文件，能更好的利用内存，在tensorflow中快速的复制，移动，读取，存储

3、判断tfrecord文件是否存在

def _dataset_exists(dataset_dir):
for split_name in [‘train’, ‘test’]:
output_filename = os.path.join(dataset_dir,split_name + ‘.tfrecords’)
if not tf.gfile.Exists(output_filename):
return False
return True

4、获取所有验证码图片

def _get_filenames_and_classes(dataset_dir):
photo_filenames = []
for filename in os.listdir(dataset_dir):
#获取文件路径
path = os.path.join(dataset_dir, filename)
photo_filenames.append(path)
return photo_filenames

一个Example中包含Features，Features里包含Feature（这里没s）的字典，Feature里包含有一个 FloatList，或者ByteList，或者Int64List

def int64_feature(values):
if not isinstance(values, (tuple, list)):
values = [values]
return tf.train.Feature(int64_list=tf.train.Int64List(value=values))

def bytes_feature(values):
return tf.train.Feature(bytes_list=tf.train.BytesList(value=[values]))

5、将数据写入tfrecords文件

tf.train.Example(features = None)，用于写入tfrecords文件，features ： tf.train.Features类型的特征实例，返回example协议格式块

def image_to_tfexample(image_data, label0, label1, label2, label3):
#Abstract base class for protocol messages.
return tf.train.Example(features=tf.train.Features(feature={
‘image’: bytes_feature(image_data),
‘label0’: int64_feature(label0),
‘label1’: int64_feature(label1),
‘label2’: int64_feature(label2),
‘label3’: int64_feature(label3),
}))

6、把数据转为TFRecord格式

def _convert_dataset(split_name, filenames, dataset_dir):
assert split_name in [‘train’, ‘test’]

7、创建会话

将tfrecord中的数据读取出来，处理图片，把三位彩色图片转为黑白一维图片

with tf.Session() as sess:
#定义tfrecord文件的路径+名字
output_filename = os.path.join(TFRECORD_DIR,split_name + ‘.tfrecords’)
with tf.python_io.TFRecordWriter(output_filename) as tfrecord_writer:
#通过tf.python_io.TFRecordWriter class中的write方法将tfrecord文件写入到output_filename
for i,filename in enumerate(filenames):
try:
sys.stdout.write(’\r>> Converting image %d/%d’ % (i+1, len(filenames)))
sys.stdout.flush()
#读取图片
image_data = Image.open(filename)
#根据模型的结构resize
image_data = image_data.resize((224, 224))
#灰度化
image_data = np.array(image_data.convert(‘L’))
#将图片转化为bytes，图片转化成字节
image_data = image_data.tobytes()
#获取label，split(’/’)[-1]以‘/ ’为分割f符，保留最后一段
labels = filename.split(’/’)[-1][0:4]
num_labels = []
for j in range(4):
num_labels.append(int(labels[j]))
#生成protocol数据类型
example = image_to_tfexample(image_data, num_labels[0], num_labels[1], num_labels[2], num_labels[3])
tfrecord_writer.write(example.SerializeToString())#序列转化成字符串
except IOError as e:
print(‘Could not read:’,filename)
print(‘Error:’,e)
print(‘Skip it\n’)
sys.stdout.write(’\n’)
sys.stdout.flush()

8、判断tfrecord文件是否存在

if _dataset_exists(TFRECORD_DIR):
print(‘tfcecord文件已存在’) else:
#获得所有图片
photo_filenames = _get_filenames_and_classes(DATASET_DIR)

9、把数据切分为训练集和测试集,并打乱

验证集数量_NUM_TEST = 500 随机种子_RANDOM_SEED = 0

random.seed(_RANDOM_SEED)
random.shuffle(photo_filenames)
training_filenames = photo_filenames[_NUM_TEST:]
testing_filenames = photo_filenames[:_NUM_TEST]

10、数据转换

_convert_dataset(‘train’, training_filenames, DATASET_DIR)
_convert_dataset(‘test’, testing_filenames, DATASET_DIR)
print(‘生成tfcecord文件’)

第三部分训练生成模型

轮数设置为10000轮，一个批次喂入25张图片训练，每25张图片训练一次将25张图片全部装载大文件名队列，装载10000次，内存队列会从队列中读取图片

1、导入包

import os
import tensorflow as tf
from PIL import Image
from nets import nets_factory
import numpy as np

2、初始化

#不同字符数量
CHAR_SET_LEN = 10
#图片高度
IMAGE_HEIGHT = 60
#图片宽度
IMAGE_WIDTH = 160
#批次
BATCH_SIZE = 25

3、tfrecord文件存放路径

TFRECORD_FILE = “D:/pycharm/project/text7验证码识别/train.tfrecords”

4、初始化

placeholder()函数是在神经网络构建graph的时候在模型中的占位

x = tf.placeholder(tf.float32, [None, 224, 224])
y0 =tf.placeholder(tf.float32, [None])
y1 = tf.placeholder(tf.float32,[None])
y2 = tf.placeholder(tf.float32, [None])
y3 = tf.placeholder(tf.float32, [None]）
lr = tf.Variable(0.003, dtype=tf.float32)#学习率

5、从tfrecord读出数据

获取图片数据和标签数据

def read_and_decode(filename):
# 根据文件名生成一个队列
filename_queue = tf.train.string_input_producer([filename])
#creat a reader from file queue
reader = tf.TFRecordReader()
# reader从文件队列中读入一个序列化的样本，返回文件名和文件
_, serialized_example = reader.read(filename_queue)
#解析符号化样本，将Example协议缓冲区（protocol buffer）解析为张量
features = tf.parse_single_example(serialized_example,
features={
‘image’ : tf.FixedLenFeature([], tf.string),
‘label0’: tf.FixedLenFeature([], tf.int64),
‘label1’: tf.FixedLenFeature([], tf.int64),
‘label2’: tf.FixedLenFeature([], tf.int64),
‘label3’: tf.FixedLenFeature([], tf.int64),
})
# 获取图片数据
image = tf.decode_raw(features[‘image’], tf.uint8)
# tf.train.shuffle_batch必须确定shape
#没有经过预处理的灰度图
image = tf.reshape(image, [224, 224])

6、图片预处理

图像归一化，对于图片上的像素点，值域在0到255之间，图片如果是彩色，那么实际上会有三个通道，这里都是黑白色，所以，只有一个通道，取图片上真实像素点的值，除以255进行归一化即可

image = tf.cast(image, tf.float32) / 255.0

tf.subtract减法操作 tf.multiply将两个矩阵中对应元素各自相乘
tf.cast类型转换函数

image = tf.subtract(image, 0.5)
image = tf.multiply(image, 2.0)

7、获取图片数据和标签

label0 = tf.cast(features[‘label0’], tf.int32)
label1 = tf.cast(features[‘label1’], tf.int32)
label2 = tf.cast(features[‘label2’], tf.int32)
label3 = tf.cast(features[‘label3’], tf.int32)
return image, label0, label1, label2, label3
image, label0, label1, label2, label3 = read_and_decode(TFRECORD_FILE)

使用shuffle_batch可以随机打乱输入 next_batch挨着往下,shuffle_batch才能实现[img,label]的同步,也即特征和label的同步,不然可能输入的特征和label不匹配,比如只有这样使用,才能使img和label一一对应,每次提取一个image和对应的label,shuffle_batch返回的值就是RandomShuffleQueue.dequeue_many()的结果,Shuffle_batch构建了一个RandomShuffleQueue，并不断地把单个的[img,label],送入队列中

image_batch, label_batch0, label_batch1, label_batch2, label_batch3 =tf.train.shuffle_batch( [image, label0, label1, label2, label3], batch_size = BATCH_SIZE,capacity = 50000, min_after_dequeue=10000, num_threads=1)

8、定义网络结构

train_network_fn = nets_factory.get_network_fn(
‘alexnet_v2’,
num_classes=CHAR_SET_LEN,
weight_decay=0.0005,
is_training=True)

9、创建会话

with tf.Session() as sess:
X = tf.reshape(x, [BATCH_SIZE, 224, 224, 1]) # inputs: a tensor of size [batch_size, height, width, channels]
# 数据输入网络得到输出值
logits0,logits1,logits2,logits3,end_points = train_network_fn(X)
# 把标签转成one_hot的形式
one_hot_labels0 = tf.one_hot(indices=tf.cast(y0, tf.int32), depth=CHAR_SET_LEN)
one_hot_labels1 = tf.one_hot(indices=tf.cast(y1, tf.int32), depth=CHAR_SET_LEN)
one_hot_labels2 = tf.one_hot(indices=tf.cast(y2, tf.int32), depth=CHAR_SET_LEN)
one_hot_labels3 = tf.one_hot(indices=tf.cast(y3, tf.int32), depth=CHAR_SET_LEN)
# 计算loss
loss0=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=logits0,labels=one_hot_labels0))
loss1=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=logits1,labels=one_hot_labels1))
loss2=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=logits2,labels=one_hot_labels2))
loss3=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=logits3,labels=one_hot_labels3))
# 计算总的loss
total_loss = (loss0+loss1+loss2+loss3)/4.0
# 优化total_loss
optimizer=tf.train.AdamOptimizer(learning_rate=lr).minimize(total_loss)
# 计算准确率
correct_prediction0=tf.equal(tf.argmax(one_hot_labels0,1),tf.argmax(logits0,1))
accuracy0 = tf.reduce_mean(tf.cast(correct_prediction0,tf.float32))
correct_prediction1=tf.equal(tf.argmax(one_hot_labels1,1),tf.argmax(logits1,1))
accuracy1 = tf.reduce_mean(tf.cast(correct_prediction1,tf.float32))
correct_prediction2 = tf.equal(tf.argmax(one_hot_labels2,1),tf.argmax(logits2,1))
accuracy2 = tf.reduce_mean(tf.cast(correct_prediction2,tf.float32))
correct_prediction3 = tf.equal(tf.argmax(one_hot_labels3,1),tf.argmax(logits3,1))
accuracy3 = tf.reduce_mean(tf.cast(correct_prediction3,tf.float32))
# 用于保存模型
saver = tf.train.Saver()
# 初始化
sess.run(tf.global_variables_initializer())
# 创建一个协调器，管理线程
coord = tf.train.Coordinator()
# 启动QueueRunner, 此时文件名队列已经进队
threads = tf.train.start_queue_runners(sess=sess, coord=coord)
for i in range(10001):#训练10000轮
# 获取一个批次的数据和标签
b_image, b_label0, b_label1 ,b_label2 ,b_label3 = sess.run([image_batch, label_batch0, label_batch1, label_batch2,
label_batch3])
# 优化模型
sess.run(optimizer, feed_dict={x: b_image, y0:b_label0, y1: b_label1, y2: b_label2, y3: b_label3})
# 每迭代20次计算一次loss和准确率
if i % 20== 0:
# 每迭代2000次降低一次学习率
if i%2000 == 0:
sess.run(tf.assign(lr, lr/3))
acc0,acc1,acc2,acc3,loss_ = sess.run([accuracy0,accuracy1,accuracy2,accuracy3,total_loss],feed_dict={x:
b_image,
y0: b_label0,
y1: b_label1,
y2: b_label2,
y3: b_label3})
learning_rate = sess.run(lr)
print (“Iter:%d Loss:%.3f Accuracy:%.2f,%.2f,%.2f,%.2f Learning_rate:%.4f” % (i,loss_,acc0,acc1,acc2,acc3,learning_rate))
# 保存模型
# if acc0 > 0.90 and acc1 > 0.90 and acc2 > 0.90 and acc3 > 0.90:
if i==100:#如果到100轮保存模型
saver.save(sess, “D:/pycharm/project/text7验证码识别/models/crack_captcha.model”,
global_step=i)
break
# 通知其他线程关闭
coord.request_stop()
# 其他所有线程关闭之后，这一函数才能返回
coord.join(threads)

第四部分测试

1、导入模块

import os
import tensorflow as tf
from PIL import Image from nets
import nets_factory
import numpy as np
import matplotlib.pyplot as plt

2、初始化

不同字符数量

CHAR_SET_LEN = 10

图片高度

IMAGE_HEIGHT = 60

图片宽度

IMAGE_WIDTH = 160

批次，10个样本，每次取一个样本测试

BATCH_SIZE = 1

tfrecord文件存放路径

TFRECORD_FILE = “D:/pycharm/project/text7验证码识别/test.tfrecords”

placeholder占位

x = tf.placeholder(tf.float32, [None, 224, 224])

3、从tfrecord读出数据

def read_and_decode(filename):
# 根据文件名生成一个队列
filename_queue = tf.train.string_input_producer([filename])
reader = tf.TFRecordReader()
# 返回文件名和文件
_, serialized_example = reader.read(filename_queue)
features = tf.parse_single_example(serialized_example,
features={
‘image’ : tf.FixedLenFeature([], tf.string),
‘label0’: tf.FixedLenFeature([], tf.int64),
‘label1’: tf.FixedLenFeature([], tf.int64),
‘label2’: tf.FixedLenFeature([], tf.int64),
‘label3’: tf.FixedLenFeature([], tf.int64),
})
# 获取图片数据
image = tf.decode_raw(features[‘image’], tf.uint8)
# 没有经过预处理的灰度图
image_raw = tf.reshape(image, [224, 224])
# tf.train.shuffle_batch必须确定shape
image = tf.reshape(image, [224, 224])
# 图片预处理
image = tf.cast(image, tf.float32) / 255.0
image = tf.subtract(image, 0.5)
image = tf.multiply(image, 2.0)
# 获取label
label0 = tf.cast(features[‘label0’], tf.int32)
label1 = tf.cast(features[‘label1’], tf.int32)
label2 = tf.cast(features[‘label2’], tf.int32)
label3 = tf.cast(features[‘label3’], tf.int32)
return image, image_raw, label0, label1, label2, label3

4、获取图片数据和标签

image, image_raw, label0, label1, label2, label3 =
read_and_decode(TFRECORD_FILE)

5、使用shuffle_batch可以随机打乱

image_batch, image_raw_batch, label_batch0, label_batch1,
label_batch2, label_batch3 = tf.train.shuffle_batch(
[image, image_raw, label0, label1, label2, label3], batch_size = BATCH_SIZE,
capacity = 50000, min_after_dequeue=10000, num_threads=1)

6、定义网络结构

train_network_fn = nets_factory.get_network_fn(
‘alexnet_v2’,
num_classes=CHAR_SET_LEN,
weight_decay=0.0005,
is_training=False)

7、创建会话

with tf.Session() as sess:
# inputs: a tensor of size [batch_size, height, width, channels通道数]
X = tf.reshape(x, [BATCH_SIZE, 224, 224, 1])
# 数据输入网络得到输出值
logits0,logits1,logits2,logits3,end_points = train_network_fn(X)
# 预测值
predict0 = tf.reshape(logits0, [-1, CHAR_SET_LEN])
predict0 = tf.argmax(predict0, 1)
predict1 = tf.reshape(logits1, [-1, CHAR_SET_LEN])
predict1 = tf.argmax(predict1, 1)
predict2 = tf.reshape(logits2, [-1, CHAR_SET_LEN])
predict2 = tf.argmax(predict2, 1)
predict3 = tf.reshape(logits3, [-1, CHAR_SET_LEN])
predict3 = tf.argmax(predict3, 1)
# 初始化
sess.run(tf.global_variables_initializer())
# 载入训练好的模型
saver = tf.train.Saver()
saver.restore(sess,‘D:/pycharm/project/text7验证码识别/models/crack_captcha.model-100’)
# 创建一个协调器，管理线程
coord = tf.train.Coordinator()
# 启动QueueRunner, 此时文件名队列已经进队
threads = tf.train.start_queue_runners(sess=sess, coord=coord)
for i in range(10):
# 获取一个批次的数据和标签
b_image, b_image_raw, b_label0, b_label1 ,b_label2 ,b_label3 = sess.run([image_batch,
image_raw_batch,
label_batch0,
label_batch1,
label_batch2,
label_batch3])
# 显示图片
#img=Image.fromarray(b_image_raw[0],‘L’)
#plt.imshow(img)
#plt.axis(‘off’)
#plt.show()
# 打印标签
print(‘label:’,b_label0, b_label1 ,b_label2 ,b_label3)
# 预测
label0,label1,label2,label3 = sess.run([predict0,predict1,predict2,predict3], feed_dict={x:
b_image})
# 打印预测值
print(‘predict:’,label0,label1,label2,label3)
# 通知其他线程关闭
coord.request_stop()
# 其他所有线程关闭之后，这一函数才能返回
coord.join(threads)

最后下面介绍一下alexnet网络结构

未经处理的图片是RGB格式16060的图片，经过灰度化处理后图片变成黑白一维224224图片。网络有5层卷积3层池化、3层全连接

cv2 python_【cv2模块 python3】正定幢 cv2 python
Pythonopencv模块cv2安装和部分函数使用前几天做了一下验证码识别，在这里分享一下用到的opencv模块cv2部分函数的使用方法，也是给自己加深一下记忆。一、cv2模块安装在这里提醒一下这里有坑欧你如果直接用pipinstallcv2会报错欧往下看解决办法可以通过pipinstallopencv-python来进行安装如果pip不能安装还可以通过https://pypi.tuna.tsi
顶像滑块验证码识别平译虹
顶像滑块验证码识别筘【1119372179】暮霭，目断武陵溪，往事难追。好事近韩元吉凝碧旧池头，一听管弦凄切。多少梨园声在，总不堪华发。杏花无处避春愁，也傍野烟发。惟有御沟声断，似知人呜咽。瑞鹤仙袁去华郊原初过雨，风数叶零乱，风定犹舞。斜阳挂深树，映浓愁浅黛。遥山媚妩。来时旧路，尚岩花、娇黄半吐。到今日惟有、溪边流水，见人如故。无语，邮亭深静，下马还寻，旧曾题处。无聊倦旅，伤离恨，最愁苦。纵收香藏
2024年最全Python使用打码平台进行识别验证码_python验证码识别文字坐标 2401_84584831 程序员 python 开发语言
打码平台介绍一般使用超级鹰或打码兔的打码平台。超级鹰介绍打开http://www.chaojiying.com/contact.html注册用户，生成软件ID下载python的demo文件查看打码类型使用方法逻辑实现1.获取需要识别的图片在获取需要的识别的
python从入门到精通（十五）：python爬虫完整学习大纲 HACKNOE python 爬虫学习
一、基础知识爬虫的基本概念和工作原理。HTTP协议和网页结构。Python爬虫开发的基础库，如requests、BeautifulSoup等。常见的反爬虫机制和应对方法。二、爬虫逆向的技术代理服务器和IP封锁突破。用户代理和请求头模拟。JavaScript解析和执行。验证码识别和破解。动态网页抓取和爬虫框架。三、数据抓取和处理数据抓取的技巧和策略。数据清洗和预处理。数据存储和数据库操作。数据分析和
Python爬虫项目（附源码）70个Python爬虫练手实例！硬核Python 职业与发展 python 编程 python 爬虫开发语言
文章目录Python爬虫项目70例（一）：入门级Python爬虫项目70例（二）：pyspiderPython爬虫项目70例（三）：scrapyPython爬虫项目70例（四）：手机抓取相关Python爬虫项目70例（五）：爬虫进阶部分Python爬虫项目70例（六）：验证码识别技术Python爬虫项目70例（七）：反爬虫技术读者福利1、Python所有方向的学习路线2、Python课程视频3、精
Nodejs Playwright 2Captcha 验证码识别实现自动登陆 openHacking
原文：https://lwebapp.com/zh/post/bypass-captcha需求日常工作当中，为了提高工作效率，我们可能会写脚本来自动执行任务。有些网站因为需要用户登陆，所以脚本的自动登陆功能必不可少。不过我们在登陆网站的时候经常会出现验证码，验证码的目的就是为了防止机器登陆、自动化脚本操作，那么有没有办法让脚本能自动识别验证码实现登陆呢？接下来我以B站为例给大家讲解下，如何解决自动
百度百家号旋转验证码识别研究 Dxy1239310216 图像处理验证码识别 Python python 图像识别旋转验证码深度学习
最近研究了一下图像识别，一直找到很好的应用场景，今天我就发现可以用百度的旋转验证码来做一个实验。没想到效果还挺好，下面就是实际的识别效果。1、效果演示2、如何识别2.1准备数据集首先需要使用爬虫，对验证码图片进行采集，尽量每一种类型都要采集到。2.2图像矫正接下来对采集的数据进行人工校正2.3数据清洗（1）对数据进行进行旋转，达到增加数据量的目的。（2）对数据进行灰度化处理，将三维图片降为二维。（
Java 验证码识别（2）Java OpenCV 的使用灰度、二值化、腐蚀膨胀去干扰线小百菜 java java 去干扰线二值化灰度机器学习
上一篇使用Tess4J进行OCR识别，虽然能识别一些简单的验证码，但是验证码有干扰线就识别不了。这一篇讲下如何使用OpenCV去除干扰线。1、maven依赖org.bytedecojavacv-platform1.5.5OpenCV用C++语言编写，提供了接口，我这里使用javacv它里面就有opencv，不过这样依赖会将所有平台的jar包都拉取下来，项目接近1G大小，可以看下我的另外一篇博文精简
【旧文更新】【优秀毕设】人脸识别打卡/签到/考勤管理系统（OpenCV+最简基本库开发、可移植树莓派扩展网络图像推流控制验证码及Excel邮件发送等功能）网易独家音乐人Mike Zhou opencv 嵌入式 iot 物联网人工智能计算机视觉树莓派
【旧文更新】【优秀毕设】人脸识别打卡/签到/考勤管理系统（OpenCV+最简基本库开发、可移植树莓派扩展网络图像推流控制验证码及Excel邮件发送等功能）文章目录关于旧文新发毕设结构主页面验证码识别效果管理页面人脸信息采集管理实时数据更新签到结果邮件发送网络前端效果实时图像推流附录：列表的赋值类型和py打包列表赋值BUG复现代码改进优化总结py打包附录：关于旧文新发关于旧文新发为何要进行旧文新发？
基于Python实现神经网络验证码识别系统依然风yrlf python 神经网络深度学习 opencv 人工智能计算机视觉
首先需要准备训练数据集、设计神经网络模型、训练模型以及最后的验证码识别。代码很简单，但需要慢慢研读，这个是卷积神经网络，运行时间比较长，可以自己调节参数。importosos.environ["PATH"]+=os.pathsep+'C:/ProgramFiles(x86)/Graphviz2.38/bin/'importstring,randomfromcaptcha.imageimportIm
使用深度学习进行验证码识别系统搭建（附项目资源）粥粥坠腻害人工智能 python 深度学习深度学习人工智能 tensorflow keras 图像处理 cnn 迁移学习
目录开发环境1项目介绍2导入所需库并定义超参数3验证码数据生成4构建数据管道5模型架构设计6模型训练及调参7模型评估与预测8改进策略9总结与展望项目资源开发环境作者：嘟粥yyds时间：2023年7月21日集成开发工具：PyCharmProfessional2021.1和GoogleColab集成开发环境：Python3.10.6第三方库：tensorflow-gpu2.10.0、numpy、mat
Web UI自动化-获取接口返回数据 Jalinyz
场景：在进行UI自动化测试时解决验证码进行登录的方法有很多，比如：设置万能验证码手动登录后设置cookies绕过免登录进行切图，使用pytesseract和pillow实现验证码识别（这个只能解决一些不太复杂的验证码问题，识别率很低）切图后调用第三方AI库识别验证码（识别率高但是要花钱~~）除了以上我们常用的方法之外，这里给大家介绍另外一种方法，通过获取接口返回数据拿到验证码code解决：使用Br
JAVA用tess4j识别复杂的验证码，自定义字库，计算题验证码，jTessBoxEditor，tess4j，验证码识别 june-Dai Yi java tess4j jTessBoxEditor 验证码识别计算题验证码识别
JAVA用tess4j识别复杂的验证码，自定义字库，计算题验证码场景JAVA用tess4j识别文本MAVEN依赖traineddata文件下载识别英文识别中文JAVA用tess4j识别验证码常见验证码的类型识别自定义字库，提高识别率下载jTessBoxEditor解压添加环境变量运行准备素材合并PNG为tif文件生成box文件使用jTessBoxEditor工具对tif文件进行校准校正生成tr文件
验证码识别工具一键快速识别 2301_78146980 python opencv 开发语言
---------------------------------------------------------------------------百度搜索：套套图像识别---------------------------------------------------------------------------随着互联网的不断发展和应用程序的普及，许多网站和应用程序采用图像验证码技术来保
使用Python PIL库实现简单验证码的去噪处理梦想编程家小枫
想要识别验证码，收集足够多的样本后，首先要做的就是对验证码原始图片进行处理，对验证码识别分类之前，一般包括：将彩色图片转换成灰度图、将灰度图二值化和去除噪点三个基本过程。这里仅以比较简单的验证码为例，介绍一下如何通过Python的PIL库对图片去噪处理。首先看一下未经处理的验证码图片：对图片处理主要使用了PIL库的Image类。1、彩色图片转换成灰度图首先使用Image的open方法打开上面的图片
Python 3.6 版本 Pytesseract 图像验证码识别 MR_LiY
本文首先先说下问题，在代码中引入Pytesseract块时，总是出现错误程序代码很简单如下：fromPILimportImageimportpytesseracttext=pytesseract.image_to_string(Image.open("pic.gif"))print(text)结果呢，肯定是报错，而且这个错误死活过不去File"D:\ProgramFiles\Python36\li
[转]用python爬虫抓站的一些技巧总结 juunnry python web crawler
来源网站：http://www.pythonclub.org/python-network-application/observer-spider学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写googlemusic的抓取脚本的，结果有了强大的gmbox，
百度贴吧推广大师九千营销
网页搜索贴吧推广大神是一款全自动的百度搜索贴吧推广方法，贴吧业务的可以加Q99382744，Q28110454，微信yisi221官网：www.xtyinliu.cn、包含注册帐号、账户激活、发帖子回贴文章采集、文章原创文章内容、关注钟爱百度贴吧、提升等级、全网推广、回贴推广营销这种不一样功效。自动式换IP，可以运用ADSL方法，分销策略，有线路由器换IP方法，方便使用。此外适用验证码识别，模拟仿
滑块验证码识别代码分享 Dxy1239310216 验证码识别 python 深度学习机器学习
平时我们开发爬虫会遇到各种各样的滑动验证码，如下图所示：为了解决这个问题，我写了一个通用的滑块验证码识别代码，主要是分析图片，然后计算出滑块滑动的像素距离。但是像素距离大多数情况下都不会等于滑动距离，所以需要进行转换。滑动距离的计算我之前写了一个博客，可以点击查看《抖音滑块验证码滑动距离计算_滑动验证码验证判断距离还是对齐-CSDN博客》最后送上缺口的识别代码：importbase64import
滑块验证码识别代码分享 Dxy1239310216 验证码识别 Python python 神经网络深度学习人工智能
平时我们开发爬虫会遇到各种各样的滑动验证码，如下图所示：为了解决这个问题，我写了一个通用的滑块验证码识别代码，主要是分析图片，然后计算出滑块滑动的像素距离。但是像素距离大多数情况下都不会等于滑动距离，所以需要进行转换。滑动距离的计算我之前写了一个博客，可以点击查看《抖音滑块验证码滑动距离计算_滑动验证码验证判断距离还是对齐-CSDN博客》最后送上缺口的识别代码：importbase64import
ddddocr验证码识别模块林小果1 python爬虫爬虫 python
ddddocr验证码识别模块简介ddddocr是一个基于深度学习的OCR（OpticalCharacterRecognition，光学字符识别）工具，主要用于中文场景文字识别。能够对图片中的文字进行识别并提取出来。ddddocr模块主要特点包括：适用于中文场景：ddddocr主要针对中文进行优化，对于中文的识别准确率较高。基于深度学习：ddddocr使用深度学习模型进行文字识别，能够有效处理复杂的
Python验证码识别 Python玩编程 Python python list django virtualenv pycharm
大致介绍在python爬虫爬取某些网站的验证码的时候可能会遇到验证码识别的问题，现在的验证码大多分为四类：1、计算验证码2、滑块验证码3、识图验证码4、语音验证码这篇博客主要写的就是识图验证码，识别的是简单的验证码，要想让识别率更高，识别的更加准确就需要花很多的精力去训练自己的字体库。识别验证码通常是这几个步骤：1、灰度处理2、二值化3、去除边框（如果有的话）4、降噪5、切割字符或者倾斜度矫正6、
验证码识别工具——Pkav HTTP Fuzzer 乌鸦安全工具乌鸦安全验证码自动化网络安全
微信公众号：乌鸦安全扫取二维码获取更多信息！01背景知识在很多时候，当对搜集的Web后台地址等进行用户名和密码的暴力破解时，大部分后台都有验证码进行防护，对于一般的Burpsuite工具是无法直接识别验证码的，除非安装了识别验证码的插件，这次来介绍一款经典验证码暴力破解工具：PkavHTTPFuzzerPkavHTTPFuzzer是一款非常优秀的验证码识别工具。注：PkavHTTPFuzzer针对
基于yolov5模型的200种鸟类检测识别分析系统 Together_CZ 完整源码项目实战 YOLO
该专栏仅支持购买本专栏的同学学习使用，不支持以超级会员、VIP等形式使用，请谅解！【购买专栏后可选择其中一个完整源码项目】本文是我新开设的专栏《完整源码项目实战》的第十三篇全源码文章，包含数据集在内的所有资源，可以实现零基础上手入门学习。前面系列文章链接如下，感兴趣可以移步自行阅读即可：基于CNN的动物识别系统[完整实战源码]基于CNN的字符型验证码识别系统设计开发[完整源码实战]CNN基于肺部C
渗透测试-SQL注入-登录漏洞-Burp爆破 chengstery 渗透测试 SQL注入安全 web安全网络学习
渗透测试-SQL注入-登录漏洞-Burp爆破爆破基于Baidu-OCR的验证码识别Attacktype的四种爆破类型ResourcePool资源池（并发线程设置）爆破在我们之前的登录页面中，因为没有设置登录失败的次数限制，所以可以通过Burp爆破的方式进行登录，从而获取到登录的用户名和密码，进而登录到系统中。基于Baidu-OCR的验证码识别使用插件captcha-killerAttacktype
2021年11月最新搜狗验证码识别，6位全对正确率高达96% Dxy1239310216 验证码识别机器学习 python keras cnn 图像识别
训练数据准备标记数据是最花费时间的事情。最开始手工标记验证码1万条，训练后正确率在50%左右。然后写写代码使用这种低正确率的去自动标记。使用搜狗自动验证，来实现自动标记。逐渐积累数据量，后期只需要人工标记错误验证码就行。这样可以大大减少人工标记量。验证码资源下载地址（100%正确，全部通过搜狗验证）：2021年11月最新搜狗验证码7.3万，6位全对正确率高大96%-机器学习文档类资源-CSDN下载
百度百家号旋转验证码识别代码分享 Dxy1239310216 图像处理 Python 验证码识别计算机视觉 python opencv 人工智能爬虫网络爬虫
最近研究了一下图像识别，一直找到很好的应用场景，今天我就发现可以用百度的旋转验证码来做一个实验。没想到效果还挺好，下面就是实际的识别效果。1、效果演示2、如何识别2.1准备数据集首先需要使用爬虫，对验证码图片进行采集，尽量每一种类型都要采集到。2.2图像矫正接下来对采集的数据进行人工校正2.3数据清洗（1）对数据进行进行旋转，达到增加数据量的目的。（2）对数据进行灰度化处理，将三维图片降为二维。（
大创项目推荐题目：基于python的验证码识别 - 机器视觉验证码识别 laafeer python
文章目录0前言1项目简介2验证码识别步骤2.1灰度处理&二值化2.2去除边框2.3图像降噪2.4字符切割2.5识别3基于tensorflow的验证码识别3.1数据集3.2基于tf的神经网络训练代码4最后0前言优质竞赛项目系列，今天要分享的是基于python的验证码识别该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-sen
7.图像验证码与cookie操作 Suyuoa 爬虫笔记 python
有很多第三方的公司可以解决图像验证码问题，但是人家都需要费用，比如云码验证码识别价格_验证码识别费用多少钱-云码超级鹰超级鹰验证码识别-专业的验证码云端识别服务,让验证码识别更快速、更准确、更强大如果不需要搞定太专业的验证码，我们可以自己搞定一下比如paddleocr的基本使用-CSDN博客我们后面都是通过这个服务来识别验证码验证码可能与很多的因素相关，比如请求验证码的时候发送查询字符串或是与co
让测试人头疼的web自动化之验证码识别彻底解决方案测试小贝自动化安全性测试测试用例测试工具 postman 单元测试 jmeter
验证码识别解决方案对于web应用程序来讲，处于安全性考虑，在登录的时候，都会设置验证码，验证码的类型种类繁多，有图片中辨别数字字母的，有点击图片中指定的文字的，也有算术计算结果的，再复杂一点就是滑动验证的。诸如此类的验证码，对我们的系统增加了安全性的保障，但是对于我们测试人员来讲，在自动化测试的过程中，无疑是一个棘手的问题。1、web自动化验证码解决方案一般在我们测试过程中，登录遇到上述的验证码的
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

验证码识别

第一部分 生成验证码图片

1、导入包

2、数字、大小写字母

3、随机生成验证码文本

4、生成字符对应的验证码

5、数量少于10000，因为重名

第二部分 生成tfrecord文件

1、导入包

2、初始化

3、判断tfrecord文件是否存在

4、获取所有验证码图片

5、将数据写入tfrecords文件

6、把数据转为TFRecord格式

7、创建会话

8、判断tfrecord文件是否存在

9、把数据切分为训练集和测试集,并打乱

10、数据转换

第三部分 训练生成模型

1、导入包

2、初始化

3、tfrecord文件存放路径

4、初始化

5、从tfrecord读出数据

6、图片预处理

7、获取图片数据和标签

8、定义网络结构

9、创建会话

第四部分 测试

1、导入模块

2、初始化

3、从tfrecord读出数据

4、获取图片数据和标签

5、使用shuffle_batch可以随机打乱

6、定义网络结构

7、创建会话

你可能感兴趣的:(验证码识别)

第一部分生成验证码图片

第二部分生成tfrecord文件

第三部分训练生成模型

第四部分测试