qiufengzouma

TensorFlow识别验证码

环境：win10，anaconda3，gpu:Geforce 920M

生成验证码

# -*- coding: utf-8 -*-
"""
Created on Wed Apr 10 10:25:12 2019

@author: ASUS
"""

from PIL import Image,ImageDraw,ImageFont
import random
import numpy as np
from scipy import ndimage

def randcolor():
    colorArr=['0', '1', '2', '3', '4', '5', '6', '7', '8', '9','A', 'B', 'C', 'D', 'E', 'F']
    color=""
    for i in range(6):
        color+=colorArr[random.randint(0,14)]
    return "#"+color
    
character=['0', '1', '2', '3', '4', '5', '6', '7', '8', '9','a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u',
            'v', 'w', 'x', 'y', 'z','A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U',
            'V', 'W', 'X', 'Y', 'Z']

size=(120,30)#图片尺寸
image_type="jpg"#图片保存的格式
mode="RGB"#图片模式
font_size=36#验证码字体大小
bg_color=(255,255,255)#背景颜色
character_font_color=(0,255,255)#字符颜色
font_file = "C:\\Windows\\Fonts\\Inkfree.ttf"#字体文件
#font_type = ImageFont.truetype(font_path, font_size)#字体类型
length=4#字符个数
line_num=3#线条个数
point_num=random.randint(5,100)#干扰点个数
arc_num=random.randint(0,3)#圆弧个数

num=1000000#验证码图片个数
for j in range(num):
    str=""
    for i in range(length):
        str=str+character[random.randint(0,len(character)-1)]

    img=Image.new(mode=mode,size=size,color=bg_color)
    draw=ImageDraw.Draw(img,mode=mode)
    #print(draw.getfont());
    font_color=(random.randint(0,255),random.randint(0,255),random.randint(0,255))
    font=ImageFont.truetype(font_file,font_size)
    width,height=font.getsize(str)
    draw.text(((size[0]-width)/2,(size[1]-height)/2),str,character_font_color,font)#PIL.ImageDraw.ImageDraw.text(xy, text, fill=None, font=None, 
                                                                            #anchor=None, spacing=0, align="left", direction=None, features=None, language=None)
                                                                            
    for i in range(point_num):
        x1=random.randint(0,size[0])
        y1=random.randint(0,size[1])
        draw.point([x1,y1],fill=randcolor())
                                                                                
                                                                                
    for i in range(line_num):
        x1=random.randint(0,size[0]*3/5)
        x1=random.randint(0,size[1]*3/5)
        x2=random.randint(x1,size[0])
        y2=random.randint(y1,size[1])
        start=random.uniform(0,90)
        end=random.uniform(start,start*2)
        draw.line([x1,y1,x2,y2],fill=randcolor(),width=random.randint(0,3))
                                                                                    
                                                                                    
    for i in range(arc_num):
        x1=random.randint(0,size[0]*3/5)
        y1=random.randint(0,size[1]*3/5)
        x2=random.randint(x1,size[0])
        y2=random.randint(y1,size[1])
        start=random.uniform(0,90)
        end=random.uniform(start,start*2)
        draw.arc([(x1,y1),(x2,y2)],start,end,randcolor())
    
    img.save("C:\\Users\\ASUS\\Documents\\Code\\python\\scrapy\\captcha\\"+str.lower()+".jpg")
    print(str)

TensorFlow训练

# -*- coding: utf-8 -*-
"""
Created on Wed Apr 10 23:29:35 2019

@author: ASUS
"""

import tensorflow as tf
import numpy as np
from PIL import Image
import os
import random
import time
import sys
import cv2

os.environ['CUDA_VISIBLE_DEVICES']='0' 

character_set=['0', '1', '2', '3', '4', '5', '6', '7', '8', '9','a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u',
            'v', 'w', 'x', 'y', 'z']

captcha_width=120
captcha_height=30
character_num=4
character_type_num=36
captcha_image_num=10000

captcha_image_train_percent=0.6
captcha_image_test_percent=0.4

captcha_image_path="C:\\Users\\ASUS\\Documents\\Code\\python\\scrapy\\captcha\\"
MODEL_SAVE_PATH="C:\\Users\\ASUS\\Documents\\Code\\python\\scrapy\\captcha_recognition_model\\"
captcha_test_path="C:\\Users\\ASUS\\Documents\\Code\\python\\scrapy\\Test\\"
filelist=os.listdir(captcha_image_path)
L=len(filelist)

batch_size=128
train_steps=[0]

Filep =open("predict.txt","w+")
Filet =open("train.txt","w+")


def weightInit(shape,name):
    init=tf.truncated_normal(shape,stddev=0.1)
    return tf.Variable(initial_value=init,name=name)

def biasInit(shape,name):
    init=tf.constant(0.1,shape=shape)
    return tf.Variable(init,name)
 
    
def get_next_batch_data_and_label(batchsize,step,filelist,path=captcha_image_path):
    #filenames=os.listdir(path)
    
    batch_data=np.zeros([batchsize,captcha_width*captcha_height])
    batch_label=np.zeros([batchsize,character_type_num*character_num])
    index=step[0]*batchsize
    if (index+batchsize)>=L:
        random.shuffle(filelist)
        step[0]=0
        index=step[0]*batchsize
    #print("step=%d index=%d"%(step,index))
    
    i=0
    for file in filelist[index:index+batchsize]:
        filename=os.path.join(path,file)
        img=Image.open(filename)
        img=img.convert("L")
        #img=cv2.threshold(Img,127,255,cv2.THRESH_BINARY_INV)
        
        img_arr=np.array(img)
        
        img_data=img_arr.flatten()/255
        batch_data[i,:]=img_data
        #print("data")
        #print(batch_data[i,:])
        str=file.split('.')[0]
        for j in range(character_num):
            #print(str[j])
            index1=j*character_type_num
            if ord(str[j])<=ord('9'):
                batch_label[i][index1+ord(str[j])-ord('0')]=1
                #print(ord(str[j])-ord('0'))
                #print(batch_label[i][index1+ord(str[j])-ord('0')])
            elif ord(str[j])<=ord('Z'):
                batch_label[i][index1+ord(str[j])-ord('A')+10]=1
                #print(ord(str[j])-ord('A'))
                #print(batch_label[i][index1+ord(str[j])-ord('A')])
            else: 
                batch_label[i][index1+ord(str[j])-ord('a')+10]=1
                #print(ord(str[j])-ord('a'))
                #print(batch_label[i][index1+ord(str[j])-ord('a')])
          
        #print("i=%d"%i)
        #print(batch_label[i])
        i=i+1  
        
    return batch_data,batch_label
    
    
def buildNet():
    batch_size=128
    X=tf.placeholder(tf.float32,[None,captcha_width*captcha_height],name="data_input")
    Y=tf.placeholder(tf.float32,[None,character_type_num*character_num],name="label_input")
    x_input=tf.reshape(X,[-1,captcha_height,captcha_width,1],name="x_input")
    keep_prob=tf.placeholder(tf.float32,name='keep_prob')
    
    #shape=(1,captcha_width*captcha_height)
    W_conv1=weightInit([3,3,1,32],"W_conv11")
    bias_conv1=biasInit([32],"bias_conv1")
    conv1=tf.nn.relu(tf.nn.conv2d(x_input,W_conv1,strides=[1,1,1,1],padding='SAME',name="conv1")+bias_conv1)
    conv1=tf.nn.max_pool(conv1,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME',name="conv1_pool")
    #conv1=tf.nn.dropout(conv1,keep_prob)
    
    W_conv2=weightInit([3,3,32,64],"W_conv2")
    bias_conv2=biasInit([64],"bias_conv2")
    conv2=tf.nn.relu(tf.nn.conv2d(conv1,W_conv2,strides=[1,1,1,1],padding='SAME',name="conv2")+bias_conv2)
    conv2=tf.nn.max_pool(conv2,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME',name="conv2_pool")
    #conv2=tf.nn.dropout(conv2,keep_prob)
    
    W_conv3=weightInit([3,3,64,64],"W_conv3")
    bias_conv3=biasInit([64],"bias_conv3")
    conv3=tf.nn.relu(tf.nn.conv2d(conv2,W_conv3,strides=[1,1,1,1],padding='SAME',name="conv3")+bias_conv3)
    conv3=tf.nn.max_pool(conv3,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME',name="conv3_pool")
    #conv3=tf.nn.dropout(conv3,keep_prob)
    
    
    """
    W_conv4=weightInit([3,3,64,64])
    bias_conv4=biasInit([64])
    conv4=tf.nn.relu(tf.nn.conv2d(conv3,W_conv4,strides=[1,1,1,1],padding='SAME')+bias_conv4)
    conv4=tf.nn.max_pool(conv4,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')
    conv4=tf.nn.dropout(conv4,keep_prob)
    """
    
    
    W_fc1=weightInit([15*4*64,1024],"W_fc1")
    B_fc1=biasInit([1024],"B_fc1")
    fc1=tf.reshape(conv3,[-1,15*4*64])
    fc1=tf.nn.relu(tf.math.add(tf.matmul(fc1,W_fc1),B_fc1))
    fc1=tf.nn.dropout(fc1,keep_prob)
    
    """
    W_fc2=weightInit([1024,1024])
    B_fc2=biasInit([1024])
    fc1=tf.reshape(conv3,[-1,1024])
    fc2=tf.nn.relu(tf.math.add(tf.matmul(fc1,W_fc2),B_fc2))
    fc2=tf.nn.dropout(fc2,keep_prob)
    """
    
    W_fc2=weightInit([1024,character_num*character_type_num],"W_fc2")
    B_fc2=biasInit([character_num*character_type_num],"B_fc2")
    output=tf.math.add(tf.matmul(fc1,W_fc2),B_fc2,name="output")
    with tf.name_scope('Loss'):
        loss=tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=output,labels=Y),name="loss")
        tf.summary.scalar("loss", loss)
    """
    LEARNING_RATE_BASE = 0.001  # 最初学习率
    LEARNING_RATE_DECAY = 0.98  # 学习率的衰减率
    LEARNING_RATE_STEP = 1  # 喂入多少轮BATCH-SIZE以后，更新一次学习率。一般为总样本数量/BATCH_SIZE
    gloabl_steps = tf.Variable(0, trainable=False)  # 计数器，用来记录运行了几轮的BATCH_SIZE，初始为0，设置为不可训练
    learning_rate = tf.train.exponential_decay(LEARNING_RATE_BASE
                                           , gloabl_steps,
                                           LEARNING_RATE_STEP,
                                           LEARNING_RATE_DECAY,
                                           staircase=True)
    """
    optimizer=tf.train.AdamOptimizer(0.001).minimize(loss)
    
    predict=tf.reshape(output,[-1,character_num,character_type_num],name='predict')
    labels=tf.reshape(Y,[-1,character_num,character_type_num],name='lables')
    
    predict_max_index=tf.argmax(predict,axis=2,name='predict_max_index')#在character_type_num维度取最大值，即最有可能的字符
    #label=tf.placeholder(tf.float32,[-1])
    labels_max_index=tf.argmax(labels,axis=2,name='labels_max_index')#在character_type_num维度取最大值1，即其代表的字符下标
    
    
    predict_correct_vec=tf.equal(predict_max_index,labels_max_index,name="predict_correct_vec")
    with tf.name_scope('accuracy'):
        accuracy=tf.reduce_mean(tf.cast(predict_correct_vec,tf.float32),name="accuracy")
        tf.summary.scalar('accuracy',accuracy)
    print("sess begin ")
    merged = tf.summary.merge_all()
    saver=tf.train.Saver()
    #config=tf.ConfigProto(allow_soft_placement=True)
    #gpu_options=tf.GPUOptions(per_process_gpu_memory_fraction=0.7)
    #config.gpu_options.allow_growth=True
    with tf.Session() as sess:
        #loss_summary = tf.summary.scalar('loss',loss)
        #acc_summary = tf.summary.scalar('accuracy',accuracy)
        writer=tf.summary.FileWriter("./captcha_log",sess.graph)
        
        sess.run(tf.global_variables_initializer())
        """
        accuracy_summary = tf.scalar_summary("accuracy", accuracy)
        loss_summary = tf.scalar_summary("loss", loss)
        merged = tf.merge_all_summaries()
        tf.summary.scalar('W_conv1', W_conv1)
        """
        steps=0
        step_=[0]
        for epoch in range(60000):#(int)(l/batch_size)):
            train_data,train_label=get_next_batch_data_and_label(batch_size,step_,filelist)
            step_[0]=step_[0]+1
            sess.run(optimizer,feed_dict={X:train_data,Y:train_label,keep_prob:0.75})
            if steps%100==0:
                test_data,test_label=get_next_batch_data_and_label(batch_size,step_,filelist)
                summary,acc,loss_=sess.run([merged,accuracy,loss],feed_dict={X:test_data,Y:test_label,keep_prob:1.0})
                #writer.add_summary(merged,epoch)
                #writer.add_summary(loss_,epoch)
                writer.add_summary(summary,steps)
                #tf.summary.histogram('steps', steps)
                File =open("record.txt","w+")
                s="steps=\t"+str(steps)+"\t,accuracy=\t"+str(acc)+"\tloss="+str(loss_)+"\t\n"
                File.write(s)
                print("steps=%d,accuracy=%f"%(steps,acc))
                if acc>0.99:
                    saver.save(sess,MODEL_SAVE_PATH+"captcha_recognition.model",global_step=steps)
                    train_steps[0]=steps
                    break
            steps=steps+1
        writer.close()          

def vec2label(predict_vec):
    str=""
    for i in range(4):
        str=str+character_set[predict_vec[i]]
    return str

def test(path=captcha_test_path):
    num=0
    test_list=os.listdir(captcha_test_path)
    random.shuffle(test_list)
    #end_steps=len(test_list)
    Saver_=tf.train.import_meta_graph(MODEL_SAVE_PATH+'captcha_recognition.model-'+str(train_steps[0])+'.meta')
    with tf.Session() as sess:
        Saver_.restore(sess,tf.train.latest_checkpoint(MODEL_SAVE_PATH))
        graph=tf.get_default_graph()
        input_data=graph.get_tensor_by_name("data_input:0")
        keep_prob=graph.get_tensor_by_name("keep_prob:0")
        predict_max_index=graph.get_tensor_by_name("predict_max_index:0")
        #feed_dict={"X:0":img_data,"Y:0":}
        for file in test_list:
            filename=os.path.join(captcha_test_path,file)
            img=Image.open(filename)
            print(file)
            img=img.convert("L")
            img_arr=np.array(img)
            img_data=img_arr.flatten()/255
            predict_vec = sess.run(predict_max_index, feed_dict={input_data:[img_data], keep_prob : 1.0})
            predict_val=np.squeeze(predict_vec)
            print(predict_val)
            predict_ans=vec2label(predict_val)
            right_ans=file.split('.')[0]
            if right_ans==predict_ans:
                num=num+1
                print("正确答案：%s 预测答案：%s  预测正确"%(right_ans,predict_ans))
                s="正确答案：\t"+right_ans+" \t预测答案:\t"+predict_ans+"\t预测正确\n"
                Filep.write(s)
            else: 
                print("正确答案：%s 预测答案：%s  预测错误"%(right_ans,predict_ans))
                s="正确答案：\t"+right_ans+" \t预测答案:\t"+predict_ans+"\t预测错误\n"
                Filep.write(s)
    s="正确预测数目:"+str(num)+" 验证码数目:"+str(len(test_list))+" 正确率:"+str(num/len(test_list))+"预测正确\n"
    Filep.write(s)
    print("正确预测数目:%d 验证码数目:%d 正确率:%f"%(num,len(test_list),num/len(test_list)))
        
if __name__=='__main__':
    
    train_num=int(captcha_image_num*captcha_image_train_percent)
    test_list=[]
    train_list=filelist[:train_num]
    test_list=filelist[train_num:]
    random.seed(time.time())
    random.shuffle(filelist)
    print("filelist len:")
    l=len(filelist)
    print(l)
    train_start=time.clock()
    
    buildNet()
    
    train_end=time.clock()
    s="train over after take "+str(train_steps)+" steps     cost "+str(train_end-train_start)+" s\n"
    Filet.write(s)
    Filet.close()
    print("train over after take %d steps cost %s s"%(train_steps,(train_end-train_start)))
    test_start=time.clock()
    
    #test(captcha_test_path)
    
    test_end=time.clock()
    s="Test over cost :"+str(test_end-test_start)+"s\n"
    Filep.write(s)
    Filep.close()
    print("Test over cost :%s s"%(test_end-test_start))

训练结果：

测试准确率在93%到95%之间

大约耗时2个小时训练

遇到的问题：

1.最开始在每一个卷积层后加dropout层防止过拟合，但最后一直训练正确率一直很低，在0.01到0.05范围内浮动，后来把dropout层去掉后正确率就上去了，可能是拟合能力不够

2.第一次成功后，调整了一些参数，我把之前训练好的模型删除后打算重新训练，但再次进行训练时在saver=tf.train.Saver()处报错，At least two variables have the same name: Variable，后来把每一个变量均命名后还是报错，发现是因为删除了模型导致的，重启IDE再次运行即可

3.用tensorboard进行可视化时， Fetch argument None has invalid type ，tf.summary.merge_all()要写在tf.summary.scalar()或是tf.summary.histogram()等方法之后，在tf.Session()之前，不然可能会报Fetch argument None has invalid type的错。

4.再次测试报错：InvalidArgumentError (see above for traceback): You must feed a value for placeholder tensor 'keep_prob_10' with dtype float，查找原因是在原文件夹下有之前运行错误的日志文件，干扰到这次的运行，彻底删除后重启即解决

10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
并查集：从连通性检测到动态合并的算法艺术六七_Shmily 数据结构与算法分析算法
并查集：从连通性检测到动态合并的算法艺术（C++实现）一、并查集：算法世界的隐形支柱在算法竞赛和工程实践中，并查集（DisjointSetUnion，DSU）是解决动态连通性问题的终极武器。它能在近乎常数时间内完成集合的合并与查询操作，广泛应用于社交网络、图像处理、编译器优化等领域。本文将深入剖析并查集的核心原理，并通过实战案例揭示其精妙之处。二、并查集的三重核心1.数据结构设计classDSU{
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
实测 Gemini 2.0 Flash 图像生成：多模态 AI 的创作力边界 python
近日，Google发布了Gemini2.0Flash的实验性图像生成功能（Gemini2.0Flash(ImageGeneration)Experimental）。我也第一时间体验了这一功能，再次感受到AI技术对传统图像处理工具的颠覆性冲击。本文从主要功能、安装方法、应用场景，并通过实际测试展示其能力，希望帮助大家更好地了解和使用这一工具。引言Gemini2.0Flash的实验性图像生成功能于20
gralloc usage flags Damon_X gralloc
下面这些示例主要说明了grallocusageflags在图像处理和多媒体应用中如何影响性能和正确性。让我们逐个详细分析每个问题的根因和修复方案，并深入解析gralloc标志对缓存管理和数据流的影响。✅Example1:长曝光快照耗时异常问题描述症状：长曝光快照（longexposuresnapshot）在某些内存优化后，拍摄时间异常变长。根因：第三方算法在多个快照帧上执行，耗时约1.2秒。Buf
【OpenGL】实现三维空间漫游和立方体、球体贴图 a9c93f2300 圖形學 3d
图像处理引用文件stb_image.h访问镜像下载：https://gitee.com/mirrors/stb-image主函数main.cpp#include#include#defineSTB_IMAGE_IMPLEMENTATION#include#include#include#include#include#include#includeconstGLfloatPI=3.14159265
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
Adobe Lightroom Classic（简称LRC）图像编辑和管理软件下载安装与使用 xczrFDG adobe
AdobeLightroomClassic（LRC）软件简介AdobeLightroomClassic（简称LRC）是一款强大的图像编辑和管理软件，专为摄影师和图像处理爱好者设计。LRC不仅提供了一系列的编辑工具，还集成了强大的照片管理和组织功能，使用户能够高效地处理和发布摄影作品。该软件是AdobeCreativeCloud的一部分，适用于各类用户，无论是业余爱好者还是专业摄影师。安装包http
使用 TensorFlow 进行图像处理：深度解析卷积神经网络（CNN）一碗黄焖鸡三碗米饭人工智能前沿与实践 tensorflow 图像处理 cnn 人工智能机器学习 python ai
目录使用TensorFlow进行图像处理：深度解析卷积神经网络（CNN）1.什么是卷积神经网络（CNN）？CNN的基本结构为什么CNN适合图像处理？2.使用TensorFlow构建CNN2.1环境准备2.2加载并预处理MNIST数据集2.3构建CNN模型2.4编译和训练模型2.5评估模型3.CNN的优化与改进3.1使用数据增强3.2调整网络结构4.CNN在其他图像处理任务中的应用5.总结参考文献在
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
机器视觉中图像的腐蚀和膨胀是什么意思？它能用来做什么？ yuanpan 机器学习人工智能计算机视觉图像处理
腐蚀（Erosion）和膨胀（Dilation）是两种基本的形态学操作，通常用于二值图像（黑白图像）的处理。它们是形态学图像处理的基础，广泛应用于图像分割、边缘检测、噪声去除等任务。1.腐蚀（Erosion）腐蚀操作通过对图像中的前景区域（通常为白色像素）进行“收缩”来去除边界上的像素。具体来说，腐蚀操作使用一个结构元素（通常是一个小的矩阵或核）在图像上滑动，只有当结构元素完全覆盖前景区域时，中心
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
解决 Python 中 `cv2` 模块部分初始化导致的 `AttributeError` Leuanghing python 开发语言
解决Python中cv2模块部分初始化导致的AttributeError在Python开发中，尤其是使用OpenCV库进行图像处理时，可能会遇到一些令人困惑的错误。今天，我们就来探讨一个常见的错误：AttributeError:partiallyinitializedmodule'cv2'hasnoattribute'gapi_wip_gst_GStreamerPipeline'，并提供一个有效的
Camera常用算法介绍1 记录美好 android相机学习算法经验分享智能手机
Camera常用数据格式及算法介绍1二、Camera常用算法介绍2.1基础图像处理算法2.1.1HDR算法2.1.1.1HDR算法概述2.1.1.2发展历程2.1.1.2.1传统多帧合成阶段（2010年代初期）2.1.1.2.2.算法优化阶段（2016-2020年）2.1.1.2.3实时处理阶段（2020年至今）2.1.1.3技术原理2.1.1.3.1多帧采集2.1.1.3.2图像合成2.1.1.
【图像处理基石】什么是HDR图片？ AndrewHZ AI算法工程师面试指北图像处理基石图像处理算法计算机视觉 HDR 高动态范围包围曝光 opencv
1.什么是HDR图片？HDR（高动态范围图像，HighDynamicRange）是一种通过技术手段扩展照片明暗细节的成像方式。以下是关于HDR的详细说明：核心原理动态范围：指图像中最亮和最暗区域之间的亮度差。人眼能感知的动态范围远高于普通相机，HDR通过合成多张不同曝光的照片（如欠曝、正常、过曝），平衡高光和阴影细节。HDR的优势保留细节：避免强光下过曝（如天空发白）或阴影中欠曝（如暗部死黑）。增
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
深度学习五大模型：CNN、Transformer、BERT、RNN、GAN详细解析深度学习
卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分类或回归计算。CNN利用卷积操作实现局部连接和权重共享，能够自动学习数据中的空间特征。适用场景：广泛应用于图像处理相关的
图像处理之白平衡（附源码） FPGA工程狮-阿水 Python图像处理图像处理人工智能 python isp
图像处理之白平衡（附源码）概要白平衡（WhiteBalance）是图像处理和摄影中的一种技术，旨在消除由于光源色温差异导致的颜色偏差，使得图像中的白色和其他颜色呈现出自然、真实的效果。基本概念白平衡是调整图像中各个颜色通道（红色、绿色和蓝色）的亮度和色彩平衡，以消除由不同光源（如日光、白炽灯、荧光灯等）产生的色偏。其目的是让图像看起来像是在中性白光下拍摄的，从而确保图像中的白色看起来确实是白色，其
征程 6 VP简介与单算子实操自动驾驶算法
1.如何理解VPVP，全称VisionProcess，指UCP中的视觉处理功能模块。Backends，指UCP框架中的可分配处理单元。VP模块主要用于模型的前后处理环节，在地平线统一架构中，多种硬件均已搭载了图像处理的算子，而VP模块将图像处理相关的硬件调用进行了封装，通过设置backend来选择不同的硬件方案（若不指定backend，UCP会自动适配负载更低的处理单元），从而平衡开发板负载。VP
OpenCV-Python实战（1）——OpenCV简介与图像处理基础数字化转型2025 AI人工智能方向 opencv python 图像处理
OpenCV介绍Python安装OpenCV：对于Linux和Windows操作系统，首先需要在shell或cmd中运行以下命令安装NumPy：pipinstallnumpy。然后再安装OpenCV，可以选择仅安装主模块包：pipinstallopencv-python，或者安装完整包（包括主模块和附加模块）：pipinstallopencv-contrib-python。OpenCV主要模块：O
美颜特效类sdk在智能硬件中的场景应用是怎样的？ Face Beauty美颜SDK 实时音视频美颜sdk 视频特效美颜智能硬件实时互动实时音视频
前言：FaceBeauty美颜特效SDK是由前相芯科技员工组建创办的新晋美颜厂商品牌，致力于为用户提供更真实自然的美颜效果，以极致性价比，降低高性能美颜的使用门槛。基于人脸识别和图像渲染技术，为客户提供美颜贴纸、美妆、美体、美发、哈哈镜、手势识别等人像人体特效功能，广泛应用于视频直播、一对一社交、短视频、美颜相机、智能硬件等场景。美颜特效类SDK在智能硬件中的应用场景日益广泛，结合实时图像处理、A
【工作记录】python使用总结星光不负赶路人！ python
1.os库2.xlwt库3.xlrd库4.BeautifulSoup库5.panda库6.json库7.re正则8.ddddocr登录网站的时候，经常输入用户名和密码后会遇到验证码，ddddocr是一款强大的通用开源ocr识别库，具有高效、准确、易用的特点，广泛应用于图像处理和文字识别任务。importddddocrtry:login_page.wait_for_timeout(2000)#等待2
SciPy 安装指南 froginwe11 开发语言
SciPy安装指南引言SciPy是一个开源的Python科学计算库，它基于NumPy库，提供了大量的科学和工程计算功能。SciPy包含了用于优化、线性代数、积分、插值、信号和图像处理、特殊函数、统计分析、离散傅里叶变换等功能的模块。本文将详细介绍如何在您的系统上安装SciPy。安装前的准备在开始安装SciPy之前，请确保您的系统满足以下条件：您已安装Python，且版本在3.5或更高。您已安装pi
【新生必会】30个较难Python脚本，建议收藏。 .Boss. 信息可视化 python 人工智能算法开发语言机器学习
本篇较难，建议优先学习上篇；20个硬核Python脚本-CSDN博客接上篇文章，对于Pyhon的学习，上篇学习的结束相信大家对于Pyhon有了一定的理解和经验，学习完上篇文章之后再研究研究剩下的30个脚本你将会有所成就！加油！目录21、数据库连接-SQLite22、图像处理-Pillow23、图形界面-Tkinter24、文本生成-Faker25、加密和解密-cryptography26、Sock
图像分割基础：使用Python和scikit-image库 0dayNu1L 机器学习项目实战 python 人工智能机器学习
大家好，今天我们将一起探讨图像分割的基础知识，并使用Python编程语言以及scikit-image库来实现一个简单的图像分割示例。图像分割是图像处理中的一项重要技术，它允许我们将图像划分为多个部分或对象，这对于图像分析和计算机视觉任务至关重要。0dayNu1L-CSDN博客目录一、环境准备二、图像分割示例1.导入必要的库2.读取并显示图像3.创建标签数组并进行阈值分割4.使用颜色表示标签三、结果
Python库 - skimage 司南锤 PYTHON库 python 开发语言
skimage是scikit-image的缩写，是一个用于图像处理的Python库。提供了丰富的图像处理功能，包括图像滤波、边缘检测、形态学操作、特征提取、图像分割等。skimage是基于NumPy数组构建的，因此可以与NumPy和其他科学计算库（如scipy和matplotlib）无缝集成。安装可以使用pip来安装skimage：pipinstallscikit-image主要模块skimage
scikit-image（Scikit-image 是用于图像处理的 Python 包，使用原生的 NumPy 数组作为图像对象） Clark-dj 图像处理 python numpy
Scikitimage中文开发手册-开发者手册-腾讯云开发者社区-腾讯云昨天搜索一个函数时无意间发现这个网站，今天来学习一下，仅作学习笔记。measureskimage.measure.approximate_polygon（coords，...）近似具有指定公差的多边形链。skimage.measure.block_reduce（image，block_size）通过对局部块应用函数来下采样图像
利用 OpenCV 库进行实时目标物体检测欣然～ opencv 人工智能计算机视觉
一、代码概述此代码利用OpenCV库实现了基于特征匹配的实时物体检测系统。通过摄像头捕获实时视频帧，将其与预先加载的参考图像进行特征匹配，从而识别出视频帧中是否存在与参考图像匹配的物体。二、环境依赖OpenCV：用于图像处理、特征提取和匹配等操作。NumPy：用于数值计算，OpenCV依赖于NumPy进行数组操作。可以使用以下命令安装所需库：bashpipinstallopencv-pythonn
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

TensorFlow识别验证码

你可能感兴趣的:(图像处理)