机器人学渣

keras搭建wgan-gp和wgan-div,可生成图像

文章目录

一、前言
二、wgan-Gp原理
三、wgan-Div原理
四、代码结构设计过程
- 4.1.生成tfrecord
- 4.2.设计残差网络结构
- - 搭建resBlock模块
- 4.3 搭建generate网络：
- 4.4.搭建discriminator网络：
- 4.5.定义网络的损失函数：
- - a.首先得到判别网络和生成网络：
  - b.定义训练判别网络gan_train_d：
  - c.定义训练判别网络gan_train_g：
- 4.6.定义训练网络循环体：
- 4.7.其他函数：
- - plot()
五、代码及训练结果
- 5.1.运行代码
- 5.2.使用wgan-Gp生成训练过程（名字表示训练次数）：
- 5.3.使用wgan-div生成训练过程（使用leakyReLU函数）：
六、总结
参考代码和文献：

一、前言

1.最早的DCGAN网络损失函数是采用交叉熵的形式：

但其判别网络的目标函数存在着较大的缺陷。当判别网络能力过强，即能将生成器和真实数据分辨出时，这时候生成图像和真实图像之间没有交叉，两个分布之间的JS散度恒为log2：

此时对于生成网络来说目标函数关于参数的梯度为0，即出现梯度消失，这时候判别器无法指导生成器向固定方向更新，生成器的生成图像几乎一致，判别器的loss值收敛到0.

出现梯度消失大概率是由于判别网络太强，强过生成网络，导致真实数据分布与生成数据分布没有重叠。

同时也可能产生另一种情况，就是模型坍塌（model collapse），表现为生成器生成的图像没有任何显示意义，仅仅只是为了拟合判别器，或者生成单一模式的图像。

2.所以为了解决DCGAN出现的问题，出现了wgan：Wasserstein GANs，wgan取消了log函数，采用新的w距离来描述真实和生成数据：

另外采用截断的方式将网络参数截断到[-0.01, 0.01]，但这种方法使得神经网络变成了二值网络，如图：

这就降低了整个网络的拟合能力，另外在强行截断的时候，很可能会导致出现梯度爆炸或者梯度消失。

于是乎在后来出现了以wgan为基础的多种算法，大部分都是更改损失函数来缓解出现的梯度消失和模型坍塌的问题，例如wgan-gp,wgan-div等等：

tip：图来自知乎作者 ‘桑龙’

下面将介绍gp以及实现的代码：

二、wgan-Gp原理

原论文：Improved Training of Wasserstein GANs
https://arxiv.org/pdf/1704.00028.pdf
目标函数：

其中

算法过程：

这里，我没有像算法中那样，先将判别器训练5次后再训练生成器，因为这样在我的网络中会让判别器太强，所以一开始设置的就是1:1的训练。

三、wgan-Div原理

原论文：Wasserstein Divergence for GANs
https://arxiv.org/pdf/1712.01026.pdf
目标函数：

对于判别器和生成器而言：

其中k=2，p=6

算法过程：

其网络结构使用了resBlock
参考论文：Deep Residual Learning for Image Recognition
https://arxiv.org/pdf/1512.03385.pdf

残差网络结构主要是针对于梯度消失问题而设计，在图像分类问题上表现非常好。
这里只利用了卷积块，当然也可加上恒等块来加深加宽网络。

四、代码结构设计过程

4.1.生成tfrecord

这种格式的数据对内存友好，读取速度快，同时利于转移、保存；

def create_tfrecords():
    if os.path.exists(tfrecords_path):
        return 0
    if(FLAGS.data == None):
        print('the data is none,use: python gan.py --data []')
        os._exit(0)
    writer_train= tf.python_io.TFRecordWriter(tfrecords_path)
    object_path = FLAGS.data
    total = os.listdir(object_path)
    num = len(total)
    num_i = 1
    value = 0
    print('-----------------------------making dataset tfrecord,waiting--------------------------')
    for index in total:
        img_path=os.path.join(object_path,index)
        img=Image.open(img_path)
        img=img.resize((dim,dim))
        img_raw=img.tobytes()
        
        '''
            it is on my datasets, please change these codes! 
        '''
        example = tf.train.Example(features=tf.train.Features(feature={
                'label': tf.train.Feature(int64_list=tf.train.Int64List(value=[value])),
                'img_raw': tf.train.Feature(bytes_list=tf.train.BytesList(value=[img_raw]))
                }))
        writer_train.write(example.SerializeToString())  #序列化为字符串
        sys.stdout.write('--------%.4f%%-----'%(num_i/float(num)*100))
        sys.stdout.write('\r')
        sys.stdout.flush()
        num_i = num_i +1
    print('-------------------------------datasets has completed-----------------------------------')
    global data_num
    data_num = num_i
    writer_train.close()

4.2.设计残差网络结构

参考博客：Keras入门与残差网络的搭建

搭建resBlock模块

在这里我使用的激活函数时LeakyReLU()，经过验证发现LeakyReLU()的效果相比于relu来说要好一点点。

如下图所示：我们在主通道中设计三个卷积、BN层，对shortcut进行卷积和归一化处理，主通道和shortcut都需要进行维度的改变：对于判别网络来说是下采样，对于生成网络是上采样，利用反卷积（Conv2DTranspose）或者UpSampling2D+Conv2D实现：

定义上采样和下采样的函数：

def convolutional2D(x,num_filters,kernel_size,resampling,strides=2):
    if resampling is 'up':
        x = keras.layers.UpSampling2D()(x)
        x = keras.layers.Conv2D(num_filters, kernel_size=kernel_size, strides=1, padding='same',
                       kernel_initializer=keras.initializers.RandomNormal())(x)
        #x = keras.layers.Conv2DTranspose(num_filters,kernel_size=kernel_size, strides=2,  padding='same',
        #              kernel_initializer=keras.initializers.RandomNormal())(x)
    elif resampling is 'down':
        x = keras.layers.Conv2D(num_filters, kernel_size=kernel_size, strides=strides,  padding='same',
                       kernel_initializer=keras.initializers.RandomNormal())(x)
    return x

定义resBlock：

def ResBlock(x, num_filters, resampling,strides=2):
    #F1,F2,F3 = num_filters
    X_shortcut = x
    
    #//up or down
    x = convolutional2D(x,num_filters,kernel_size=(3,3),resampling=resampling,strides=strides)
    
    #//BN_relu
    x = keras.layers.BatchNormalization()(x)
    #x = keras.layers.Activation('relu')(x)
    x = keras.layers.LeakyReLU()(x)

    #//cov2d
    x = keras.layers.Conv2D(num_filters, kernel_size=(3,3), strides=1,padding='same',
                       kernel_initializer=keras.initializers.RandomNormal())(x)
    
    #//BN_relu
    x = keras.layers.BatchNormalization()(x)
    #x = keras.layers.Activation('relu')(x)
    x = keras.layers.LeakyReLU()(x)
    
    #//cov2d
    x = keras.layers.Conv2D(num_filters, kernel_size=(3,3), strides=1,padding='same',
                       kernel_initializer=keras.initializers.RandomNormal())(x)
    #//BN
    x = keras.layers.BatchNormalization()(x)
    
    #//add_shortcut
    X_shortcut = convolutional2D(X_shortcut,num_filters,kernel_size=(1,1),resampling=resampling,strides=strides)
    X_shortcut = keras.layers.BatchNormalization()(X_shortcut)
    
    X_add = keras.layers.Add()([x,X_shortcut])
    #X_add = keras.layers.Activation('relu')(X_add)
    X_add = keras.layers.LeakyReLU()(X_add)
    
    return X_add

可以注意到的是，在主通道中的卷积核用了3×3尺寸的，而非源论文中1×1：

这样做是因为如果使用1×1的卷积核，在只使用4个ResBlock时的判别器和生成器的参数量仅仅一百多万个，这个数量级是很难让判别器具有很好的拟合能力的，当使用3×3卷积核时，参数量可以提高到一千多万。当然也可以使用IdentifyBlock来加深加宽网络。

原论文wgan-div的结构：

4.3 搭建generate网络：

def generate(resampling='up'):
    nosie = keras.layers.Input(shape=(noise_dim,))
    g = keras.layers.Dense(512*4*4)(nosie)
    g = keras.layers.Reshape((4,4,512))(g)
    #//BN_relu
    g = keras.layers.BatchNormalization()(g)
    #g = keras.layers.Activation('relu')(g)
    g = keras.layers.LeakyReLU()(g)
    
    #4*4*512
    g = ResBlock(g,num_filters=512,resampling=resampling)

    #8*8*512
    g = ResBlock(g,num_filters=256,resampling=resampling)

    #16*16*256
    g = ResBlock(g,num_filters=128,resampling=resampling)

    #32*32*128
    g = ResBlock(g,num_filters=64,resampling=resampling)

    #64*64*64
    
    g = keras.layers.Conv2D(3, kernel_size=(3,3), strides=1, padding='same',
                       kernel_initializer=keras.initializers.RandomNormal())(g)
    #64*64*3
    g_out = keras.layers.Activation('tanh')(g)
    g_model = keras.Model(nosie,g_out)
    return g_model

4.4.搭建discriminator网络：

def discriminator(resampling='down'):
    real_in = keras.layers.Input(shape=(dim, dim, 3))

    d = keras.layers.Conv2D(64, kernel_size=(3,3), padding='same',strides=1,
                      kernel_initializer=keras.initializers.RandomNormal())(real_in)
    #//BN_relu
    d = keras.layers.BatchNormalization()(d)
    #d = keras.layers.Activation('relu')(d)
    d = keras.layers.LeakyReLU()(d)

    #64*64*64
    d = ResBlock(d,num_filters=128,resampling=resampling)  
    
    #32*32*128
    d = ResBlock(d,num_filters=256,resampling=resampling)

    #16*16*256
    d = ResBlock(d,num_filters=512,resampling=resampling)

    #8*8*512
    d = ResBlock(d,num_filters=512,resampling=resampling)
    
    #4*4*512
    '''
        GlobalAveragePooling :it can replace the full connection layer
        you can use the Dense to test the network
    '''
    d = keras.layers.GlobalAveragePooling2D()(d)
    d_out = keras.layers.Dense(1,use_bias = False)(d)
    d_model = keras.Model(real_in,d_out)
    return d_model

4.5.定义网络的损失函数：

a.首先得到判别网络和生成网络：

    #------------------------------
    #define the generate model    *
    #------------------------------
    generate_model = generate()
    
    #--------------------------------
    #define the discriminator model *
    #--------------------------------
    discriminator_model = discriminator()

b.定义训练判别网络gan_train_d：

方法：
1.定义三个输入（Input）：

真实图像数据
生成数据需要的噪音
混合真假数据需要的分布数

2.设置生成模型不可训练：
generate_model.trainable = False

3.利用Input得到：

D_fake_img
D_fake_score
D_real_score

4.混合真实和生成数据：

x_ = (1.-u)Dx_real_img+uD_fake_img

5.根据论文算法设计损失函数：

wgan-div:

wgan-gp:

看到这里可能有个疑惑，感觉两篇论文的损失函数更新方向是反的。实际上，无论是哪种方法，wgan-div还是wgan-gp，对于判别器和生成器来说，必须要是对抗更新的，生成器要向着生成数据和真实数据之间的distance为0的方向更新，判别器向着distance变大的方向更新，即区分两个数据堆。

#//
    #-------------------------------------------------------------------
    #                            train the Discriminator               |
    #-------------------------------------------------------------------
    #//
    '''
        you need to redefined the Input rather than use the Input previous
    '''
    #Input para
    Dx_real_img = keras.layers.Input(shape=(dim, dim, 3))
    Dz_noise = keras.layers.Input(shape=(noise_dim,))
    D_uniform = keras.layers.Input(shape=(1,1,1))
    
    #set the trainable 
    generate_model.trainable = False
    
    #get the score
    D_fake_img = generate_model(Dz_noise)
    D_fake_score = discriminator_model(D_fake_img)
    D_real_score = discriminator_model(Dx_real_img)
    
    #train net
    gan_train_d = keras.Model([Dx_real_img, Dz_noise, D_uniform],[D_real_score,D_fake_score])
    
    #set the loss function according to the algorithm
    k = 2
    p = 6
    u = D_uniform
    
    #then, get a new input consist from fake and real
    x_ = (1.-u)*Dx_real_img+u*D_fake_img
    
    #//
    #-------------------------------------------------------------------
    #                            wgan div loss function                |
    #                          arxiv.org/pdf/1712.01026.pdf            |
    #-------------------------------------------------------------------
    #//
    if FLAGS.type == 'div':
        gradients = K.gradients(discriminator_model(x_), [x_])[0]
        grad_norm = K.sqrt(K.sum(gradients ** 2, axis=[1, 2, 3])) ** p
        grad_penalty = k * K.mean(grad_norm)
        discriminator_loss = K.mean(D_real_score - D_fake_score)
    
    
    #//
    #-------------------------------------------------------------------
    #                            wgan gp  loss function                |
    #                          arxiv.org/pdf/1704.00028.pdf            |
    #-------------------------------------------------------------------
    #//
    if FLAGS.type == 'gp':
        gradients = K.gradients(discriminator_model(x_), [x_])[0]
        grad_norm = K.sqrt(K.sum(gradients ** 2, axis=[1, 2, 3]))
        grad_norm = K.square(1-grad_norm)
        grad_penalty =  10*K.mean(grad_norm)
        discriminator_loss = K.mean(D_fake_score-D_real_score)
    
    
    #loss function
    discriminator_loss_all = grad_penalty+ discriminator_loss 
    
    #compile the model
    gan_train_d.add_loss(discriminator_loss_all) #min
    gan_train_d.compile(optimizer=keras.optimizers.Adam(learning_rate, 0.5))
    gan_train_d.metrics_names.append('DistanceFromRealAndFake')
    gan_train_d.metrics_tensors.append(-discriminator_loss) #max

c.定义训练判别网络gan_train_g：

方法：
1.定义一个输入（Input）：

生成数据需要的噪音

2.设置生成模型不可训练：
discriminator_model.trainable = False
generate_model.trainable = True

3.利用Input得到：

G_fake_img
G_fake_score

4.损失函数：
if FLAGS.type == ‘div’:
generate_loss = K.mean(G_fake_score)
if FLAGS.type == ‘gp’:
generate_loss = -K.mean(G_fake_score)#min this value

    #//
    #-------------------------------------------------------------------
    #                            train the Generator                   |
    #-------------------------------------------------------------------
    #//
    #Input para
    Gz_nosie = keras.layers.Input(shape=(noise_dim,))
    
    #set the trainable 
    discriminator_model.trainable = False
    generate_model.trainable = True
    
    #get the score
    G_fake_img = generate_model(Gz_nosie)
    G_fake_score = discriminator_model(G_fake_img)
    
    #train net
    gan_train_g = keras.Model(Gz_nosie,G_fake_score)
    
    #loss function

    if FLAGS.type == 'div':
        generate_loss = K.mean(G_fake_score)
    if FLAGS.type == 'gp':
        generate_loss = -K.mean(G_fake_score)#min this value

    #compile the model
    gan_train_g.add_loss(generate_loss) #min
    gan_train_g.compile(optimizer=keras.optimizers.Adam(learning_rate, 0.5))

4.6.定义训练网络循环体：

循环体内的主体：
首先输入数据，噪音，随机数；然后分别训练discriminator和generator；

#datasets
            train_datas_ = sess.run(train_datas)
            '''
                if the datasets' shape is not batch_size
            '''
            if train_datas_[0].shape[0] != batch_size:
                sess.run(iter.initializer)
                train_datas_ = sess.run(train_datas)
            
            z_noise = np.random.normal(size=batch_size*noise_dim)\
                                    .reshape([batch_size,noise_dim])
            u_niform = np.random.uniform(low=0.0,high=1.0,size=(batch_size,1,1,1))
            
            #-----------------------------------------
            #   phase 1 - training the discriminator |
            #-----------------------------------------
            #\\
            for step_critic in range(n_critic):
                d_loss,distance = gan_train_d.train_on_batch([train_datas_[0],z_noise,u_niform],None)
            
            #-----------------------------------------
            #   phase 2 - training the generator     |
            #-----------------------------------------
            #\\
            for step_generate in range(n_generate):
                g_loss = gan_train_g.train_on_batch(z_noise,None)

4.7.其他函数：

plot()

主要输出损失函数的值变化过程并保存

def plot(history):
    history = np.array(history)
    plt.ion()
    plt.figure(figsize=(12,4))
    plt.title('Train History')
    plt.plot(history[:,0],history[:,1])
    plt.ylabel('loss')
    plt.plot(history[:,0],history[:,2])
    plt.plot(history[:,0],history[:,3])
    plt.xlabel('step')
    plt.legend(['d_loss','distance','g_loss'],loc='upper left')
    plt.savefig(os.path.join(model_path,'history.png'))
    plt.pause(1)
    plt.close()

五、代码及训练结果

5.1.运行代码

运行方法:
利用自己准备的数据集可直接运行
不要在乎我的蹩脚英语注释，哈哈

python gan.py --data [image path] --type ['gp' or 'div']

gan.py

#! -*- coding: utf-8 -*-
'''
    Designer: zyl
    use :
    python gan.py --data [image path] --type ['gp' or 'div']
'''
import time
import numpy as np
import tensorflow as tf
import keras  
from keras import backend as K
import matplotlib.pyplot as plt
from PIL import Image
import os
import cv2
import sys

noise_dim = 128
dim = 64
epochs = 1000
batch_size = 64
data_num = 12500
learning_rate = 2e-4
save_step = 300
n_critic = 1
n_generate = 1
tfrecords_path = 'data/train.tfrecords'
save_path = 'image/'
model_path = 'model/'
#log_path = 'log/'


tf.app.flags.DEFINE_string(
    'data', 'None', 'where the datas?.')
tf.app.flags.DEFINE_string(
    'type', 'gp', 'what is the type?.')
FLAGS = tf.app.flags.FLAGS

if not os.path.exists('data'):
    os.mkdir('data')
if not os.path.exists('image'):
    os.mkdir('image')
if not os.path.exists('data'):
    os.mkdir('data')
if not os.path.exists('model'):
    os.mkdir('model')
#if not os.path.exists('log'):
#   os.mkdir('log')

#-------------------------------------------------------------------
#                        create the tfrecords                      |
#-------------------------------------------------------------------  

def create_tfrecords():
    if os.path.exists(tfrecords_path):
        return 0
    if(FLAGS.data == None):
        print('the data is none,use: python gan.py --data []')
        os._exit(0)
    writer_train= tf.python_io.TFRecordWriter(tfrecords_path)
    object_path = FLAGS.data
    total = os.listdir(object_path)
    num = len(total)
    num_i = 1
    value = 0
    print('-----------------------------making dataset tfrecord,waiting--------------------------')
    for index in total:
        img_path=os.path.join(object_path,index)
        img=Image.open(img_path)
        img=img.resize((dim,dim))
        img_raw=img.tobytes()
        
        '''
            it is on my datasets, please change these codes! 
        '''
        example = tf.train.Example(features=tf.train.Features(feature={
                'label': tf.train.Feature(int64_list=tf.train.Int64List(value=[value])),
                'img_raw': tf.train.Feature(bytes_list=tf.train.BytesList(value=[img_raw]))
                }))
        writer_train.write(example.SerializeToString())  #序列化为字符串
        sys.stdout.write('--------%.4f%%-----'%(num_i/float(num)*100))
        sys.stdout.write('\r')
        sys.stdout.flush()
        num_i = num_i +1
    print('-------------------------------datasets has completed-----------------------------------')
    global data_num
    data_num = num_i
    writer_train.close()

    
#-------------------------------------------------------------------
#                            datatfrecords                         |
#-------------------------------------------------------------------   
def load_image(serialized_example):   
    features={
        'label': tf.io.FixedLenFeature([], tf.int64),
        'img_raw' : tf.io.FixedLenFeature([], tf.string)}
    parsed_example = tf.io.parse_example(serialized_example,features)
    image = tf.decode_raw(parsed_example['img_raw'],tf.uint8)
    image = tf.reshape(image,[-1,dim,dim,3])
    image = tf.cast(image,tf.float32)*(1./255)
    label = tf.cast(parsed_example['label'], tf.int32)
    label = tf.reshape(label,[-1,1])
    return image,label
 
def dataset_tfrecords(tfrecords_path,use_keras_fit=True): 
    #是否使用tf.keras
    if use_keras_fit:
        epochs_data = 1
    else:
        epochs_data = epochs
    dataset = tf.data.TFRecordDataset([tfrecords_path])
    '''
        这个可以有多个组成[tfrecords_name1,tfrecords_name2,...],可以用os.listdir(tfrecords_path):
    '''
    dataset = dataset\
                .repeat(epochs_data)\
                .shuffle(1000)\
                .batch(batch_size)\
                .map(load_image,num_parallel_calls = 8)
    #注意一定要将shuffle放在batch前      

    iter = dataset.make_initializable_iterator()#make_one_shot_iterator()
    train_datas = iter.get_next() #用train_datas[0],[1]的方式得到值
    return train_datas,iter
 

#-------------------------------------------------------------------
#                            define resBlock                       |
#-------------------------------------------------------------------   
    
def convolutional2D(x,num_filters,kernel_size,resampling,strides=2):
    if resampling is 'up':
        x = keras.layers.UpSampling2D()(x)
        x = keras.layers.Conv2D(num_filters, kernel_size=kernel_size, strides=1, padding='same',
                       kernel_initializer=keras.initializers.RandomNormal())(x)
        #x = keras.layers.Conv2DTranspose(num_filters,kernel_size=kernel_size, strides=2,  padding='same',
        #              kernel_initializer=keras.initializers.RandomNormal())(x)
    elif resampling is 'down':
        x = keras.layers.Conv2D(num_filters, kernel_size=kernel_size, strides=strides,  padding='same',
                       kernel_initializer=keras.initializers.RandomNormal())(x)
    return x
    
def ResBlock(x, num_filters, resampling,strides=2):

    '''
        1.如果训练的数据量较少，则需要将BN的参数momentum减少，减少到0.9甚至是0.8（默认0.99）
        即 ： BatchNormalization(momentum=0.8)
        训练数据大时可使用默认值0.99
        
        2.另外也可以使用keras.layers.LeakyReLU()函数来代替relu函数，使得负值段有一定梯度
        可以通过设置alpha参数来改变负值段的斜率，alpha=0.2
        relu的思想更接近于生物的神经元，卷积后relu处理会将数据映射到正值，负值段梯度为零
    '''
    #F1,F2,F3 = num_filters
    X_shortcut = x
    
    #//up or down
    x = convolutional2D(x,num_filters,kernel_size=(3,3),resampling=resampling,strides=strides)

    #//BN_relu
    x = keras.layers.BatchNormalization()(x)
    #x = keras.layers.Activation('relu')(x)
    x = keras.layers.LeakyReLU()(x)

    #//cov2d
    x = keras.layers.Conv2D(num_filters, kernel_size=(3,3), strides=1,padding='same',
                       kernel_initializer=keras.initializers.RandomNormal())(x)
    
    #//BN_relu
    x = keras.layers.BatchNormalization()(x)
    #x = keras.layers.Activation('relu')(x)
    x = keras.layers.LeakyReLU()(x)
    
    #//cov2d
    x = keras.layers.Conv2D(num_filters, kernel_size=(3,3), strides=1,padding='same',
                       kernel_initializer=keras.initializers.RandomNormal())(x)
    #//BN_relu
    x = keras.layers.BatchNormalization()(x)
    
    #//add_shortcut
    X_shortcut = convolutional2D(X_shortcut,num_filters,kernel_size=(1,1),resampling=resampling,strides=strides)
    X_shortcut = keras.layers.BatchNormalization()(X_shortcut)
    
    X_add = keras.layers.Add()([x,X_shortcut])
    #X_add = keras.layers.Activation('relu')(X_add)
    X_add = keras.layers.LeakyReLU()(X_add)
    
    return X_add

def IdentifyBlock(x, num_filters):
    #F1,F2,F3 = num_filters
    X_shortcut = x
    
    #//cov2d
    x = keras.layers.Conv2D(num_filters//4, kernel_size=(1,1), strides=1,padding='same',
                       kernel_initializer=keras.initializers.RandomNormal())(x)
    #//BN_relu
    x = keras.layers.BatchNormalization()(x)
    x = keras.layers.Activation('relu')(x)
    
    #//cov2d
    x = keras.layers.Conv2D(num_filters//4, kernel_size=(1,1), strides=1,padding='same',
                       kernel_initializer=keras.initializers.RandomNormal())(x)
    
    #//BN_relu
    x = keras.layers.BatchNormalization()(x)
    x = keras.layers.Activation('relu')(x)
    
    #//cov2d
    x = keras.layers.Conv2D(num_filters, kernel_size=(1,1), strides=1,padding='same',
                       kernel_initializer=keras.initializers.RandomNormal())(x)
    #//BN_relu
    x = keras.layers.BatchNormalization()(x)
    
    #//add_shortcut
    
    X_add = keras.layers.Add()([x,X_shortcut])
    X_add = keras.layers.Activation('relu')(X_add)
    
    return X_add


#-------------------------------------------------------------------
#                            define generator                      |
#-------------------------------------------------------------------   

def generate(resampling='up'):
    nosie = keras.layers.Input(shape=(noise_dim,))
    g = keras.layers.Dense(512*4*4)(nosie)
    g = keras.layers.Reshape((4,4,512))(g)
    #//BN_relu
    g = keras.layers.BatchNormalization()(g)
    #g = keras.layers.Activation('relu')(g)
    g = keras.layers.LeakyReLU()(g)
    
    #4*4*512
    g = ResBlock(g,num_filters=512,resampling=resampling)

    #8*8*512
    g = ResBlock(g,num_filters=256,resampling=resampling)

    #16*16*256
    g = ResBlock(g,num_filters=128,resampling=resampling)

    #32*32*128
    g = ResBlock(g,num_filters=64,resampling=resampling)

    #64*64*64
    
    g = keras.layers.Conv2D(3, kernel_size=(3,3), strides=1, padding='same',
                       kernel_initializer=keras.initializers.RandomNormal())(g)
    #64*64*3
    g_out = keras.layers.Activation('tanh')(g)
    g_model = keras.Model(nosie,g_out)
    return g_model

#-------------------------------------------------------------------
#                            define discriminator                  |
#-------------------------------------------------------------------  

def discriminator(resampling='down'):
    real_in = keras.layers.Input(shape=(dim, dim, 3))

    d = keras.layers.Conv2D(64, kernel_size=(3,3), padding='same',strides=1,
                      kernel_initializer=keras.initializers.RandomNormal())(real_in)
    #//BN_relu
    d = keras.layers.BatchNormalization()(d)
    #d = keras.layers.Activation('relu')(d)
    d = keras.layers.LeakyReLU()(d)

    #64*64*64
    d = ResBlock(d,num_filters=128,resampling=resampling)  
    
    #32*32*128
    d = ResBlock(d,num_filters=256,resampling=resampling)

    #16*16*256
    d = ResBlock(d,num_filters=512,resampling=resampling)

    #8*8*512
    d = ResBlock(d,num_filters=512,resampling=resampling)
    
    #4*4*512
    '''
        GlobalAveragePooling :it can replace the full connection layer
        you can use the Dense to test the network
    '''
    d = keras.layers.GlobalAveragePooling2D()(d)
    d_out = keras.layers.Dense(1)(d)
    d_model = keras.Model(real_in,d_out)
    return d_model

#-------------------------------------------------------------------
#                           show process of trian                  |
#------------------------------------------------------------------- 
def plot(history):
    history = np.array(history)
    plt.ion()
    plt.figure(figsize=(12,4))
    plt.title('Train History')
    plt.plot(history[:,0],history[:,1])
    plt.ylabel('loss')
    plt.plot(history[:,0],history[:,2])
    plt.plot(history[:,0],history[:,3])
    plt.xlabel('step')
    plt.legend(['d_loss','distance','g_loss'],loc='upper left')
    plt.savefig(os.path.join(model_path,'history.png'))
    plt.pause(1)
    plt.close()
    
def main():
    #------------------------------
    #define the generate model    *
    #------------------------------
    generate_model = generate()
    
    #--------------------------------
    #define the discriminator model *
    #--------------------------------
    discriminator_model = discriminator()
    
    #cat the network
    discriminator_model.summary()
    generate_model.summary()
    
    #//
    #-------------------------------------------------------------------
    #                            train the Discriminator               |
    #-------------------------------------------------------------------
    #//
    '''
        you need to redefined the Input rather than use the Input previous
    '''
    #Input para
    Dx_real_img = keras.layers.Input(shape=(dim, dim, 3))
    Dz_noise = keras.layers.Input(shape=(noise_dim,))
    D_uniform = keras.layers.Input(shape=(1,1,1))
    
    #set the trainable 
    generate_model.trainable = False
    
    #get the score
    D_fake_img = generate_model(Dz_noise)
    D_fake_score = discriminator_model(D_fake_img)
    D_real_score = discriminator_model(Dx_real_img)
    
    #train net
    gan_train_d = keras.Model([Dx_real_img, Dz_noise, D_uniform],[D_real_score,D_fake_score])
    
    #set the loss function according to the algorithm
    k = 2
    p = 6
    u = D_uniform
    
    #then, get a new input consist from fake and real
    x_ = (1.-u)*Dx_real_img+u*D_fake_img
    
    #//
    #-------------------------------------------------------------------
    #                            wgan div loss function                |
    #                               n_critic = 1                       |
    #                          arxiv.org/pdf/1712.01026.pdf            |
    #-------------------------------------------------------------------
    #//
    if FLAGS.type == 'div':
        gradients = K.gradients(discriminator_model(x_), [x_])[0]
        grad_norm = K.sqrt(K.sum(gradients ** 2, axis=[1, 2, 3])) ** p
        grad_penalty = k * K.mean(grad_norm)
        discriminator_loss = K.mean(D_real_score - D_fake_score)
    
    
    #//
    #-------------------------------------------------------------------
    #                            wgan gp  loss function                |
    #                               n_critic = 5                       |
    #                          arxiv.org/pdf/1704.00028.pdf            |
    #-------------------------------------------------------------------
    #//
    if FLAGS.type == 'gp':
        gradients = K.gradients(discriminator_model(x_), [x_])[0]
        grad_norm = K.sqrt(K.sum(gradients ** 2, axis=[1, 2, 3]))
        grad_norm = K.square(1-grad_norm)
        grad_penalty =  10*K.mean(grad_norm)
        discriminator_loss = K.mean(D_fake_score-D_real_score)
    
    
    #loss function
    discriminator_loss_all = grad_penalty+ discriminator_loss 
    
    #compile the model
    gan_train_d.add_loss(discriminator_loss_all) #min
    gan_train_d.compile(optimizer=keras.optimizers.Adam(learning_rate, 0.5))
    gan_train_d.metrics_names.append('DistanceFromRealAndFake')
    gan_train_d.metrics_tensors.append(-discriminator_loss) #max
    
    #//
    #-------------------------------------------------------------------
    #                            train the Generator                   |
    #-------------------------------------------------------------------
    #//
    #Input para
    Gz_nosie = keras.layers.Input(shape=(noise_dim,))
    
    #set the trainable 
    discriminator_model.trainable = False
    generate_model.trainable = True
    
    #get the score
    G_fake_img = generate_model(Gz_nosie)
    G_fake_score = discriminator_model(G_fake_img)
    
    #train net
    gan_train_g = keras.Model(Gz_nosie,G_fake_score)
    
    #loss function

    if FLAGS.type == 'div':
        generate_loss = K.mean(G_fake_score)
    if FLAGS.type == 'gp':
        generate_loss = -K.mean(G_fake_score)#min this value

    #compile the model
    gan_train_g.add_loss(generate_loss) #min
    gan_train_g.compile(optimizer=keras.optimizers.Adam(learning_rate, 0.5))
    
    #\\
    #---------------------------------------------------------------------
    #\\
    #cat the network
    gan_train_d.summary()
    gan_train_g.summary()
    
    #creat the session, get the dataset from tfrecords
    sess = tf.Session()
    train_datas,iter = dataset_tfrecords(tfrecords_path,use_keras_fit=False)
    sess.run(iter.initializer)
    
    print("-----------------------------------------start---------------------------------------")
    #continue
    if os.path.exists(os.path.join(model_path,'gan.weights')):
        gan_train_g.load_weights(os.path.join(model_path,'gan.weights'))
        if os.path.exists(os.path.join(model_path,'history.npy')):
            history = np.load(os.path.join(model_path,'./history.npy'), allow_pickle=True).tolist()
            #read the last data use -1 index,and use 0 to read the first data
            #\\
            last_iter = int(history[-1][0])
            print('Find the npy file, the last save iter:%d' % (last_iter))
        else:
            history = []
            last_iter = -1
    else:
        print('There is no .npy file, creating a new file---------')
        history = []
        last_iter = -1
        
    #state the global vars
    #you can change them in this function body, so that it makes the training stable
    #\\
    global n_critic
    global n_generate
    
    #the loop body
    #\\
    for step in range(last_iter+1,int(epochs*data_num/batch_size+1)):
        try:
            #get the time
            start_time = time.time()
            
            #datasets
            train_datas_ = sess.run(train_datas)
            '''
                if the datasets' shape is not batch_size
            '''
            if train_datas_[0].shape[0] != batch_size:
                sess.run(iter.initializer)
                train_datas_ = sess.run(train_datas)
            
            z_noise = np.random.normal(size=batch_size*noise_dim)\
                                    .reshape([batch_size,noise_dim])
            u_niform = np.random.uniform(low=0.0,high=1.0,size=(batch_size,1,1,1))
            
            #-----------------------------------------
            #   phase 1 - training the discriminator |
            #-----------------------------------------
            #\\
            for step_critic in range(n_critic):
                d_loss,distance = gan_train_d.train_on_batch([train_datas_[0],z_noise,u_niform],None)
            
            #-----------------------------------------
            #   phase 2 - training the generator     |
            #-----------------------------------------
            #\\
            for step_generate in range(n_generate):
                g_loss = gan_train_g.train_on_batch(z_noise,None)
            
            
            #get the time 
            duration = time.time()-start_time
            
            #-----------------------------------------
            #            print the loss              |
            #-----------------------------------------
            if step % 5 == 0:
                print("The step is %s,d_loss:%s,distance:%s,g_loss:%s, "%(step,d_loss,distance,g_loss),end=' ')
                print('%.2f s/step'%(duration))
            
            #-----------------------------------------
            #       plot the train history           |
            #-----------------------------------------
            #\\
            if step % 5 == 0 :
                history.append([step, d_loss,distance, g_loss])
                  
            #-----------------------------------------
            #       save the model_weights           |
            #-----------------------------------------
            #\\
            if step % save_step == 0 and step != 0:
                # save the train steps
                np.save(os.path.join(model_path,'./history.npy'), history)
                gan_train_g.save_weights(os.path.join(model_path,'gan.weights'))
                plot(history)
                
            #-----------------------------------------
            #       save the image of generate       |
            #-----------------------------------------
            #\\
            if step % 50 == 0 and step != 0:
                noise_test = np.random.normal(size=[1,noise_dim])
                noise_test = np.cast[np.float32](noise_test)
                fake_image = generate_model.predict(noise_test,steps=1)
                '''
                    复原图像
                    1.乘以255后需要映射成uint8的类型
                    2.也可以保持[0,1]的float32类型，依然可以直接输出
                '''
                arr_img = np.array([fake_image],np.float32).reshape([dim,dim,3])*255
                arr_img = np.cast[np.uint8](arr_img)
                
                #保存为tfrecords用的是PIL.Image,即打开为RGB，所以在用cv显示时需要转换为BGR
                arr_img = cv2.cvtColor(arr_img,cv2.COLOR_RGB2BGR)
                cv2.imwrite(save_path+str(step)+'.jpg',arr_img)
                #cv2.imshow('fake image',arr_img)
                #cv2.waitKey(1500)#show the fake image 1.5s
                #cv2.destroyAllWindows()
        except tf.errors.OutOfRangeError: 
            sess.run(iter.initializer)
    plot(history)     
    #summary_writer.close()
    
create_tfrecords()
main()

5.2.使用wgan-Gp生成训练过程（名字表示训练次数）：

5.3.使用wgan-div生成训练过程（使用leakyReLU函数）：

只训练了三万多次，年轻人我们点到为止。。。
训练过程：（保证distance在0附近）

六、总结

要想训练好GAN网络是一件很困难的事，因为要保证GAN网络的稳定性，不能让生成器太强也不能让判别器太强，现阶段出现的各种方法都主要在解决训练稳定、梯度消失和模型崩溃的问题；实际上，类似于WGAN-GP,WGAN-DIV等修改loss损失函数的方法在我看来相比于调参来说（即超参数，网络结构），其实效果不太大。但对于大部分gan网络来说，我认为需要注意几个问题：
1.gan网络中需要让判别器占据主导地位，稍强于生成网络；

2.训练的次数和batch_size同样影响着生成器最终的效果；

3.两者的学习率不一定要相等，相等的学习率不一定就能让生成网络和判别网络同步稳定进行更新，必要时可以尝试设置不同的学习率；

4.优化目标函数最终的目的是让生成数据和真实数据之间的’距离’（这个距离是广义笼统的距离）无限逼近0,我在代码中也设置了这个观测值，可以实时观察动向，如果distance越来越远离0，则表示判别网络discriminator太强，或者生成器网络能力不够等，这个时候就需要调节参数重新训练；

5.一般来说，判别网络更容易训练，生成网络则比较难调整；所以有的时候比如DCGAN网络就容易出现判别网络的损失函数的值先到达0并且一直为0的情况，这时候可以减小判别网络的学习率，减少判别网络结构等方法来调整；

6.梯度消失问题，可以利用基于wgan的参考算法来实现，利用ResNet网络以及使用LeakyReLU激活函数等；

7.利用keras搭建的网络模型可以观测到搭建网络的参数量，比如一般来说64×64图像的需要百万级别以上的参数量；一般而言，参数量越大，网络结构越深，拟合能力越强，所以对于具有相似结构的判别和生成网络，判别网络的参数量应该稍多于生成网络；

8.数据集也会影响训练效果；数据集之间也会存在着不同的特征差异，如果数据集内间‘特征距离’较小，整个数据集间的特征重合度高（例如人脸数据），那么训练的生成器的效果将会更好；相反，如果数据集内间‘特征距离’较大，那么对于判别网络来说都是巨大的挑战，因为数据集相对分散，生成网络生成的图像有时候不尽人意…可以在设计判别网络的时候考虑数据集的差异性分布，适当加深加宽网络，增强判别网络的能力；

9.多看论文！GAN网络的研究到现在已经出现了很大的进步；我们研究生深度学习的授课老师来自智能与计算学部，主要方向是GAN网络和计算机视觉，老师也讲了很多他本人在GAN网络领域上的重大进展（确实是大牛，毕竟他和他的学生是和杨立昆（Yann LeCun）合过影的，哈哈！！）；GAN网络的研究目前还是非常火热的，经过几年的发展，GAN网络出现了很多种结构和算法，取得了不错的成就，这个方向我认为可以深入发展，我自己的方向就是医疗手术机器人，所以比如可以应用在医疗图像等领域，生成融合分割等等…

学渣一枚，个人总结仅供参考。

迁移学习与GAN结合的医学图像融合模型

参考代码和文献：

https://github.com/ABaoccy/wgan-div/blob/master/wgan_div.py
https://github.com/igul222/improved_wgan_training/blob/master/gan_64x64.py
https://github.com/bojone/gan/blob/master/keras/wgan_div_celeba.py
https://github.com/eriklindernoren/Keras-GAN/blob/master/wgan/wgan.py

1.Deep Residual Learning for Image Recognition
2.Wasserstein Divergence for GANs
3.Wasserstein GAN
4.Improved Training of Wasserstein GANs
5.深度残差收缩网络 Deep Residual Shrinkage Networks for Fault Diagnosis

Keras入门与残差网络的搭建

你可能感兴趣的:(深度学习,机器学习,深度学习,tensorflow,神经网络)

机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
Spike Neural Network Introduction and Research Directions Debug_Snail SNN Neuralnetwork 人工智能 AIGC
1.SNNs是一类神经网络,其中的神经元通过脉冲(spikes)来传递信息,而不是像传统的人工神经网络中那样使用实数值激活。SNNs更接近生物学上的神经系统,因为生物神经元也是通过电信号脉冲来传递信息的。与传统神经网络相比,SNNs具有以下几个特点:更低的功耗-因为只在发生脉冲时才激活神经元,所以整体功耗会比传统神经网络低很多。这使得SNNs很适合应用在对功耗要求非常严格的场景,如边缘计算。时序编
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
如何通过深度学习优化操作系统中的故障诊断与恢复机制金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 深度学习人工智能
如何通过深度学习优化操作系统中的故障诊断与恢复机制（副标题：智能监控、自适应诊断与自动恢复——操作系统故障自愈的新方向）摘要随着现代操作系统在多核、高并发和分布式环境中的广泛应用，系统故障及其恢复问题日益成为影响系统稳定性和业务连续性的关键挑战。传统的故障诊断方法依赖于预设规则和人工干预，难以应对复杂多变的故障场景。本文提出了一种基于深度学习的故障诊断与恢复机制，通过对大量历史日志、监控数据和故障
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发引言在HarmonyNext生态系统中，分布式机器学习是其核心特性之一。通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的分
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
关于两次项目的学习感悟罗婕斯特大数据
经过这两次项目，我学到了以下几点：1.模块化与结构化思维：代码展示了如何将深度学习任务分解为多个模块（如数据加载、模型定义、训练循环、评估等）。这种模块化的思维方式不仅适用于编程，也可以应用于解决复杂问题时的结构化思考。2.细节决定成败：代码中涉及了许多细节，如数据预处理、学习率调整、损失函数的选择等。这些细节对模型的最终性能有着重要影响。这提醒我们，在解决实际问题时，细节往往决定成败，需要耐心和
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
大语言模型原理基础与前沿双层路由多模态融合、多任务学习和模块化架构 AI智能涌现深度研究 AI大语言模型和知识图谱融合 Python入门实战 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿：双层路由多模态融合、多任务学习和模块化架构关键词：大语言模型、双层路由、多模态融合、多任务学习、模块化架构、神经网络、自然语言处理1.背景介绍大语言模型（LargeLanguageModels，LLMs）已经成为人工智能和自然语言处理领域的重要研究方向。随着GPT-3、BERT等模型的出现，大语言模型在各种任务中展现出了惊人的性能。然而，随着模型规模的不断扩大和应用场景的
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
Python第十六课：深度学习入门 | 神经网络解密程之编 Python全栈通关秘籍 python 神经网络青少年编程
本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和（∑(权重×输入)+偏置）轴突传递电信号激活函数处理输出2.核心组件解析激活函数：神经元的"开关"（如ReLU：max
【大模型开发】深入解析 DeepSpeed：原理、核心技术与示例代码云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习大模型开发大模型微调 deepseek deepspeed python 人工智能 pytorch
深入解析DeepSpeed：原理、核心技术与示例代码DeepSpeed是由微软开源的高性能深度学习训练优化引擎，专注于帮助研究人员和工程团队在分布式环境中高效地训练超大规模模型。其核心目标是提供高吞吐、低内存占用、低成本的分布式训练方案，让数千亿甚至万亿级参数模型的训练成为可能。本文将从DeepSpeed的核心原理、关键组件、代码示例及实现过程详解等方面做详细阐述，帮助读者更好地理解并使用Deep
【漫话机器学习系列】130.主成分（Principal Components） IT古董漫话机器学习系列专辑机器学习人工智能 python
主成分（PrincipalComponents）详解1.什么是主成分？主成分（PrincipalComponents，PCs）是数据集中方差最大的线性组合，它是主成分分析（PrincipalComponentAnalysis，PCA）中的核心概念。主成分可以看作是对原始特征的新表述方式，它通过数学变换找到一组新的正交坐标轴，使得数据的主要变化方向与这些轴对齐。简单来说：主成分是数据集中信息量（方差
一学就会的深度学习基础指令及操作步骤（6）迁移学习小圆圆666 深度学习迁移学习人工智能卷积神经网络
文章目录迁移学习模型准备数据增强模型训练模型微调和预测检查预测结果迁移学习迁移学习是将一个任务中学到的知识应用到另一个相关任务上，以提高新任务的学习效率和性能。优势：节省训练时间，提高模型性能，尤其在小数据场景下效果显著。核心是利用源域的知识来帮助目标域任务，比如在ImageNet上预训练的模型用于医疗影像分类。源域（SourceDomain）：已有知识的领域（如ImageNet图像库）。目标域（
C++开源库大全大王算法 C/C++开发实战365 C++入门及项目实战宝典 c++开源
程序员要站在巨人的肩膀上，C++拥有丰富的开源库，这里包括：标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。标准库C++StandardLibrary：是一系列类和函数的集合，使用核心语言编写，也是C++ISO自身标准的一部分。
基于PyTorch的深度学习6——数据处理工具箱2 Wis4e 深度学习 pytorch 人工智能
torchvision有4个功能模块：model、datasets、transforms和utils。主要介绍如何使用datasets的ImageFolder处理自定义数据集，以及如何使用transforms对源数据进行预处理、增强等。下面将重点介绍transforms及ImageFolder。transforms提供了对PILImage对象和Tensor对象的常用操作。1)对PILImage的常
基于PyTorch的深度学习——机器学习3 Wis4e 深度学习机器学习 pytorch
激活函数在神经网络中作用有很多，主要作用是给神经网络提供非线性建模能力。如果没有激活函数，那么再多层的神经网络也只能处理线性可分问题。在搭建神经网络时，如何选择激活函数？如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；而如果搭建的网络层次较多，那就需要小心，选择不当就可导致梯度消失问题。此时一般不宜选择sigmoid、tanh激活函数，因它们的导数都小于1
深度学习与普通神经网络有何区别？是理不是里深度学习神经网络人工智能
深度学习与普通神经网络的主要区别体现在以下几个方面：一、结构复杂度普通神经网络：通常指浅层结构，层数较少，一般为2-3层，包括输入层、一个或多个隐藏层、输出层。深度学习：强调通过5层以上的深度架构逐级抽象数据特征，包含多层神经网络，层数可能达到几十层甚至上百层。例如，ResNet（2015）包含152个卷积层。二、特征学习方式普通神经网络：特征提取通常依赖人工设计，需要领域专家的经验。这意味着在处
神经网络中梯度计算求和公式求导问题 serve the people 日常琐问神经网络机器学习算法
以下是公式一推导出公式二的过程。表达式一∂E∂wjk=−2(tk−ok)⋅sigmoid(∑jwjk⋅oj)⋅(1−sigmoid(∑jwjk⋅oj))⋅∂∂wjk(∑jwjk⋅oj)\frac{\partialE}{\partialw_{jk}}=-2(t_k-o_k)\cdot\text{sigmoid}\left(\sum_jw_{jk}\cdoto_j\right)\cdot(1-\tex
AI 技术引入 RTK（实时动态定位）系统，可以实现智能化管理和自动化运行小赖同学啊人工智能低空经济人工智能自动化运维
将AI技术引入RTK（实时动态定位）系统，可以实现智能化管理和自动化运行，从而提高系统的精度、效率和可靠性。以下是AI技术在RTK系统中的应用实例：一、AI技术在RTK系统中的应用场景1.整周模糊度快速解算问题：RTK的核心是解算载波相位的整周模糊度，传统方法耗时较长。AI解决方案：使用深度学习模型（如卷积神经网络CNN）预测整周模糊度。通过历史数据训练模型，实现快速解算。实例：某无人机公司使用A
AI 驱动的软件测试革命：从自动化到智能化的进阶之路綦枫Maple AI+软件测试人工智能自动化运维
引言：软件测试的智能化转型浪潮在数字化转型加速的今天，软件产品的迭代速度与复杂度呈指数级增长。传统软件测试依赖人工编写用例、执行测试的模式，已难以应对快速交付与高质量要求的双重挑战。人工智能技术的突破为测试领域注入了新动能，通过机器学习、深度学习、自然语言处理等技术，测试流程正从“被动验证”向“主动预防”演进。本文将深入探讨AI与软件测试的融合路径，结合技术原理、工具实践与行业趋势，为读者呈现一幅
XGBClassifiler函数介绍浊酒南街 #算法机器学习 XGB
目录前言函数介绍示例前言XGBClassifier是XGBoost库中用于分类任务的类。XGBoost是一种高效且灵活的梯度提升决策树（GBDT）实现，它在多种机器学习竞赛中表现出色，尤其擅长处理表格数据。函数介绍XGBClassifiler(max_depth=3,learning_rate=0.1,n_estimators=100,objective='binary:logistic',boo
基于大数据架构的就业岗位推荐系统的设计与实现【java或python】—计算机毕业设计源码+LW文档 qq_375279829 大数据架构 python 课程设计算法
摘要随着互联网技术的迅猛发展和大数据时代的到来，就业市场日益复杂多变，求职者与招聘方之间的信息不对称问题愈发突出。为解决这一难题，本文设计并实现了一个基于大数据架构的就业岗位推荐系统。该系统通过收集、整合并分析大量求职者简历信息、企业招聘信息以及市场动态数据，运用先进的机器学习算法，为求职者提供个性化的岗位推荐服务，同时帮助企业快速定位到合适的候选人。本文将从系统设计的背景与意义、技术基础、需求分
向量数据库简介 openwin_top python编程示例系列 python编程示例系列二数据库
向量数据库（VectorDatabase）是一种专门用于存储和查询向量数据的数据库系统。向量数据库通常使用高效的向量索引技术，支持基于向量相似度的查询和检索，可以应用于图像搜索、自然语言处理、推荐系统、机器学习等领域。与传统的关系型数据库不同，向量数据库通常使用基于向量的数据模型，将向量作为数据的核心表示形式。向量数据库可以存储和处理大量的向量数据，支持高效的向量相似度计算和查询。常见的向量索引技
Ubuntu22.04安装CP2K最新版2025.1 jhonwyyc 机器学习深度学习 ubuntu
CP2K教程CP2K系列之一安装文章目录CP2K教程前言一、安装依赖库1.引入库二、下载并解压缩1.下载链接2.解压缩三、安装1.安装cp2k_toolchain2.安装cp2k3.指定根目录4.修改环境变量四、测试总结前言CP2K是一款开源的第一性原理计算软件，采用Fortran98编写。近年来结合机器学习与lammps，已成为热度逐年增加的软件。但是目前使用它仍存在不少难点。本文讲解在Ubun
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文