啊！我的小心脏

tensorflow入门项目（二）：手写数字识别之CNN模型（详解）

前言

在做实战项目时，最好有一定的基础。个人觉得吴恩达的视频讲解的很好，可以看一下打个基础。

内容

附上代码以及详细解析，也可跳过讲解，直接复制代码。代码里包含全部讲解！

 import tensorflow as tf import numpy as np from
tensorflow.examples.tutorials.mnist import input_data mnist =
input_data.read_data_sets('E:/program/tensorflow_learning/example/mnist_program/mnist',one_hot=True)

导入数据

print(type(mnist))
print('train image shape输入数据：',mnist.train.images.shape,'trian label shape:', mnist.train.labels.shape)#(55000, 784),(55000, 10)
print('val image shape:', mnist.validation.images.shape)#(5000, 784)
print('test image shape:', mnist.test.images.shape)#(10000, 784)

查看数据类型

config = tf.ConfigProto()
config.gpu_options.allow_growth = True
sess = tf.InteractiveSession(config=config)

设置tensorflow对GPU使用按需分配

def weight_variable(shape):
    init = tf.truncated_normal(shape,stddev=0.1)
    return tf.Variable(init)

使用正态分布初始化权值。

tf.truncated_normal(shape, mean=0.0, stddev=1.0, dtype=tf.float32, seed=None, name=None)
shape表示一维的张量，也是输出的张量。
mean是正态分布的均值
stddev是标准差
从截断的正态分布中输出随机值。生成的值服从具有指定平均值和标准偏差的正态分布，如果生成的值大于平均值2个标准偏差的值则丢弃重新选择。
在tf.truncated_normal中如果init的取值在区间（μ-2σ，μ+2σ）之外则重新进行选择。这样保证了生成的值都在均值附近

tf.Variable(initializer,name)
参数initializer是初始化参数，
name是可自定义的变量名称

def bias_variable(shape):
    init = tf.constant(0.1,shape=shape)
    return tf.Variable(init)

tf.constant(value,dtype=None,shape=None,name=‘Const’,verify_shape=False)
创建一个常量tensor，按照给出value来赋值，可以用shape来指定其形状。value可以是一个数，也可以是一个list。如果是一个数，那么这个常量中所有值的按该数来赋值。
如果是list,那么len(value)一定要小于等于shape展开后的长度。赋值时，先将value中的值逐个存入。如果len(value)小于shape展开后的长度，则全部存入value的最后一个值。
详情指路：https://blog.csdn.net/csdn_jiayu/article/details/82155224

#定义卷积层
def conv2d(x,w):
    return tf.nn.conv2d(x,w,strides=[1,1,1,1],padding='SAME')

tf.nn.conv2d(input,filter,strides,padding,use_cudnn_on_gpu=None,name=None)
input:指定需要做卷积的输入图像，它要求是一个Tensor，具有[batch,in_height,in_width,in_channels]这样的形状(shape)，具体含义是"训练时一个batch的图片数量，图片高度，图片宽度，图片通道数"，注意这是一个四维的Tensor，要求类型为float32或者float64.

filter：相当于CNN中的卷积核，它要求是一个Tensor，具有[filter_height,filter_width,in_channels,out_channels]这样的shape，
具体含义是"卷积核的高度，卷积核的宽度，图像通道数，滤波器个数"，要求类型与参数input相同。有一个地方需要注意，第三维in_channels，就是参数input中的第四维

strides：卷积时在图像每一维的步长，这是一个一维的向量，长度为4，与输入input对应，一般值为[1,x,x,1],x取步长。

padding：定义元素边框与元素内容之间的空间。string类型的量，只能是"SAME"和“VALID”其中之一，这个值决定了不同的卷积方式。"SAME"和“VALID”的不同详情指路 https://blog.csdn.net/wuzqChom/article/details/74785643

use_cudnn_on_gpu:bool类型，是否使用cudnn加速，默认是True.

name：指定名字

def max_pooling(x):
    return tf.nn.max_pool(x,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')

池化一般分为最大池化和平均池化
tf.nn.max_pool(input,ksize,strides,padding,name=None)
tf.nn.avg_pooll(input,ksize,strides,padding,name=None)
input：需要池化的输入，一般池化层接在卷积层后面，所以输入通常是feature map,依然是[batch,height,width,channels]这样的shape。

ksize：池化窗口的大小，取一个思维向量，一般是[1,height,width,1]，因为我们不想在batch和channels上做池化，所以这两个维度设为1.

strides：和卷积参数含义类似，窗口在每一个维度上滑动的步长，一般也是[1,stride,stride,1]。

padding：和卷积参数含义一样，也是"VALID"或者"SAME"。

该函数返回一个Tensor。类型不变，shape仍然是[batch,height,width,channels]这种形式。
池化层一般都是接在卷积层后面，用于减少参数矩阵的维度，从而减小最后全连接层的参数数目

x_ = tf.placeholder(tf.float32,[None,784])
y_ = tf.placeholder(tf.float32,[None,10])

在 MNIST 数据集中的每张图片由 28 x 28 个像素点构成, 每个像素点用一个灰度值表示.
在这里, 我们将 28 x 28 的像素展开为一个一维的行向量, 这些行向量就是图片数组里的行(每行 784 个值, 或者说每行就是代表了一张图片).
mnist 函数返回的第二个数组(labels) 包含了相应的目标变量, 也就是手写数字的类标签(整数 0-9).None的取值代表了batch的大小，数值不固定。

tf.placeholder(dtype, shape=None, name=None)
TensorFlow中的占位符，用于feed_dict传入外部数据。
这里None是随便传入几个样本，784是每一个样本有784列，这是确定的（因为用来训练的数据集为[55000,784]），每行代表一张图，用None代表你可以指定传入多少图。
下面的y也是这样，10代表10个类别
dtype:数据类型。
shape:数据的维度。默认为None，表示没有限制
name:名称
返回类型：Tensor

x = tf.reshape(x_,shape=[-1,28,28,1])

将x_变为一个4d向量，其第2、第3维对应图片的高、宽，最后一维代表图片的颜色通道数(因为是灰度图所以这里的通道数为1，如果是rgb彩色图，则为3)。-1代表自动计算剩下的维度。在这里-1就是指含有28x28x1向量的个数，具体多少个要看x_的输入，然后计算。详情指路：https://blog.csdn.net/qq_41424519/article/details/81778984

w_conv1 = weight_variable([5,5,1,32])
b_conv1 = bias_variable([32])
h_conv1 = tf.nn.relu(conv2d(x,w_conv1)+b_conv1)
h_pool1 = max_pooling(h_conv1)

搭建第一层网络：它由一个卷积接一个max pooling完成。卷积在每个5x5的patch中算出32个特征。卷积的权重张量形状是[5, 5, 1, 32]，前两个维度是patch的大小，接着是输入的通道数目，最后是输出的通道数目。而对于每一个输出通道都有一个对应的偏置量b。32个过滤器。

卷积层：x输入为[-1,28,28,1]，经过32个过滤器，共享权重矩阵为1x5x5的卷积，且滑动步长为[1,1,1,1]，最后输出为[-1,28,28,32]，因为长和宽上的滑动步长为1，1,且padding=‘SAME’，所以原图像的高宽不变为28，28.又经过32个过滤器，通道数变为32.

池化层：输入为：[-1,28,28,32]，滑动步长为[1,2,2,1]，长和宽上的步长为2，所以输出图像的长和宽减半，batch和channels都是1，不变。所以输出图像为[-1,14,14,32]

激活函数tf.nn.relu()
函数的目的是，将输入小于0的值赋值为0，输入大于0的值不变

w_conv2 = weight_variable([5,5,32,64])
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1,w_conv2)+b_conv2)
h_pool2 = max_pooling(h_conv2)

第二层网络的搭建，64个过滤器，共享权重矩阵为32x5x5

卷积层：x输入为[-1,14,14,32]，经过64个过滤器，共享权重矩阵为3255的卷积，且滑动步长为[1,1,1,1]，最后输出为[-1,14,14,64]，因为长和宽上的滑动步长为1，1,padding=‘SAME’，所以原图像的高宽不变为28，28.且经过64个过滤器，通道数变为64.
池化层：输入为：[-1,14,14,64]，滑动步长为[1,2,2,1]，长和宽上的步长为2，所以输出图像的长和宽减半，batch和channels都是1，不变。所以输出图像为[-1,7,7,64]

h_pool2_falt = tf.reshape(h_pool2,[-1,7*7*64])
w_h = weight_variable([7*7*64,1024])
b_h = bias_variable([1024])
hidden = tf.nn.relu(tf.matmul(h_pool2_falt,w_h) + b_h)

全连接层
现在，图片尺寸减小到7x7，我们加入一个有1024个神经元的全连接层，用于处理整个图片。我们把池化层输出的张量reshape成一些向量，乘上权重矩阵，加上偏置，然后对其使用ReLU。

h_pool2_falt的形状是[-1,7764] ,w_h的形状为[7764,1024],两者矩阵相乘之后的形状为[-1,1024]，这里-1的含义和前面相同
最终我们将会把每张图片提纯成一个[1,1024]向量，最终实现的转换为：
[batch,7,7,64]⇒[batch,1024] (batch代表个数)

tf.matmul(a, b, transpose_a=False, transpose_b=False, adjoint_a=False, adjoint_b=False, a_is_sparse=False, b_is_sparse=False, name=None)
a: 一个类型为 float16, float32, float64, int32, complex64, complex128 且张量秩 > 1 的张量。
b: 一个类型跟张量a相同的张量。
其他的参数没用上就不一一介绍了
返回值：一个跟张量a和张量b类型一样的张量且最内部矩阵是a和b中的相应矩阵的乘积。

卷积取的是局部特征，全连接就是把以前的局部特征重新通过权值矩阵组装成完整的图。因为用到了所有的局部特征，所以叫全连接。
https://blog.csdn.net/m0_37407756/article/details/80904580

keep_prob = tf.placeholder(tf.float32)
hidden_drop = tf.nn.dropout(hidden,keep_prob)

tf.nn.dropout的作用为：
加入弃权，把部分神经元输出置为0,为了减少过拟合,使得输入矩阵，hidden中的元素随机变为0，概率大概为输入参数keep_prob.其余的元素的值变为element/keep_prob,变为 0的输出相当于我们所丢弃掉的结点，这样在每次迭代完之后，都会更新我们的卷积神经网络，使得新的一部分结点在新的迭代中将会被 drop 掉，由此就实现了 dropout 过程。

w_o = weight_variable([1024,10])
b_o = bias_variable([10])
output = tf.nn.softmax(tf.matmul(hidden_drop,w_o) + b_o)

hidden_drop形状为[-1,1024]，w_o 形状为[1024，10]，所以矩阵乘法得出最后的out_put的形状为[-1，10]，它是一个行数未知列数为10矩阵

f.nn.softmax(logits,axis=None,name=None,dim=None)
logits：一个非空的Tensor。必须是下列类型之一：half， float32，float64
axis：将在其上执行维度softmax。默认值为-1，表示最后一个维度
name：操作的名称(可选)
dim：axis的已弃用的别名
返回：一个Tensor，与logits具有相同的类型和shape

通过Softmax回归，将logistic的预测二分类的概率的问题推广到了n分类的概率的问题
softmax的输出向量是概率，该样本属于各个类的概率，这里是十个类别0-9，每一列的数值代表该类别的概率。输出的向量的每个值的大小范围为0到1。
当一个样本经过softmax层并输出一个向量，会取这个向量中值最大的那个数的index作为这个样本的预测标签,
下文中的**tf.argmax(pred , 1)**就是取最大值操作

cost = tf.reduce_mean(-tf.reduce_sum(y_*tf.log(output),axis=1))

交叉熵评估代价，设置对数似然损失函数

tf.log函数，这个函数完成了对张量所有元素依次求对数的功能

乘以y后，得到了一个n×m的二维矩阵，其中n为一个batch中样例的数量，m为分类的类别数量根据交叉熵公式，(可以理解为[-1，10])
应该将每行中的m个结果相加得到的所有样例的交叉熵，然后在取平均值，得到一个batch的平均交叉熵。

tf.reduce_sum(input_tensor,axis=None,keepdims=None,name=None,reduction_indices=None,keep_dims=None)
input_tensor：待求和的tensor;
reduction_indices：在以前版本中用来指定轴，已弃用;
有两个取值分别为0和1，通常用reduction_indices=[0]或reduction_indices=[1]来传递参数。
从上图可以看出，当等于0时，是纵向对矩阵求和，原来矩阵有几列就得到几个值；
相似地，当等于1时，是横向对矩阵求和；当省略参数时，默认对矩阵所有元素进行求和。
reduce_sum应该理解为压缩求和，用于降维，不懂指路：https://blog.csdn.net/lxg0807/article/details/74625861

tf.reduce_mean(input_tensor, axis=None, keep_dims=False, name=None, reduction_indices=None)
input_tensor：输入的待降维的tensor
axis：指定的轴，如果不指定，则计算所有元素的均值
keep_dims：是否降维度，默认False。设置为True，输出的结果保持输入tensor的形状，设置为False，输出结果会降低维度
name：操作的名称
reduction_indices：在以前版本中用来指定轴，已弃用
tf.reduce_mean()函数用于计算张量tensor沿着指定的数轴（tensor的某一维度）上的平均值，
主要用作降维或者计算tensor（图像）的平均值。
指路：https://blog.csdn.net/qq_42847843/article/details/103515505

train = tf.train.AdamOptimizer(0.0001).minimize(cost)

0.0001是学习率
AdamOptimizer是TensorFlow中实现Adam算法的优化器。Adam即Adaptive Moment Estimation（自适应矩估计），
是一个寻找全局最优点的优化算法，引入了二次梯度校正。Adam 算法相对于其它种类算法有一定的优越性，是比较常用的算法之一

minimize(loss,global_step=None, var_list=None,gate_gradients=GATE_OP,
aggregation_method=None,colocate_gradients_with_ops=False,name=None,
grad_loss=None)
主要的两个参数：
loss：构造优化的损失函数,类型Tensor
global_step：通常于学习率变化一起使用，可选变量，在变量更新后增加1。
minimize() 函数处理了梯度计算和参数更新两个操作

correct = tf.equal(tf.argmax(output,1),tf.argmax(y_,1))

预测类别是否与真实类别相等
equal(x, y, name=None)
判断x, y 是不是相等，它的判断方法不是整体判断，而是逐个元素进行判断，如果相等就是True，不相等，就是False。

tf.argmax(input, axis=None, name=None, dimension=None)
此函数是对矩阵按行或列计算最大值，输出最大值的下标,也就是概率最大的类别
input：输入Tensor
axis：0表示按列，1表示按行
name：名称
dimension：和axis功能一样，默认axis取值优先。新加的字段
返回：Tensor 一般是行或列的最大值下标向量

accuracy = tf.reduce_mean(tf.cast(correct,tf.float32))

求准确率

cast(x,dtype,name=None)
将x的数据格式转化成dtype数据类型

training_accuracy_list = []
test_accuracy_list = []
training_cost_list=[]
test_cost_list = []

#使用会话执行图
sess.run(tf.global_variables_initializer())#初始化变量

#开始迭代 使用Adam优化的随机梯度下降法
for i in range(5000):
    # 一个epoch需要迭代次数计算公式：测试集长度 / batch_size
    x_batch,y_batch = mnist.train.next_batch(batch_size = 64)
    #开始迭代,喂入数据
    train.run(feed_dict={x_:x_batch,y_:y_batch,keep_prob:1.0})
    if (i+1)%200 == 0:
        training_accuracy,training_cost = sess.run([accuracy,cost],feed_dict={x_:x_batch,y_:y_batch,keep_prob:1.0})
        training_accuracy_list.append(training_accuracy)
        training_cost_list.append(training_cost)
        print('Step{0}:Training set accuracy {1},cost {2}'.format(i+1,training_accuracy,training_cost))

mnist.train.next_batch是专门用于由tensorflow提供的MNIST教程的函数。它的工作原理是在开始时将训练图像和标签对随机化，并在每次调用该函数时选择每个随后的batch_size张图像。一旦到达末尾，图像标签对将再次随机分配，并重复该过程。仅在使用所有可用对后，才重新组合和重复整个数据集。

for i in range(200):
    x_batch,y_batch = mnist.test.next_batch(batch_size = 50)
    test_accuracy,test_cost = sess.run([accuracy,cost],feed_dict={x_:x_batch,y_:y_batch,keep_prob:1.0})
    test_accuracy_list.append(test_accuracy)
    test_cost_list.append(test_cost)
    if (i+1)%200==0:
        print('Step{0}:Training set accuracy {1},cost {2}'.format(i + 1, test_accuracy, test_cost))
print('Test accuracy:',np.mean(test_accuracy_list))

全部训练完成后做测试分成200次，一次测试50个样本
输出测试机准确率如果一次性全部做测试，内容不够用会出现OOM错误。所以测试时选取比较小的mini_batch来测试

后面就比较容易理解了，我就一次性贴上来了。

'''
图像操作
'''
import matplotlib.pyplot as plt
# 取一张图片测试
img = mnist.train.images[2]
label = mnist.train.labels[2]

print('图像对应的标签{0}'.format(np.argmax(label)))

plt.figure()
#子图1
plt.subplot(1,2,1)
plt.imshow(img.reshape(28,28)) #显示的是热度图片
plt.axis('off')   #不显示坐标

#子图2
plt.subplot(1,2,2)
plt.imshow(img.reshape(28,28),cmap='gray')    #显示灰度图片
plt.axis('off')

plt.show()

'''
显示卷积和池化层结果
'''
plt.figure(figsize=(1.0*8,1.6*4))
plt.subplots_adjust(bottom=0,left=.01,right=.99,top=.90,hspace=.35)
'''
subplots_adjust(self, left=None, bottom=None, right=None, top=None, wspace=None, hspace=None)
left, right, bottom, top：子图所在区域的边界。
当值大于1.0的时候子图会超出figure的边界从而显示不全；值不大于1.0的时候，子图会自动分布在一个矩形区域（下图灰色部分）。
要保证left < right, bottom < top，否则会报错。
wspace, hspace：子图之间的横向和纵向间距
'''
#显示第一个卷积层之后的结果  (1,28,28,32)
conv1 = h_conv1.eval(feed_dict={x_:img.reshape([-1,784]),y_:label.reshape([-1,10]),keep_prob:1.0})
print('conv1 shape',conv1.shape)

for i in range(32):
    show_image = conv1[:,:,:,1]
    show_image.shape = [28,28]
    plt.subplot(4,8,i+1)
    plt.imshow(show_image,cmap='gray')
    plt.axis('off')
plt.show()


plt.figure(figsize=(1.2*8,2.0*4))
plt.subplots_adjust(bottom=0,left=.01,right=.99,top=.90,hspace=.35)
#显示第一个池化层之后的结果  (1,14,14,32)
pool1 = h_pool1.eval(feed_dict={x_:img.reshape([-1,784]),y_:label.reshape([-1,10]),keep_prob:1.0})
print('pool1 shape',pool1.shape)

for i in range(32):
    show_image = pool1[:,:,:,1]
    show_image.shape = [14,14]
    plt.subplot(4,8,i+1)
    plt.imshow(show_image,cmap='gray')
    plt.axis('off')
plt.show()

最后，附上完整的代码和全部的解析

import tensorflow as tf
import numpy as np
# 导入数据
from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets('E:/program/tensorflow_learning/example/mnist_program/mnist',one_hot=True)
# 查看数据类型
print(type(mnist))
print('train image shape输入数据：',mnist.train.images.shape,'trian label shape:', mnist.train.labels.shape)#(55000, 784),(55000, 10)
print('val image shape:', mnist.validation.images.shape)#(5000, 784)
print('test image shape:', mnist.test.images.shape)#(10000, 784)

#设置tensorflow对GPU使用按需分配
config = tf.ConfigProto()
config.gpu_options.allow_growth = True
sess = tf.InteractiveSession(config=config)

def weight_variable(shape):
    # 使用正态分布初始化权值
    init = tf.truncated_normal(shape,stddev=0.1)
    '''
    tf.truncated_normal(shape, mean=0.0, stddev=1.0, dtype=tf.float32, seed=None, name=None) 
    shape表示一维的张量，也是输出的张量。
    mean是正态分布的均值
    stddev是标准差
    从截断的正态分布中输出随机值。 生成的值服从具有指定平均值和标准偏差的正态分布，如果生成的值大于平均值2个标准偏差的值则丢弃重新选择。
    在tf.truncated_normal中如果init的取值在区间（μ-2σ，μ+2σ）之外则重新进行选择。这样保证了生成的值都在均值附近
    '''
    return tf.Variable(init)
'''
tf.Variable(initializer,name),
参数initializer是初始化参数，
name是可自定义的变量名称
'''

def bias_variable(shape):
    init = tf.constant(0.1,shape=shape)
    '''
    tf.constant(value,dtype=None,shape=None,name='Const',verify_shape=False)
    创建一个常量tensor，按照给出value来赋值，可以用shape来指定其形状。value可以是一个数，也可以是一个list。 如果是一个数，那么这个常量中所有值的按该数来赋值。 
    如果是list,那么len(value)一定要小于等于shape展开后的长度。赋值时，先将value中的值逐个存入。如果len(value)小于shape展开后的长度，则全部存入value的最后一个值。
    详情指路：https://blog.csdn.net/csdn_jiayu/article/details/82155224
    '''
    return tf.Variable(init)

# 定义卷积层
def conv2d(x,w):
    return tf.nn.conv2d(x,w,strides=[1,1,1,1],padding='SAME')
'''
tf.nn.conv2d(input,filter,strides,padding,use_cudnn_on_gpu=None,name=None)
input:指定需要做卷积的输入图像，它要求是一个Tensor，具有[batch,in_height,in_width,in_channels]这样的形状(shape)，
具体含义是"训练时一个batch的图片数量，图片高度，图片宽度，图片通道数"，注意这是一个四维的Tensor，要求类型为float32或者float64.
filter：相当于CNN中的卷积核，它要求是一个Tensor，具有[filter_height,filter_width,in_channels,out_channels]这样的shape，
具体含义是"卷积核的高度，卷积核的宽度，图像通道数，滤波器个数"，要求类型与参数input相同。有一个地方需要注意，第三维in_channels，就是参数input中的第四维
strides：卷积时在图像每一维的步长，这是一个一维的向量，长度为4，与输入input对应，一般值为[1,x,x,1],x取步长。
padding：定义元素边框与元素内容之间的空间。string类型的量，只能是"SAME"和“VALID”其中之一，这个值决定了不同的卷积方式。"SAME"和“VALID”的不同详情指路 ：https://blog.csdn.net/wuzqChom/article/details/74785643
use_cudnn_on_gpu:bool类型，是否使用cudnn加速，默认是True.
name：指定名字
'''
def max_pooling(x):
    return tf.nn.max_pool(x,ksize=[1,2,2,1],strides=[1,2,2,1],padding='SAME')
'''
池化一般分为最大池化和平均池化
tf.nn.max_pool(input,ksize,strides,padding,name=None)
tf.nn.avg_pooll(input,ksize,strides,padding,name=None)
input：需要池化的输入，一般池化层接在卷积层后面，所以输入通常是feature map,依然是[batch,height,width,channels]这样的shape。
ksize：池化窗口的大小，取一个思维向量，一般是[1,height,width,1]，因为我们不想在batch和channels上做池化，所以这两个维度设为1.
strides：和卷积参数含义类似，窗口在每一个维度上滑动的步长，一般也是[1,stride,stride,1]。
padding：和卷积参数含义一样，也是"VALID"或者"SAME"。
该函数返回一个Tensor。类型不变，shape仍然是[batch,height,width,channels]这种形式。
池化层一般都是接在卷积层后面，用于减少参数矩阵的维度，从而减小最后全连接层的参数数目
'''

'''
在 MNIST 数据集中的每张图片由 28 x 28 个像素点构成, 每个像素点用一个灰度值表示.
在这里, 我们将 28 x 28 的像素展开为一个一维的行向量, 这些行向量就是图片数组里的行(每行 784 个值, 或者说每行就是代表了一张图片).
mnist 函数返回的第二个数组(labels) 包含了相应的目标变量, 也就是手写数字的类标签(整数 0-9).None的取值代表了batch的大小，数值不固定。
'''
x_ = tf.placeholder(tf.float32,[None,784])
y_ = tf.placeholder(tf.float32,[None,10])
'''
tf.placeholder(dtype, shape=None, name=None)
TensorFlow中的占位符，用于feed_dict传入外部数据。
这里None是随便传入几个样本，784是每一个样本有784列，这是确定的（因为用来训练的数据集为[55000,784]），每行代表一张图，用None代表你可以指定传入多少图。
下面的y也是这样，10代表10个类别
dtype:数据类型。
shape:数据的维度。默认为None，表示没有限制
name:名称
返回类型：Tensor
'''

# 将x_变为一个4d向量，其第2、第3维对应图片的高、宽，最后一维代表图片的颜色通道数
# (因为是灰度图所以这里的通道数为1，如果是rgb彩色图，则为3)。-1代表自动计算剩下的维度。在这里-1就是指
# 含有28x28x1向量的个数，具体多少个要看x_的输入，然后计算。详情指路：https://blog.csdn.net/qq_41424519/article/details/81778984
x = tf.reshape(x_,shape=[-1,28,28,1])


# 搭建第一层网络：它由一个卷积接一个max pooling完成。卷积在每个5x5的patch中算出
# 32个特征。卷积的权重张量形状是[5, 5, 1, 32]，前两个维度是patch的大小，接着是输入的通道数目，
# 最后是输出的通道数目。 而对于每一个输出通道都有一个对应的偏置量b。
# 32个过滤器，
w_conv1 = weight_variable([5,5,1,32])
b_conv1 = bias_variable([32])
h_conv1 = tf.nn.relu(conv2d(x,w_conv1)+b_conv1)
h_pool1 = max_pooling(h_conv1)
'''
卷积层：x输入为[-1,28,28,1]，经过32个过滤器，共享权重矩阵为1*5*5的卷积，且滑动步长为[1,1,1,1]，最后输出为[-1,28,28,32]，因为长和宽上的滑动步长为1，1
padding='SAME'，所以原图像的高宽不变为28，28.且经过32个过滤器，通道数变为32.
池化层：输入为：[-1,28,28,32]，滑动步长为[1,2,2,1]，长和宽上的步长为2，所以输出图像的长和宽减半，batch和channels都是1，不变。所以输出图像为[-1,14,14,32]

激活函数tf.nn.relu()
函数的目的是，将输入小于0的值赋值为0，输入大于0的值不变
'''

# 第二层网络的搭建，64个过滤器，共享权重矩阵为32*5*5
w_conv2 = weight_variable([5,5,32,64])
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1,w_conv2)+b_conv2)
h_pool2 = max_pooling(h_conv2)
'''
卷积层：x输入为[-1,14,14,32]，经过64个过滤器，共享权重矩阵为32*5*5的卷积，且滑动步长为[1,1,1,1]，最后输出为[-1,14,14,64]，因为长和宽上的滑动步长为1，1
padding='SAME'，所以原图像的高宽不变为28，28.且经过64个过滤器，通道数变为64.
池化层：输入为：[-1,14,14,64]，滑动步长为[1,2,2,1]，长和宽上的步长为2，所以输出图像的长和宽减半，batch和channels都是1，不变。所以输出图像为[-1,7,7,64]
'''

# 全连接层
# 现在，图片尺寸减小到7x7，我们加入一个有1024个神经元的全连接层，用于处理整个图片。我们把池化层输
# 出的张量reshape成一些向量，乘上权重矩阵，加上偏置，然后对其使用ReLU。
h_pool2_falt = tf.reshape(h_pool2,[-1,7*7*64])
w_h = weight_variable([7*7*64,1024])
b_h = bias_variable([1024])
hidden = tf.nn.relu(tf.matmul(h_pool2_falt,w_h) + b_h)
'''
h_pool2_falt的形状是[-1,7*7*64] ,w_h的形状为[7*7*64,1024],两者矩阵相乘之后的形状为[-1,1024]，这里-1的含义和前面相同
最终我们将会把每张图片提纯成一个[1,1024]向量，最终实现的转换为：
[batch,7,7,64]⇒[batch,1024] (batch代表个数)

tf.matmul(a, b, transpose_a=False, transpose_b=False, adjoint_a=False, adjoint_b=False, a_is_sparse=False, b_is_sparse=False, name=None) 
a: 一个类型为 float16, float32, float64, int32, complex64, complex128 且张量秩 > 1 的张量。
b: 一个类型跟张量a相同的张量。
其他的参数没用上就不一一介绍了
返回值： 一个跟张量a和张量b类型一样的张量且最内部矩阵是a和b中的相应矩阵的乘积。

卷积取的是局部特征，全连接就是把以前的局部特征重新通过权值矩阵组装成完整的图。
因为用到了所有的局部特征，所以叫全连接。
https://blog.csdn.net/m0_37407756/article/details/80904580
'''

keep_prob = tf.placeholder(tf.float32)
hidden_drop = tf.nn.dropout(hidden,keep_prob)
'''
tf.nn.dropout的作用为：
加入弃权，把部分神经元输出置为0,为了减少过拟合
使得输入矩阵，hidden中的元素随机变为0，概率大概为输入参数keep_prob
其余的元素的值变为element/keep_prob,变为 0的输出相当于我们所丢弃掉的结点，
这样在每次迭代完之后，都会更新我们的卷积神经网络，使得新的一部分结点在新的迭代中将会被 drop 掉，由此就实现了 dropout 过程。
'''

w_o = weight_variable([1024,10])
b_o = bias_variable([10])
output = tf.nn.softmax(tf.matmul(hidden_drop,w_o) + b_o)
'''
hidden_drop形状为[-1,1024]，w_o 形状为[1024，10]，所以矩阵乘法得出最后的out_put的形状为[-1，10]，它是一个行数未知列数为10矩阵

f.nn.softmax(logits,axis=None,name=None,dim=None)
logits：一个非空的Tensor。必须是下列类型之一：half， float32，float64
axis：将在其上执行维度softmax。默认值为-1，表示最后一个维度
name：操作的名称(可选)
dim：axis的已弃用的别名
返回：一个Tensor，与logits具有相同的类型和shape
通过Softmax回归，将logistic的预测二分类的概率的问题推广到了n分类的概率的问题
softmax的输出向量是概率，该样本属于各个类的概率，这里是十个类别0-9，每一列的数值代表该类别的概率。输出的向量的每个值的大小范围为0到1。
当一个样本经过softmax层并输出一个向量，会取这个向量中值最大的那个数的index作为这个样本的预测标签,
下文中的tf.argmax(pred , 1)就是取最大值操作
'''
# # 交叉熵评估代价，设置对数似然损失函数
cost = tf.reduce_mean(-tf.reduce_sum(y_*tf.log(output),axis=1))
'''
tf.log函数，这个函数完成了对张量所有元素依次求对数的功能

乘以y后，得到了一个n×m的二维矩阵，其中n为一个batch中样例的数量，m为分类的类别数量根据交叉熵公式，(可以理解为[-1，10])
应该将每行中的m个结果相加得到的所有样例的交叉熵，然后在取平均值，得到一个batch的平均交叉熵。

tf.reduce_sum(input_tensor,axis=None,keepdims=None,name=None,reduction_indices=None,keep_dims=None)
input_tensor：待求和的tensor;
reduction_indices：在以前版本中用来指定轴，已弃用;
有两个取值分别为0和1，通常用reduction_indices=[0]或reduction_indices=[1]来传递参数。
从上图可以看出，当等于0时，是纵向对矩阵求和，原来矩阵有几列就得到几个值；
相似地，当等于1时，是横向对矩阵求和；当省略参数时，默认对矩阵所有元素进行求和。
reduce_sum应该理解为压缩求和，用于降维，不懂指路：https://blog.csdn.net/lxg0807/article/details/74625861

tf.reduce_mean(input_tensor, axis=None, keep_dims=False, name=None, reduction_indices=None)
input_tensor： 输入的待降维的tensor
axis： 指定的轴，如果不指定，则计算所有元素的均值
keep_dims：是否降维度，默认False。设置为True，输出的结果保持输入tensor的形状，设置为False，输出结果会降低维度
name： 操作的名称
reduction_indices：在以前版本中用来指定轴，已弃用
tf.reduce_mean()函数用于计算张量tensor沿着指定的数轴（tensor的某一维度）上的平均值，
主要用作降维或者计算tensor（图像）的平均值。
指路：https://blog.csdn.net/qq_42847843/article/details/103515505
'''
train = tf.train.AdamOptimizer(0.0001).minimize(cost)
'''
0.0001是学习率
AdamOptimizer是TensorFlow中实现Adam算法的优化器。Adam即Adaptive Moment Estimation（自适应矩估计），
是一个寻找全局最优点的优化算法，引入了二次梯度校正。Adam 算法相对于其它种类算法有一定的优越性，是比较常用的算法之一

minimize(loss,global_step=None, var_list=None,gate_gradients=GATE_OP,
aggregation_method=None,colocate_gradients_with_ops=False,name=None,
grad_loss=None)
主要的两个参数：
loss：构造优化的损失函数,类型Tensor
global_step：通常于学习率变化一起使用，可选变量，在变量更新后增加1。
minimize() 函数处理了梯度计算和参数更新两个操作
'''
correct = tf.equal(tf.argmax(output,1),tf.argmax(y_,1))
'''
预测类别是否与真实类别相等
equal(x, y, name=None)
判断x, y 是不是相等，它的判断方法不是整体判断，而是逐个元素进行判断，如果相等就是True，不相等，就是False。

tf.argmax(input, axis=None, name=None, dimension=None)
    此函数是对矩阵按行或列计算最大值，输出最大值的下标,也就是概率最大的类别
    input：输入Tensor
    axis：0表示按列，1表示按行
    name：名称
    dimension：和axis功能一样，默认axis取值优先。新加的字段
    返回：Tensor 一般是行或列的最大值下标向量
'''
#求准确率
accuracy = tf.reduce_mean(tf.cast(correct,tf.float32))
'''
   cast(x,dtype,name=None)将x的数据格式转化成dtype数据类型
'''
training_accuracy_list = []
test_accuracy_list = []
training_cost_list=[]
test_cost_list = []

#使用会话执行图
sess.run(tf.global_variables_initializer())#初始化变量

#开始迭代 使用Adam优化的随机梯度下降法
for i in range(5000):
    # 一个epoch需要迭代次数计算公式：测试集长度 / batch_size
    x_batch,y_batch = mnist.train.next_batch(batch_size = 64)
    '''
               mnist.train.next_batch是专门用于由tensorflow提供的MNIST教程的函数。
               它的工作原理是在开始时将训练图像和标签对随机化，并在每次调用该函数时选择每个随后的batch_size张图像。
               一旦到达末尾，图像标签对将再次随机分配，并重复该过程。仅在使用所有可用对后，才重新组合和重复整个数据集。
    '''
    #开始迭代,喂入数据
    train.run(feed_dict={x_:x_batch,y_:y_batch,keep_prob:1.0})
    if (i+1)%200 == 0:
        training_accuracy,training_cost = sess.run([accuracy,cost],feed_dict={x_:x_batch,y_:y_batch,keep_prob:1.0})
        training_accuracy_list.append(training_accuracy)
        training_cost_list.append(training_cost)
        print('Step{0}:Training set accuracy {1},cost {2}'.format(i+1,training_accuracy,training_cost))

#全部训练完成后做测试  分成200次，一次测试50个样本
#输出测试机准确率   如果一次性全部做测试，内容不够用会出现OOM错误。所以测试时选取比较小的mini_batch来测试
#test_accuracy = accuracy.eval(feed_dict={x_:mnist.test.images,y_:mnist.test.labels})
for i in range(200):
    x_batch,y_batch = mnist.test.next_batch(batch_size = 50)
    test_accuracy,test_cost = sess.run([accuracy,cost],feed_dict={x_:x_batch,y_:y_batch,keep_prob:1.0})
    test_accuracy_list.append(test_accuracy)
    test_cost_list.append(test_cost)
    if (i+1)%200==0:
        print('Step{0}:Training set accuracy {1},cost {2}'.format(i + 1, test_accuracy, test_cost))
print('Test accuracy:',np.mean(test_accuracy_list))



'''
图像操作
'''
import matplotlib.pyplot as plt
# 取一张图片测试
img = mnist.train.images[2]
label = mnist.train.labels[2]

print('图像对应的标签{0}'.format(np.argmax(label)))

plt.figure()
#子图1
plt.subplot(1,2,1)
plt.imshow(img.reshape(28,28)) #显示的是热度图片
plt.axis('off')   #不显示坐标

#子图2
plt.subplot(1,2,2)
plt.imshow(img.reshape(28,28),cmap='gray')    #显示灰度图片
plt.axis('off')

plt.show()

'''
显示卷积和池化层结果
'''
plt.figure(figsize=(1.0*8,1.6*4))
plt.subplots_adjust(bottom=0,left=.01,right=.99,top=.90,hspace=.35)
'''
subplots_adjust(self, left=None, bottom=None, right=None, top=None, wspace=None, hspace=None)
left, right, bottom, top：子图所在区域的边界。
当值大于1.0的时候子图会超出figure的边界从而显示不全；值不大于1.0的时候，子图会自动分布在一个矩形区域（下图灰色部分）。
要保证left < right, bottom < top，否则会报错。
wspace, hspace：子图之间的横向和纵向间距
'''
#显示第一个卷积层之后的结果  (1,28,28,32)
conv1 = h_conv1.eval(feed_dict={x_:img.reshape([-1,784]),y_:label.reshape([-1,10]),keep_prob:1.0})
print('conv1 shape',conv1.shape)

for i in range(32):
    show_image = conv1[:,:,:,1]
    show_image.shape = [28,28]
    plt.subplot(4,8,i+1)
    plt.imshow(show_image,cmap='gray')
    plt.axis('off')
plt.show()


plt.figure(figsize=(1.2*8,2.0*4))
plt.subplots_adjust(bottom=0,left=.01,right=.99,top=.90,hspace=.35)
#显示第一个池化层之后的结果  (1,14,14,32)
pool1 = h_pool1.eval(feed_dict={x_:img.reshape([-1,784]),y_:label.reshape([-1,10]),keep_prob:1.0})
print('pool1 shape',pool1.shape)

for i in range(32):
    show_image = pool1[:,:,:,1]
    show_image.shape = [14,14]
    plt.subplot(4,8,i+1)
    plt.imshow(show_image,cmap='gray')
    plt.axis('off')
plt.show()

如有错误，欢迎指出，大家一起进步。

你可能感兴趣的:(深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，