雾雨霜星

循环神经网络

Time：2021-07-16

Author：雾雨霜星

我的网站：雾雨霜星

前言

开始学习新的神经网络算法了，循环神经网络。越来越多的实践，我却从中越来越感到自己不懂编程，或许是我不够聪明，或许是我不适合从事这样的工作？居然会从中稍微感到失落。

本文主要记录了我使用Tensorflow的Keras接口训练循环神经网络的过程。

循环神经网络原理

RNN定义

循环神经网络(RNN，Recurrent Neutral Network）：每次输入的计算结果都与之前的计算有关，这样的神经元构成的神经网络。

以上是我想到的暂时对RNN比较好的一个概括方法。

Keras官方文档给出的RNN定义：

Recurrent neural networks (RNN) are a class of neural networks that is powerful for modeling sequence data such as time series or natural language.
Schematically, a RNN layer uses a for loop to iterate over the timesteps of a sequence, while maintaining an internal state that encodes information about the timesteps it has seen so far.
翻译：
RNN是一类对时间序列或自然语言等序列数据建模功能强大的神经网络。
示意图上，RNN层使用for循环在序列的时间步上迭代，同时保持一个内部状态，该状态对迄今为止看到的时间步信息进行编码。

应用数据对象

RNN应用对象：序列数据(2D张量)，[timesteps, feature]。每条输入数据的第一个维度代表了时间步，第二维度代表特征。

文本数据的序列形式：对于一条字符串文本，进行数据处理后得到形式为序列的数据。即每个字符占一行，每行是该字符的特征形式，这种特征形式可以是以one-hot编码得到的二进制序列，也可以是通过使用词嵌入得到的密集向量，例如：

以一条文本数据为例子：
数据："Hey，Hello world！"
1.分词为 "Hey"、"Hello"、"World"
2.对每个词进行编码：
2-1.one-hot编码："Hey"=[1,0,0],"Hello"=[0,1,0],"World"=[0,0,1]
2-2.词嵌入编码："Hey"=[12,2.2,0,3],"Hello"=[0.1,2,3.2,44],"World"=[0.9,32,13,0.44]
3.转化："Hello world" = [[1,0,0],[0,1,0],[0,0,1]] / [[12,2.2,0,3],[0.1,2,3.2,44],[0.9,32,13,0.44]]
可见:文本数据转化为了序列数据，其中第一维度可以认为是“时间步”(人眼进行阅读看到单词的先后)，第二维度是“特征”(描述字符的方法)

实现原理

实现RNN的关键是每个神经元的实现，神经元需要具备以下两个特征：

每次计算输出的结果都要记录(不一定是输出结果，可以是计算过程中某个量)
每次计算使用此次输入值和上次或之前计算的"记录值"

简单的RNN神经元计算方法如下：
$O_t=g(V \cdot S_t)\\ S_t=f(W \cdot X_t+U \cdot S_{t-1})$
其中O(t)代表了t时刻输入下的输出结果。

可以认为是一种环形的结构，即输出量(或可以反应输出的计算过程量)会反馈进入输入中。

最基本的RNN，本质就是一个具有units个神经元，且可以记录每次计算状态量的隐藏层。对于输入维度为n，时间序列长度为T的数据。总共计算T次，每次计算是对第t(t

输出

Keras官方文档对RNN基类的输出描述如下：

Output shape:

* If return_state: 
a list of tensors. The first tensor is the output. The remaining tensors are the last states, each with shape [batch_size, state_size], where state_size could be a high dimension tensor shape.

* If return_sequences: 
N-D tensor with shape [batch_size, timesteps, output_size], where output_size could be a high dimension tensor shape, or [timesteps, batch_size, output_size] when time_major is True.

Else, N-D tensor with shape [batch_size, output_size], where output_size could be a high dimension tensor shape.

return_state、return_sequences两个参数一般在使用时都不会进行设置，默认为False。此时的返回是：[batch_sizem, units]。仅返回最后一个时间序列输入计算得到的结果。

如果设置了return_sequences=True，那么会得到[batch_sizem, timesteps，units]，即每个时间序列的输出组合。

对于每个输入RNN的样本，基础的RNN模型，对此时间序列长度为timesteps的样本计算timesteps次，每次得到一个输出yt，组合起来就得到了timesteps个yt，而每个yt的维度，取决于参数units，此units为隐藏层神经元的个数。

在初始化时就需要指定units的大下，以keras的API为例子：

layer = tensorflow.keras.layers.LSTM(units=16)

对[timesteps, feature]样本，每个时间点数据为features维度向量进行全连接计算得到units维向量，计算timesteps次就得到了[timesteps, units]。

RNN的训练方法

采用基于时间步的反向传播算法(BPTT)进行训练(更新参数)。

BPTT：Back-Propagation Through Time。使用链式法则进行反向传播时，对计算St的式子中的参数矩阵进行更新，求导时会涉及到上一时刻状态量，因此在链式法则中需要不断顺着t进行求导直至t=0。

多元函数链式法则(乘法求导)：

多元函数链式法则的乘法求导应该描述如下：
$y=Y[f(x_1, x_2)]\quad f(x_1, x_2)=g_1(x_1, x_2)\cdot g_2(x_1, x_2)\\ \frac{\partial y}{\partial x_1}=\frac{\partial y}{\partial f}\frac{\partial f}{\partial g_1}\frac{\partial g_1}{\partial x_1}+\frac{\partial y}{\partial f}\frac{\partial f}{\partial g_2}\frac{\partial g_2}{\partial x_1}$

上述的描述方法的认识非常重要，对于后面BPTT的推导，由此可以得到最为普遍的形式。

而我之前一直没有推导出来，就是因为对这一步的认识不够清晰。

BPTT

假设总的误差函数为L，每个时刻计算所得输出Ot的误差函数Lt。

由上述的RNN前向传播的方程，如下：
$O_t=g(V \cdot S_t)\\ S_t=f(W \cdot X_t+U \cdot S_{t-1})\\ Z_t=W \cdot X_t+U \cdot S_{t-1}$
设L为误差函数，则可根据不同时刻的输出进行分解：
$L=\sum_{t=0}^{T} L_t\\ \frac{\partial L}{\partial U}=\sum_{t=0}^{T}\frac{\partial L_t}{\partial U}\\$

其中不同时刻的误差函数对参数U的求导，需要回溯到之前时刻的数据。这是因为U参数不仅仅表现与此次St的更新，对St-1也有影响，即St-1是U的函数。

考虑简单的状况，先考虑L3下的对U参数求导，使用链式法则可以得到：
$\frac{\partial L_3}{\partial U}=\frac{\partial L_3}{\partial O_3}\frac{\partial O_3}{\partial U}=\frac{\partial L_3}{\partial O_3}\frac{\partial O_3}{\partial S_3}\frac{\partial S_3}{\partial U} + \frac{\partial L_3}{\partial O_3}\frac{\partial O_3}{\partial S_3}\frac{\partial S_3}{\partial S_2}\frac{\partial S_2}{\partial U} + \frac{\partial L_3}{\partial O_3}\frac{\partial O_3}{\partial S_3}\frac{\partial S_3}{\partial S_2}\frac{\partial S_2}{\partial S_2}\frac{\partial S_1}{\partial U}$
这里没有把Zt展开，代入也是一样的：
$\frac{\partial S_3}{\partial U}=\frac{\partial S_3}{\partial Z_3}\frac{\partial Z_3}{\partial U}\\ \frac{\partial S_3}{\partial S_2}\frac{\partial S_2}{\partial U}=\frac{\partial S_3}{\partial Z_3}\frac{\partial Z_3}{\partial S_2}\frac{\partial S_2}{\partial Z_2}\frac{\partial Z_2}{\partial U}$
至于Zt对U的求导，那是详细的展开了。

需要注意的是，这里已经应用了求导法则，在具体的求导时无需再分步骤求导。即这里已经将Zt中的U和St-1分开了，所以计算方法如下：
$\frac{\partial Z_3}{\partial U}=S_2\quad \frac{\partial Z_3}{\partial S_2}=U$
而我以前就因为没有区分好这个步骤而一直没有推导到最后。

由此，可以总结得到：
$\frac{\partial L_t}{\partial U}=\sum_{k=1}^{t}\frac{\partial L_t}{\partial O_t}\frac{\partial O_t}{\partial S_t}(\prod_{j=k+1}^{t}\frac{\partial S_j}{\partial S_{j-1}})\frac{\partial S_k}{\partial U}$
同理，参数W的更新公式在形式上与该公式是一样的，不同的是具体的链式法则最后项求导展开细节。

认识到上述公式这一步非常重要！

我曾经推导多次无果，是因为我没有正确使用链式法则，没有连接到最终的参数就直接展开了。主要是，应该说我不懂链式法则中的乘法求导吧，居然是分开各自相加。所有之前一直推导不到常见的形式。

曾经的推导如下：

根据导数的乘法法则：
$uv)^{'}=(u^{'})v+u(v^{'})$
计算中，Zt内包含U和St-1，St-1是一个关于参数U的函数，因此：
$\frac{\partial Z_t}{\partial U}=\frac{\partial U}{\partial U}S_{t-1}+U\frac{\partial S_{t-1}}{\partial U}\\ \frac{\partial S_{t-1}}{\partial U}=\frac{\partial S_{t-1}}{\partial Z_{t-1}}\frac{\partial Z_{t-1}}{\partial U}=\frac{\partial S_{t-1}}{\partial Z_{t-1}}(\frac{\partial U}{\partial U}S_{t-2}+\frac{\partial S_{t-2}}{\partial U}U)$
由于我在这里直接用具体的展开，没有使用链式法则的乘法求导，所有没有得到普遍的形式。

梯度消失与梯度爆炸

从上述参数U更新的公式来看：
$\frac{\partial L_t}{\partial U}=\sum_{k=1}^{t}\frac{\partial L_t}{\partial O_t}\frac{\partial O_t}{\partial S_t}(\prod_{j=k+1}^{t}\frac{\partial S_j}{\partial S_{j-1}})\frac{\partial S_k}{\partial U}$
其中有又一个连乘项，展开可以得到：
$\prod_{j=k+1}^{t}\frac{\partial S_j}{\partial S_{j-1}}=\prod_{j=k+1}^{t}\frac{\partial S_j}{\partial Z_j}\frac{\partial Z_j}{\partial S_{j-1}}$
通常在RNN中使用的是tanh激活函数，即上述公式中，f=tanh，而tanh函数其中一个特点是导数小于1。大多数的激活函数导数都是小于1的。

由于普通RNN中连乘项不会被消去，因此随着深度的增加，会连乘激活函数的导数。

连乘小于1的数，可以看做是幂级别的计算，使得梯度变得很小，几乎接近于0。这就是梯度消失。

实际上，若参数U非常大，tanh或许会无限接近1，但是此时参数U已经非常大了，连乘小梯度会趋于无穷，从而引起梯度爆炸。

避免梯度消失和梯度爆炸较好的方法是使用LSTM或者GRU，本质就是引入门控制，使得连乘项接为0或者为1。

LSTM

LSTM：Long Short-Term Memory Network，长短时记忆网络。

相对于普通的RNN，LSTM增加了一个信息传送通道，这条信息通道模拟"遗忘"、“记忆”、"输出"三个阶段。
$z_f=sigmoid(W_f\cdot [h_{t-1},X_t]+b_f)\\ z_i=sigmoid(W_i\cdot [h_{t-1},X_t]+b_i)\\ z_o=sigmoid(W_o\cdot [h_{t-1},X_t]+b_o)\\ z=sigmoid(W\cdot [h_{t-1},X_t]+b)\\ c_t=z_f\odot c_{t-1}+z_i\odot z\\ h_t=z_o\odot tanh(c_t)\\ y_t=\sigma(W_y\cdot h_t)$
⊙是Hadamard Product，矩阵中对应的元素相乘。

其中的zf，zi，zo分别代表了遗忘门、输入门、输出门，他们的值都是0或者1。

执行流程如下：

使用遗忘门zf计算是否需要遗忘上一次的元状态ct-1，使用输入门zi计算是否需要记录本次学习z。
上述计算结果的两者结合得到新的元状态。
使用tanh是对当前元状态ct进行数据缩放。
使用输出门zo决定是否需要输出本次元状态ct的信息ht。
获取输出为yt。

可见，LSTM不仅沿着时间传递输出计算状态(以hidden_state为载体)，还传递了一个cell_state，可以理解为：hidden_state代表了近期记忆，而cell_state则代表了远期记忆。

LSTM通过使用遗忘门和输出门，使得在参数更新过程中，连乘项ht对ht-1的偏导ct对ct-1的偏导，变为0或者1，从而避免梯度消失和梯度爆炸。

GRU

GRU：Gate Recurrent Unit。门控循环单元。

也是为了解决RNN反向传播中的梯度等问题而提出来的变体。

优势：GRU内部结构相对于LSTM而言较为简单，其所需要的计算代价也更小。

GRU计算过程如下：
$Z_{reset}=sigmoid(W_r\cdot [h_{t-1},X_t]+b_r)\\ Z_{updata}=sigmoid(W_u\cdot [h_{t-1},X_t]+b_u)\\ h_{t-1}^{'}=h_{t-1}\odot Z_{reset}\\ h^{'}=tanh(W\cdot [h_{t-1}^{'},X_t]+b)\\ h_t=(1-Z_{updata})\odot h_{t-1}+Z_{updata}\odot h^{'}\\ y_t=\sigma(W_y\cdot h_t)$
详细原理论证可以参考：

Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling(arxiv.org)

数据导入与处理

使用的是IMBD的电影评论数据，每条评论数据被记录在一个txt文本文件中。数据的标签类型分为积极评价和消极评价两种。

数据来源：https://mng.bz./0tIo

数据集格式：有train和text两个文件夹，每个文件夹里面有pos和neg两个文件夹，其中每个文件夹里面又有许多txt文本文件。

数据处理的目标：将读入的字符串数据通过分词器转化为整数索引数据序列。

数据的导入和处理基本步骤：

读取数据集，得到记录各条文本数据的列表。同时按照来源制作标签列表
制作字典，得到全部文本数据中每个词对应一个数字的字典
按照字典，把原本的string格式数据转化为数字序列数据
对每个序进行填充，得到全部长度一样的序列
转化为numpy矩阵，且进行数据打乱
划分训练集和验证集

首先使用Python的os模型进行文件的获取，使用open方法打开文件，读取文件内容：

for type in ['pos', 'neg']:
    path = os.path.join(trainDataPath, type)
    for name in os.listdir(path):
        file = os.path.join(path, name)
        with open(file, errors='ignore') as f:
            trainData.append(f.read())
        if type == "pos":
            trainLabel.append(1)
        else:
            trainLabel.append(0)

其中trainDataPath是数据集train文件夹的路径，trainData和trainLabel是一个初始化时为空的列表。
注意，此处在读取文件时加上了errors='ignore’的属性，否则会报错：

'gbk' codec can't decode byte 0x93 in position 596: illegal multibyte sequen

猜测可能是出现了超出gbk编码的字符，在网上看到的方法都是加忽略错误属性。

然后是制作文本数据的字典：

# 训练词向量字典
from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=10000)
tokenizer.fit_on_texts(trainData)

其中的trainData就是上述读取数据得到的以string格式评论数据为元素的列表。

使用Keras的分词器(Tokenizer)，需要确定字词数量，也就是制作的字典中最多包含多少个字。

Tokenizer使用fit_on_texts方法完成字典的制作，输入的是相应的文本列表(每个元素是字符串)。

获取Keras分词器Tokenizer的字典：

tokenizer.word_index

返回得到一个字典，此字典是分词器的训练结果，键是相应的单词，值是单词对应的数字(int)。

然后是进行序列转化，即使用训练后的分词器，把字符串转化为数字序列：

train_sequence_r = tokenizer.texts_to_sequences(trainData)
test_sequence_r = tokenizer.texts_to_sequences(testData)

然后是进行数字序列的填充，使得所有序列数据的长度一致。使用Keras内置的方法：

from tensorflow.keras.preprocessing.sequence import pad_sequences
train_sequences = pad_sequences(tokenizer.texts_to_sequences(trainData), maxlen)
test_sequences = pad_sequences(tokenizer.texts_to_sequences(testData), maxlen)

再将标签列表转化为numpy矩阵，然后使用numpy的arange方法创建等差数组，让后使用numpy的random.shuffle方法将此等差数组打乱顺序，把此打乱顺序后的等差数组应用到numpy矩阵上:

import numpy
# 标签列表转化为numpy矩阵
trainLabel = numpy.asarray(trainLabel)
testLabel = numpy.asarray(testLabel)
# 训练集打乱
indices = numpy.arange(train_sequences.shape[0])
numpy.random.shuffle(indices)
train_sequences = train_sequences[indices]
trainLabel = trainLabel[indices]
# 测试集打乱
indices = numpy.arange(test_sequences.shape[0])
numpy.random.shuffle(indices)
test_sequences = test_sequences[indices]
testLabel = testLabel[indices]

最后划分验证集：

import math
# 划分验证集
trainSamplesCount = int(math.floor(train_sequences.shape[0] * 0.7))
train_data = train_sequences[:trainSamplesCount]
train_label = trainLabel[:trainSamplesCount]
val_data = train_sequences[trainSamplesCount:]
val_label = trainLabel[trainSamplesCount:]

嵌入层

词向量：在对文本数据进行分词后，可将每个单词映射为一个向量，这个向量即使词向量。

词嵌入：是密集的词向量，与one-hot编码不同，是低维的浮点数向量。

嵌入层(Embedding layer)：神经网络中用于训练词嵌入空间，将输入序列数据转化为密集向量数据的层。

官方文档对嵌入层的解释：

Turns positive integers (indexes) into dense vectors of fixed size.
翻译：将正整数（索引）转换为固定大小的密集向量。

从此定义可知，我们要对文本数据进行分词后，把每个词转化为整数索引，而每个文本序列数据变为整数序列数据，再使用嵌入层，得到密集词向量数据。这也是为什么前面数据处理，需要使用分词器Tokenizer，以及对序列进行填充。

并且该层只能是在神经网络的第一层进行使用。

可以使用外部已经预训练好的词嵌入空间，从而减少训练的任务量。著名的词嵌入空间是：word2vec和GloVe。

Embedding Layer

创建时需要确定三个参数：input_dim, output_dim, input_length

input_dim：输入序列的维度，即总共有多少个正整数索引值。

output_dim：输出序列的维度，即每个正整数索引值转化为密集向量的向量维度。

input_length：输入序列的长度。输入的序列是一个长度为input_length的一维numpy矩阵。

词嵌入空间的导入

下载词嵌入数据GloVe：glove.6B.zip

GloVe官网：GloVe: Global Vectors for Word Representation (stanford.edu)

下载后解压文件得到glove.6B.50d、glove.6B.100d、glove.6B.200d、glove.6B.300d四个文件，分别代表：50维度词嵌入空间、100维度词嵌入空间、200维度词嵌入空间、300维度词嵌入空间。

词嵌入空间的文本文件格式：每行记录一个单词的词向量，即：单词 + 词嵌入向量，使用空格隔开单词和每个维度的词向量值。

使用Python的open函数打开相应词嵌入空间文件，按照每行进行读取，使用分词器的字典对应起来每个词的整数索引和词向量：

def getEmbeddingMat(word_index):
    # 词嵌入字典，键为单词，值为对应词向量
    embedding_index = {}
    # 使用with形式的open方法打开文件
    with open(glove, errors='ignore') as f:
        for line in f: # 按行读取
            values = line.split() # 每一行使用split方法分开各个元素得到列表
            word = values[0] # 词嵌入空间的文本文件，每行第一个是单词
            embedding_index[word] = numpy.asarray(values[1:], dtype='float32')
    # 初始化词嵌入矩阵，用于后面给嵌入层设置参数
    max_word = 10000 # 对应上面的程序中Tokenizer(num_words=10000)
    embedding_matrix = numpy.zeros((max_word, embedding_dim))
    # 对分词器(Tokenizer)训练后所得的字典进行迭代。整数索引就是词嵌入矩阵的行，此行数据为该词对应的词向量。
    for word, i in word_index.items():
        if i < max_word:
            embedding_vector = embedding_index.get(word)
            if embedding_vector is not None: # 对于词嵌入空间中找不到的词，设置词向量全为0
                embedding_matrix[i] = embedding_vector
    return embedding_matrix

这里需要制作的是词嵌入矩阵embedding_matrix，每一行对应一个词语，每一行的长度即为词嵌入空间中每个词向量维度。

对词嵌入矩阵初始化时，大小设置为(max_word, embedding_dim)。max_word即分词器最大分词数，embedding_dim即词向量维度。

嵌入层加载GloVe嵌入空间

按照上面的步骤得到了词嵌入矩阵embedding_matrix。

这个词嵌入矩阵，每一行代表一个分词器所得的词，而行序号就是分词器制作的字典的整数索引，此行的数据就是该词在GloVe词嵌入空间中的词向量。

使用Keras.layers的set_weights方法设置层参数，而嵌入层的参数正是词嵌入矩阵。

from tensorflow.keras import Sequential
from tensorflow.keras import layers
model = Sequential()
# 添加嵌入层
model.add(layers.Embedding(input_dim=max_word, output_dim=embedding_dim, input_length=maxlen))
# 添加其它层
model.add(layers.Flatten())
model.add(layers.Dense(32, activation='relu'))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))
# 设置嵌入层的参数为词嵌入矩阵
model.layers[0].set_weights([embedding_matrix])
# 因为是外部导入的词向量空间，所以不用训练此嵌入层
model.layers[0].trainable = False

需要注意的是，set_weights必须在该层add进入model后才能正常使用。

如果按照如下的方法：

# 设置嵌入层
layer = layers.Embedding(input_dim=max_word, output_dim=embedding_dim, input_length=maxlen)
layer.set_weights([matrix])
layer.trainable = False
# 搭建模型
model = Sequential()
model.add(layer)
model.add(layers.Flatten())
model.add(layers.Dense(32, activation='relu'))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

会出现报错：

ValueError: You called set_weights(weights) on on layer “embedding” with a weight list of length 1, but the layer was expecting 0 weights

大概是和set_weights(weights)方法自身传入参数的过程有关。

Keras RNN API使用

Keras的循环神经网络API

在Keras的Layers API中，提供的循环神经网络层主要API有三种：

SimpleRNN
GRU
LSTM

SimpleRNN是由最基本的RNN神经元构成的Layer。

此外Keras还提供了各种循环神经元，包括SimpleRNNCell、GRUCell、LSTMCell，可以直接使用神经元自己设计层。

使用SimpleRNN

主程序如下：

from RNN import data
from RNN import model
from matplotlib import pyplot as plt

if __name__ == '__main__':
    train_data, train_label, val_data, val_label, test_data, test_label, word_index = data.getData()
    embedding_matrix = data.getEmbeddingMat(word_index=word_index)
    model = model.getModel(data.max_word, data.embedding_dim, data.maxlen, embedding_matrix)

    model.compile(optimizer='rmsprop',
                  loss='binary_crossentropy',
                  metrics=['acc'])

    history = model.fit(train_data, train_label,
                        epochs=12,
                        batch_size=32,
                        validation_data=(val_data, val_label))

    acc = history.history['acc']
    val_acc = history.history['val_acc']
    loss = history.history['loss']
    val_loss = history.history['val_loss']

    epochs = range(1, len(acc) + 1)

    plt.figure(figsize=(12, 4))
    plt.subplot(1, 2, 1)

    plt.plot(epochs, acc, 'bo', label='Training acc')
    plt.plot(epochs, val_acc, 'b', label='Validation acc')
    plt.title("Training and Validation accuracy")
    plt.xlabel('Epoch')
    plt.ylabel('Value')
    plt.legend()
    plt.subplot(1, 2, 2)
    plt.plot(epochs, loss, 'bo', label='Training loss')
    plt.plot(epochs, val_loss, 'b', label='Validation loss')
    plt.title("Training and Validation loss")
    plt.xlabel('Epoch')
    plt.ylabel('Value')
    plt.legend()
    plt.show()

在getData函数中获取训练集、验证集和测试集，全部都是已经进行数据处理，从字符序列转化为了数字序列且进行了填充，同时还获取了Keras分词器得到的字典，用于输入getEmbeddingMat函数中获取指定词嵌入向量空间的词嵌入矩阵。

getModel函数获取训练的模型后，与以往使用全连接神经网络的做法一样，进行model的编译后训练即可。

以下为data.py的程序：

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy
import math
import os

# 训练集样本位置
trainDataPath = 'E:/MLTrainingData/IMDB-FilmReviewTextData/maindata/train'
# 测试集样本位置
testDataPath = 'E:/MLTrainingData/IMDB-FilmReviewTextData/maindata/test'
# 词嵌入文件的位置
glove = 'E:/MLTrainingData/词向量模型/glove.6B.100d.txt'
# 数据集的分类
dataType = ['pos', 'neg']
# 序列的最长长度
maxlen = 200
# 字典最大词汇量
max_word = 10000
# 训练集数据所占总数据量比例
TrainSamplesScale = 0.7
# 词向量的维度
embedding_dim = 100


# 读取数据集
# Return：train_data, train_label, val_data, val_label, test_sequences, testLabel, tokenizer.word_index
# train_data：训练集数据(Numpy矩阵)；train_label：训练集标签(Numpy矩阵)
# tokenizer.word_index：分词器字典
def getData():
    trainData = []
    trainLabel = []
    testData = []
    testLabel = []
    for t in dataType:
        path = os.path.join(trainDataPath, t)
        for name in os.listdir(path):
            file = os.path.join(path, name)
            with open(file, errors='ignore') as f:
                trainData.append(f.read())
            if t == "pos":
                trainLabel.append(1)
            else:
                trainLabel.append(0)
    for t in dataType:
        path = os.path.join(testDataPath, t)
        for name in os.listdir(path):
            file = os.path.join(path, name)
            with open(file, errors='ignore') as f:
                testData.append(f.read())
            if t == "pos":
                testLabel.append(1)
            else:
                testLabel.append(0)
    # 训练词向量字典
    tokenizer = Tokenizer(num_words=max_word)
    tokenizer.fit_on_texts(trainData)
    # 序列数据填充使得全部序列数据长度一样
    train_sequences = pad_sequences(tokenizer.texts_to_sequences(trainData), maxlen)
    test_sequences = pad_sequences(tokenizer.texts_to_sequences(testData), maxlen)
    # 标签列表转化为numpy矩阵
    trainLabel = numpy.asarray(trainLabel)
    testLabel = numpy.asarray(testLabel)
    # 训练集打乱
    indices = numpy.arange(train_sequences.shape[0])
    numpy.random.shuffle(indices)
    train_sequences = train_sequences[indices]
    trainLabel = trainLabel[indices]
    # 测试集打乱
    indices = numpy.arange(test_sequences.shape[0])
    numpy.random.shuffle(indices)
    test_sequences = test_sequences[indices]
    testLabel = testLabel[indices]
    # 划分验证集
    trainSamplesCount = int(math.floor(train_sequences.shape[0] * TrainSamplesScale))
    train_data = train_sequences[:trainSamplesCount]
    train_label = trainLabel[:trainSamplesCount]
    val_data = train_sequences[trainSamplesCount:]
    val_label = trainLabel[trainSamplesCount:]
    # 返回得到 训练集、验证集、测试集
    return train_data, train_label, val_data, val_label, test_sequences, testLabel, tokenizer.word_index


# 读取词嵌入文件
# Input：word_index
# word_index：分词器字典。键是相应的单词，值是单词对应的数字(int)。
# Return：embedding_matrix
# embedding_matrix:词嵌入矩阵。每一行对应一个词语，行序号即为word_index中相应键(单词)的值(序号)。
def getEmbeddingMat(word_index):
    embedding_index = {}
    with open(glove, errors='ignore') as f:
        for line in f:
            values = line.split()
            word = values[0]
            embedding_index[word] = numpy.asarray(values[1:], dtype='float32')
    embedding_matrix = numpy.zeros((max_word, embedding_dim))
    for word, i in word_index.items():
        if i < max_word:
            embedding_vector = embedding_index.get(word)
            if embedding_vector is not None:
                embedding_matrix[i] = embedding_vector
    return embedding_matrix

以下为model.py的程序：

from tensorflow.keras import Sequential
from tensorflow.keras import layers


def getModel(max_word, embedding_dim, maxlen, matrix):
    # 搭建模型
    model = Sequential()
    model.add(layers.Embedding(input_dim=max_word, output_dim=embedding_dim, input_length=maxlen))
    # model.add(layers.SimpleRNN(32, return_sequences=True, dropout=0.5))
    # model.add(layers.SimpleRNN(32, return_sequences=True, dropout=0.5))
    model.add(layers.SimpleRNN(32))
    model.add(layers.Dense(1, activation='sigmoid'))
    model.layers[0].set_weights([matrix])
    model.layers[0].trainable = False
    return model

其中提供给layers.SimpleRNN的输入参数是指多少个RNN神经元，即深度。该参数决定了输出张量的长度。

注意，如果是使用多层RNN的时候，需要设置参数return_sequences=True，否则会报错。这是因为SimpleRNN层默认输出的是最后一次(最后时刻)输入得到的计算结果。设置该参数后，会将之前每一时刻输入计算得到的值也放到层的输出中。

而参数dropout则用于设置防止过拟合。

另外需要说明的是，Keras提供的RNN Layer API有两个dropout参数：

dropout：对应用在输入上的线性变换矩阵的参数丢失率

Fraction of the units to drop for the linear transformation of the inputs. Default: 0.

recurrent_dropout：对应用在循环状态上的线性变换矩阵的参数丢失率

Fraction of the units to drop for the linear transformation of the recurrent state. Default: 0.

模型结构与各层输出

在模型的搭建中，Dense层直接放在了SimpleRNN层后面。通过model.summary可以看到：

Model: “sequential”

Layer (type) Output Shape Param #

embedding (Embedding) (None, 200, 100) 1000000

simple_rnn (SimpleRNN) (None, 32) 4256

dense (Dense) (None, 1) 33

可见simple_rnn 输出是一个2D张量(包括batch_size)，考虑到每时刻输入数据是一个高维行向量(每个时刻输入某个字符而该字符数字序列维度即前一层词嵌入空间的维度)，可以理解为在上述描述RNN的基本公式中，V矩阵最终是一个行向量，从而输出得到1D张量，因此整个batch是一个2D张量。

而通过使用词嵌入，每条被转化为数字序列的评论数据，都变为一个2D张量(200×100矩阵)。

使用LSTM与GRU

LSTM和GRU本质只是和SimpleRNN的神经元在传输通道上存在差异，而它们同属于RecurrentLayer，使用方法是一样的。

因此，使用LSTM只需要在上述模型中修改如下：

# model.add(layers.SimpleRNN(32))
model.add(layers.LSTM(32))

同理，使用GRU也只需要修改add中调用的layersAPI：

# model.add(layers.SimpleRNN(32))
model.add(layers.GRU(32))

其余地方完全一致都行。

return_state参数的意义

对于layers.SimpleRNN、layers.LSTM、layers.GRU三个API，均有一个可选的参数return_state可调用，通常默认值为False。

调用：

# 函数式API,调用相应神经网络层
layer_input = layers.InputLayer(3, 3)
layer = layers.LSTM(16, return_state=True)

文档的解释：

return_state	Boolean. Whether to return the last state in addition to the output. Default: False.

如果设置为True，那么在计算后不仅会返回输出结果，还会返回RNN的状态，对于LSTM与GRU而言，会返回hidden_state与cell_state。

从tensorflow.keras.layers.LSTM源码可见：

    ......
        # Under eager context, check the device placement and prefer the
        # GPU implementation when GPU is available.
        if can_use_gpu:
          last_output, outputs, new_h, new_c, runtime = cudnn_lstm(
              **cudnn_lstm_kwargs)
        else:
          last_output, outputs, new_h, new_c, runtime = standard_lstm(
              **normal_lstm_kwargs)
      else:
        (last_output, outputs, new_h, new_c,
         runtime) = lstm_with_backend_selection(**normal_lstm_kwargs)
        
        states = [new_h, new_c]
    
    ......

    if self.return_state:
      return [output] + list(states)
    elif self.return_runtime:
      return output, runtime
    else:
      return output

其中new_h即最终的hidden_state(ht)，而new_c是最终的cell_state(ct)。对应了LSTM模型计算公式：
$h_t=z_o\odot tanh(c_t)$
经过检验可以确定，keras API下hidden_state就是RNN的t时刻的输出，即yt=ht。

训练结果性能简单比较

使用IMDB电影评论数据，使用100维度的GloVe预训练词嵌入空间。

分布使用SimpleRNN、LSTM、GRU训练12轮，得到效果如下：

SimpleRNN
loss: 0.5342 - acc: 0.7394 - val_loss: 0.5275 - val_acc: 0.7545

LSTM
loss: 0.2311 - acc: 0.9081 - val_loss: 0.3369 - val_acc: 0.8609

GRU
loss: 0.2051 - acc: 0.9193 - val_loss: 0.3631 - val_acc: 0.8632

SimpleRNN的训练参数是最少的，但是训练的速度却是最慢的。LSTM和GRU的训练速度明显比SimpleRNN的好很多，训练也比较快。至于为什么我现在都还没有想明白。

尽管只训练了12轮，但是从绘制的曲线来看，他们的过拟合在第10/11轮左右就开始体现了。

其实这个训练效果并不是很好，书上说这是因为这个分类任务交给全连接神经网络更加合适，而RNN更加适合分析序列的长期性结构，对情感分类帮助不大。

RNN实践：德国耶拿研究所气象数据预测

数据集来源：https://s3.amazonaws.com/keras-datasets/jena_climate_2009_2016.csv.zip

回归任务

通过一段时间的气象数据，来预测指定延后时间的气象温度。

数据集分析

数据集文件在Windows系统中可以使用Excel打开。

共有420452行15列，每一行是一个时刻记录的各种气象指标数据，第一列是时间，其余列是各种气象指标(14种)。

从时间列的变化来看可知，气象数据每10min记录一次，是2009-2016年间记录的全部数据。

数据生成迭代器

类似于使用Keras的preprocessing.image_dataset_from_directory，使用一个迭代器每次获取一个batch的数据，而不是将数据全部载入(这次使用的数据相当于420452*15的浮点数矩阵)

每次读取数据都要考虑需要回溯之前时间的数据，而目标值是最后读到的样本数据的延后指定时间的数据。

我自己写的迭代器，是通过外面指定相应的索引值，生成随机数序列，用于从指定索引值范围内打乱数据，从csv文件中读取。

代码如下：

def generator(data, back, indices_base=None, step=1, min_index=0, max_index=0, delay=0, batch_size=64, shuffle=True,
              predict_data_index=1):
    """
    德国耶拿气象站序列数据生成迭代器\n
    :param data: 德国耶拿气象站数据numpy矩阵形式(行:每10min记录的数据,列:被记录的气象特征)
    :param back: 回溯的数据,即每条样本的数据应该最大回溯到最初的数据数
    :param indices_base: 外部提供使用样本数据顺序索引列表
    :param step: 观测步长,即在每多少条数据中取一次数据到样本
    :param min_index: 取data中数据的起始index
    :param max_index: 取data中数据的终止index
    :param delay: 目标延后,即需要预测的目标在当前数据延迟几条数据(多少个10min)后
    :param batch_size: 每次迭代输出数据批量大小
    :param shuffle: 是否打乱数据顺序
    :param predict_data_index: 目标的气象数据类型索引(默认为温度数据)
    :return:迭代器
    """

    # 参数判断
    if min_index < 0:
        start = back
    else:
        start = min_index + back
    if max_index <= 0:
        end = data.shape[0] - delay + 1  # 考虑到range(start, end)不会取到end,故取值加1
    else:
        end = max_index - delay + 1
    if end >= data.shape[0]:
        end = data.shape[0] - delay + 1
    if start <= 0:
        start = back

    # 设置打乱或者不打乱数据下的数据获取顺序
    if shuffle:
        # 获取数据范围内的随机数序列
        indices = random.sample(list(range(start, end)), end - start)  # 注意范围是start<=x
        # 查看是否有索引指示列表
        if indices_base is not None and type(indices_base) is list:
            indices = indices_base
    else:
        # 不用打乱,则顺序读取(每次读取的数据区域不会重叠,若考虑重合则将back去掉)
        indices = list(range(start, end, back))  # 注意范围是start<=x
        print(len(indices))

    # 设置迭代器获取数据序号所到的index
    iter_index = 0

    # 迭代器循环
    while True:
        # 迭代器每次取数据获得数据样本
        samples = np.zeros((batch_size, math.ceil(back / step), data.shape[-1]))  # 还是需要向上取整,主要是对不能整除的状况的考虑
        targets = np.zeros((batch_size,))
        # 迭代器每次取数据所取数据的行序号列表
        indices_batch = indices[iter_index:iter_index + batch_size]
        # 更新每次取数据后的获取数据所到的index
        iter_index = iter_index + batch_size
        # 如果已经取完了一次数据,那么置零重新开始
        if iter_index + batch_size >= len(indices):
            iter_index = 0
        # 制作数据样本
        for i, indices_num in enumerate(indices_batch):
            # samples[i]对应的数据是csv文件中的excel序号:indices_num-back+2行,到indices_num+1行
            # 例如1:11:2,取值1,3,5,7,9;对应原csv文件的3,5,7,9,11行的数据
            data_index_list = list(range(indices_num - back, indices_num, step))
            samples[i] = data[data_index_list]  # 回溯使用的数据序列,注意实际取值是不会到右区间的
            targets[i] = data[data_index_list[-1] + delay][predict_data_index]  # 目标得到的预测值,即上述样本最后一条数据后的第delay条
        yield samples, targets

书上的代码示例

import os
import numpy as np
import random
import math
from tensorflow.keras import Sequential
from tensorflow.keras import layers
from matplotlib import pyplot as plt
from tensorflow.compat.v1 import ConfigProto
from tensorflow.compat.v1 import InteractiveSession

# GPU内存配置
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
config = ConfigProto()
config.gpu_options.allow_growth = True
session = InteractiveSession(config=config)

# 存放数据的文件位置
data_dir = 'E:/MLTrainingData/德国耶拿MP研究所气象站记录/jena_climate_2009_2016.csv'

# 打开文件读取数据
f = open(data_dir)
data = f.read()
f.close()

lines = data.split('\n')
header = lines[0].split(',')
lines = lines[1:]

float_data = np.zeros((len(lines), len(header) - 1))
for i, line in enumerate(lines):
    values = [float(x) for x in line.split(',')[1:]]
    if len(values) == 0:  # 不知道为什么会出现完全空的最后一行,总之判断如果读到空那就说明读完了
        break
    float_data[i, :] = values

# 数据标准化
mean = float_data[:20000].mean(axis=0)
float_data -= mean
std = float_data[:20000].std(axis=0)
float_data /= std


# 数据生成迭代器
def generator(data, lookback, delay, min_index, max_index, shuffle=False, batch_size=128, step=6):
    if max_index is None:
        max_index = len(data) - delay - 1
    i = min_index + lookback
    while True:
        if shuffle:
            rows = np.random.randint(min_index + lookback, max_index, size=batch_size)
        else:
            if i + batch_size >= max_index:
                i = min_index + lookback
            rows = np.arange(i, min(i + batch_size, max_index))
            i += len(rows)

        samples = np.zeros((len(rows), lookback // step, data.shape[-1]))
        targets = np.zeros((len(rows),))

        for j, row in enumerate(rows):
            indices = range(rows[j] - lookback, rows[j], step)
            # indices = list(range(rows[j] - lookback, rows[j], step))
            samples[j] = data[indices]
            targets[j] = data[rows[j] + delay][1]
        yield samples, targets


lookback = 1440
step = 6
delay = 144
batch_size = 128

train_gen = generator(float_data, lookback=lookback, delay=delay, step=step, shuffle=True, batch_size=batch_size,
                      min_index=0, max_index=200000)
val_gen = generator(float_data, lookback=lookback, delay=delay, step=step, batch_size=batch_size,
                    min_index=200001, max_index=300000)
test_gen = generator(float_data, lookback=lookback, delay=delay, step=step, batch_size=batch_size,
                     min_index=300001, max_index=None)

val_step = (300000 - 200001 - lookback) // batch_size
test_step = (len(float_data) - 300001 - lookback) // batch_size

model = Sequential()
# model.add(layers.GRU(32,
#                      input_shape=(None, float_data.shape[-1]),
#                      dropout=0.2,
#                      recurrent_dropout=0.2))
model.add(layers.GRU(32,
                     recurrent_dropout=0.1,
                     input_shape=(None, float_data.shape[-1])))
model.add(layers.Dense(1))

model.compile(optimizer='rmsprop',
              loss='mae',
              metrics=['cosine_similarity'])

history = model.fit_generator(train_gen,
                              steps_per_epoch=500,
                              epochs=20,
                              validation_data=val_gen,
                              validation_steps=val_step)

cosine_similarity = history.history['cosine_similarity']
val_cosine_similarity = history.history['val_cosine_similarity']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(1, len(cosine_similarity) + 1)

plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)

plt.plot(epochs, cosine_similarity, 'bo', label='Training cosine similarity')
plt.plot(epochs, val_cosine_similarity, 'b', label='Validation cosine similarity')
plt.title("Training and Validation Cosine Similarity")
plt.xlabel('Epoch')
plt.ylabel('Value')
plt.legend()
plt.subplot(1, 2, 2)
plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title("Training and Validation Loss")
plt.xlabel('Epoch')
plt.ylabel('Value')
plt.legend()
plt.show()

注意：按照书上的示例代码，其进行训练时的数据集，每一行代表一个时间节点下全部特征的数据，而每一列是一个特征随时间变化的序列。

训练状况

训练速度非常慢，跑了一个下午才跑完这个demo…

奇怪的问题

在设置了recurrent_dropout后，会发现loss非常大，在我一开始设置dropout=0.2，recurrent_dropout=0.2，loss甚至达到了10亿(不止了，20位数以上)。。。。。。

设置recurrent_dropout=0.1下，一开始loss也有几千，但是一直在降低，最终去到1以下。

训练结果

Epoch 1/20
loss: 34325184.0000 - cosine_similarity: 0.2656
......
Epoch 10/20
loss: 0.2981 - cosine_similarity: 0.8906
......
Epoch 20/20
loss: 2647.4542 - cosine_similarity: 0.8217 - val_loss: 0.3085 - val_cosine_similarity: 0.8120

也不知道到底是否有问题，总之还是令人非常不安。

报错记录

NotImplementedError: Cannot convert a symbolic Tensor (2nd_target:0) to a numpy array

出现状况：在使用Keras的SimpleRNN进行训练时出现，指示我的嵌入层后的第一个RNN层有问题。

无法将符号张量（简单/跨步切片：0）转换为numpy数组。

还以为是自己的编程有问题，其实是numpy版本和tensorflow版本的对应问题，原本使用的是1.21.2，在降低版本到1.19.5后就正常。

详细参考：

python-NotImplementedError: Cannot convert a symbolic Tensor (2nd_target:0) to a numpy array-Stack Overflow
ValueError: Input 0 of layer simple_rnn_1 is incompatible with the layer: expected ndim=3, found ndim=2. Full shape received: [None, 32]

出现状况：使用Keras的SimpleRNN设置多层RNN Layer时进行训练出现。

原因在于我没有设置return_sequences参数，将该参数设置为True即可。

UnknownError: Fail to find the dnn implementation. [Op:CudnnRNN]

出现状况：使用德国耶拿研究所气象站数据跑demo时

本质是没有配置GPU的显存分配。由于序列数据本质也是二维矩阵数据(time，feature)，因此模型会使用GPU来计算也很正常。

这个错误出现时，在PyCharm的控制台输出处有一大段信息，比较关键的信息摘录如下：

2021-09-20 22:12:49.674778: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Successfully opened dynamic library cudnn64_7.dll

2021-09-20 22:12:50.788377: E tensorflow/stream_executor/cuda/cuda_dnn.cc:329] Could not create cudnn handle: CUDNN_STATUS_ALLOC_FAILED

2021-09-20 22:12:50.788565: W tensorflow/core/framework/op_kernel.cc:1622] OP_REQUIRES failed at cudnn_rnn_ops.cc:1491 : Unknown: Fail to find the dnn implementation.

tensorflow.python.framework.errors_impl.UnknownError: Fail to find the dnn implementation. [Op:CudnnRNN]

解决方法就是配置GPU显存分配：

# GPU内存配置
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
config = ConfigProto()
config.gpu_options.allow_growth = True
session = InteractiveSession(config=config)

参考推荐

LSTM简介：人人都能看懂的LSTM - 知乎 (zhihu.com)

零基础入门深度学习(5) - 循环神经网络 - 作业部落 Cmd Markdown 编辑阅读器 (zybuluo.com)

转载请注明出处：https://www.shuangxing.top/#/

你可能感兴趣的:(深度学习,rnn,tensorflow,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
uniapp 获取各种小程序code 灵魂清零 uniapp 小程序
各种小程序在进入小程序是都需要去获取code才能拿到基础信息，自己记录一下用uniapp开发小程序是获取微信小程序、百度小程序、头条小程序、支付宝小程序的codeVue.prototype.$global={appLogin(){returnnewPromise((resole,reject)=>{varthat=this;varwxLoginUrl=app.globalData.url+"/lo
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
‌seq_len 不等于 hidden_size 难道不会报错吗，他们是一会事情吗 zhangfeng1133 python 人工智能开发语言 pytorch
seq_len与hidden_size在RNN中代表不同概念，不等不会报错‌。‌seq_len‌：序列长度，表示在处理数据时，每个批次（batch）中序列的长度。RNN网络会按照seq_len指定的长度进行循环计算‌1。‌hidden_size‌：隐藏层中隐藏神经元的个数，也是输出向量的长度。它决定了RNN网络中隐藏层的状态向量的维度‌12。在RNN的训练过程中，seq_len和hidden_si
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
ajax 获取一步数据,ajax异步获取数据可可子姐姐教英语 ajax 获取一步数据
functioncreateXHR(){if(typeofXMLHttpRequest!="undefined"){returnnewXMLHttpRequest();}elseif(typeofActiveXObject!="undefined"){varversion=["MSXML2.XMLHttp.6.0","MSXML2.XMLHttp.3.0","MSXML2.XMLHttp"];fo
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本