一只楚楚猫

一篇文章入门LSTM和GRU

NLP

长短期记忆神经网络（LSTM）

1、Recurrent Neural Networks

人类不会每秒钟都从头开始思考。当你阅读这篇文章时，你会根据你对前面单词的理解来理解每个单词。你不会把所有东西都扔掉，然后重新从头开始思考，你的思想有持久性。

传统的神经网络无法做到这一点，这似乎是一个主要缺点。循环神经网络解决了这个问题，它们是带有循环的网络，允许信息持续存在。

这些循环使循环神经网络看起来有点神秘。然而，如果你再想一想，就会发现它们与普通的神经网络并没有什么不同。循环神经网络可以被认为是同一网络的多个副本，每个副本都将消息传递给后继者。考虑一下如果我们展开循环会发生什么：

长期依赖问题

有时，我们只需要查看最近的信息即可执行当前任务。例如，考虑一个语言模型试图根据之前的单词预测下一个单词。如果我们试图预测“云在天空”中的最后一个词，我们不需要任何进一步的上下文——很明显下一个词将是天空。在这种情况下，相关信息与所需位置之间的差距很小，RNN 可以学习使用过去的信息。

但也有我们需要更多上下文的情况。考虑尝试预测文本“I grew up in France… I speak fluent French.”中的最后一个词。最近的信息表明，下一个词可能是一种语言的名称，但如果我们想缩小哪种语言的范围，我们需要从从更远的地方获得法国的上下文。相关信息与需要的点之间的差距完全有可能变得非常大。

不幸的是，随着差距的扩大，RNN 变得无法学习连接信息。

从理论上讲，RNN 绝对有能力处理这种“长期依赖”。人类可以为他们仔细挑选参数来解决这种形式的toy problem。遗憾的是，在实践中，RNN 似乎无法学习它们。

2、LSTM Networks

长短期记忆网络——通常称为“LSTM”——是一种特殊的 RNN，能够学习长期依赖关系。

LSTM 被明确设计为避免长期依赖问题。长时间记住信息实际上是他们的default behavior，而不是他们难以学习的东西！

所有循环神经网络都具有神经网络的重复模块链的形式。在标准 RNN 中，此重复模块将具有非常简单的结构，例如单个 tanh 层。

The repeating module in a standard RNN contains a single layer.

LSTM 也有这种链状结构，但重复模块有不同的结构。不是只有一个神经网络层，而是有四个，以一种非常特殊的方式进行交互。

The repeating module in an LSTM contains four interacting layers.

在上图中，每一行都携带一个完整的向量，从一个节点的输出到其他节点的输入。粉红色的圆圈代表逐点操作；如向量加法，而黄色的方框是学习的神经网络层；行合并表示连接；而行分叉表示其内容被复制并且副本到达不同的位置。

The Core Idea Behind LSTMs

LSTM 的关键是cell state，即贯穿图表顶部的水平线。

cell state有点像传送带。它直接沿着整个链条运行，只有一些较小的线性相互作用。信息很容易沿着它不变地流动。

LSTM 确实有能力将信息删除或添加到细胞状态，由称为gate的结构仔细调节。

gate是一种选择性地让信息通过的方式，它们由 sigmoid 神经网络层和pointwise multiplication operation组成。

sigmoid 层输出 0 到 1 之间的数字，表示让cell中的内容通过多少，值 0 表示“不让任何东西通过”，而值 1 表示“让所有东西通过！”

LSTM 具有其中三个门，用于保护和控制cell state

Step-by-Step LSTM Walk Through

我们 LSTM 的第一步是决定我们将从cell state中丢弃哪些信息（我们之所以既可以记住小时候的事情，也可以记住一年前的事情，也没有觉得脑子不够用，是因为我们爱忘事），这个决定是由一个称为“遗忘门层”的 sigmoid 层做出的。

让我们回到我们的语言模型示例，该示例试图根据所有先前的单词来预测下一个单词。在这样的问题中，cell state可能包括当前主语的性别，因此可以使用正确的代词。当我们看到一个新主语时，我们想忘记旧主语的性别。

下一步是决定我们将在cell state中存储哪些新信息（只记忆该记忆的信息，我们在生活中也只能长久地记住很少的信息，大部分信息没过几天就忘了），这有两个部分：首先输入门将决定我们将要更新哪些值；接下来，使用tanh激活函数创建一个新的候选值向量，该候选值向量将被添加到cell state中

在我们的语言模型示例中，我们希望将新新主语的性别添加到cell state中，以替换我们忘记的旧主语。

现在是时候将旧的cell stateC_t-1更新为新的cell stateC_t

在语言模型的情况下，正如我们在前面的步骤中决定的那样，我们实际上会在此处删除有关旧主语性别的信息并添加新信息。

最后，我们需要决定要输出什么（假如我们每个脑细胞都只记一件事情，当我们在处理眼前的事情的时候我们只会调动和当前事情有关的脑细胞）。此输出将基于我们的cell state，但将是过滤后的版本。首先，我们运行一个 sigmoid 层，它决定我们要将cell state中的哪些状态进行输出。然后，我们将cell state通过tanh激活函数并将其乘以forget gate，这样我们只输出我们决定输出的部分

Variants on Long Short Term Memory

peephole connections：

另一种变体是使用耦合的遗忘门和输入门，我们不将忘记cell state中的旧信息和向cell state中添加新信息分开，相反只有我们忘记旧的东西时我们才会向cell state中输入新的信息

Gated Recurrent Unit（GRU）：它将遗忘门和输入门组合成一个“更新门”。它还合并了cell state和hidden state，并进行了一些其他更改。生成的模型比标准LSTM模型更简单，并且越来越受欢迎。

3、GRU

LSTM 通过门控机制使循环神经网络不仅能记忆过去的信息，同时还能选择性地忘记一些不重要的信息而对长期语境等关系进行建模，而 GRU 基于这样的想法在保留长期序列信息下减少梯度消失问题。

GRU 旨在解决标准 RNN 中出现的梯度消失问题

GRU 背后的原理与 LSTM 非常相似，即用门控机制控制输入、记忆等信息而在当前时间步做出预测，表达式由以下给出：

GRU有两个门，即一个重置门（reset gate）和一个更新门（update gate）。从直观上来说，重置门决定了如何将新的输入信息与前面的记忆相结合，更新门定义了前面记忆和当前记忆保存到当前时间步的量。

GRU的输入输出结构

GRU的输入输出结构与普通的RNN是一样的。有一个当前的输入 x^t ，和上一个节点传递下来的隐状态（hidden state） h^t−1 ，这个隐状态包含了之前节点的相关信息。

结合 x^t 和 h^t-1，GRU会得到当前隐藏节点的输出 y^t 和传递给下一个节点的隐状态 h^t 。

GRU的内部结构

首先，我们先通过上一个传输下来的状态 h^t-1和当前节点的输入 x^t 来获取两个门控状态。其中 r 控制重置的门控（reset gate）， z 为控制更新的门控（update gate）。

得到门控信号之后，首先使用重置门控来得到“重置”之后的数据：
，再将 h^t−1′ 与输入 x^t 进行拼接，再通过一个tanh激活函数来将数据放缩到-1~1的范围内

这里的 h′ 主要是包含了当前输入的 x^t 数据。有针对性地对 h′ 添加到当前的隐藏状态，相当于”记忆了当前时刻的状态“

⊙ 是Hadamard Product，也就是操作矩阵中对应的元素相乘，因此要求两个相乘矩阵是同型的；⊕ 则代表进行矩阵加法操作

**”更新记忆“**阶段：在这个阶段，我们同时进行了遗忘了记忆两个步骤。我们使用了先前得到的更新门控 z （update gate）

更新表达式：

门控信号（这里的 z ）的范围为0~1。门控信号越接近1，代表”记忆“下来的数据越多；而越接近0则代表”遗忘“的越少。（这一步的操作就是忘记传递下来的 h^t−1 中的某些维度信息，并加入当前节点输入的某些维度信息。）

这里的遗忘 (1-z) 和选择 z 是联动的。也就是说，对于传递进来的维度信息，我们会进行选择性遗忘，则遗忘了多少权重（1-z ），我们就会使用包含当前输入的 h′ 中所对应的权重(1−z) 进行弥补。以保持一种”恒定“状态。

大家看到 r (reset gate)实际上与他的名字有点不符。我们仅仅使用它来获得了 h′ 。

那么这里的 h′ 实际上可以看成对应于LSTM中的hidden state；上一个节点传下来的 h^t−1 则对应于LSTM中的cell state。1-z对应的则是LSTM中的 forget gate，那么 z我们似乎就可以看成是输入门input gate。

GRU的原理

使用门控机制学习长期依赖关系的基本思想和 LSTM 一致，但还是有一些关键区别：

GRU 有两个门（重置门与更新门），而 LSTM 有三个门（输入门、遗忘门和输出门）。
GRU 并不会控制并保留内部记忆（c_t），且没有 LSTM 中的输出门。
LSTM 中的输入与遗忘门对应于 GRU 的更新门，重置门直接作用于前面的隐藏状态。

为了解决标准 RNN 的梯度消失问题，GRU 使用了更新门（update gate）与重置门（reset gate）。基本上，这两个门控向量决定了哪些信息最终能作为门控循环单元的输出。这两个门控机制的特殊之处在于，它们能够保存长期序列中的信息，且不会随时间而清除或因为与预测不相关而移除。

首先我们需要指定以下符号：

更新门

在时间步 t，我们首先需要使用以下公式计算更新门 z_t：

其中 x_t 为第 t 个时间步的输入向量，即输入序列 X 的第 t 个分量，它会经过一个线性变换（与权重矩阵 W(z) 相乘）。h_(t-1) 保存的是前一个时间步 t-1 的信息，它同样也会经过一个线性变换。更新门将这两部分信息相加并投入到 Sigmoid 激活函数中，因此将激活结果压缩到 0 到 1 之间。以下是更新门在整个单元的位置与表示方法。

更新门帮助模型决定到底要将多少过去的信息传递到未来，或到底前一时间步和当前时间步的信息有多少是需要继续传递的。这一点非常强大，因为模型能决定从过去复制所有的信息以减少梯度消失的风险。

重置门

本质上来说，重置门主要决定了到底有多少过去的信息需要遗忘，我们可以使用以下表达式计算：

该表达式与更新门的表达式是一样的，只不过线性变换的参数和用处不一样而已。下图展示了该运算过程的表示方法

如前面更新门所述，h_(t-1) 和 x_t 先经过一个线性变换，再相加投入 Sigmoid 激活函数以输出激活值。

当前记忆内容

现在我们具体讨论一下这些门控到底如何影响最终的输出。在重置门的使用中，新的记忆内容将使用重置门储存过去相关的信息，它的计算表达式为：

计算重置门 r_t 与 Uh_(t-1) 的 Hadamard 乘积，即 r_t 与 Uh_(t-1) 的对应元素乘积。因为前面计算的重置门是一个由 0 到 1 组成的向量，它会衡量门控开启的大小。例如某个元素对应的门控值为 0，那么它就代表这个元素的信息完全被遗忘掉。该 Hadamard 乘积将确定所要保留与遗忘的以前信息。

将这两部分的计算结果相加再投入双曲正切激活函数中。该计算过程可表示为：

当前时间步的最终记忆

在最后一步，网络需要计算 h_t，该向量将保留当前单元的信息并传递到下一个单元中。在这个过程中，我们需要使用更新门，它决定了当前记忆内容 h’_t 和前一时间步 h_(t-1) 中需要收集的信息是什么。这一过程可以表示为：

z_t 为更新门的激活结果，它同样以门控的形式控制了信息的流入。z_t 与 h_(t-1) 的 Hadamard 乘积表示前一时间步保留到最终记忆的信息，该信息加上当前记忆保留至最终记忆的信息就等于最终门控循环单元输出的内容

以上表达式可以展示为：

门控循环单元不会随时间而清除以前的信息，它会保留相关的信息并传递到下一个单元，因此它利用全部信息而避免了梯度消失问题。

4、pytorch代码实现（LSTM）

import torch.nn as nn
import torch

lstm = nn.LSTM(10, 20, num_layers=2,bidirectional=True)

# text: [seq_length, batch_size, input_size]
text = torch.randn(5, 3, 10)  # seq_length=5, batch_size=3, input_size=10

# h_0: [num_layers * num_directions, batch_size, hidden_size]
h_0 = torch.randn(4, 3, 20)  # num_layers*num_directions=2, batch_size=3, hidden_size=20

# c_0: [num_layers * num_directions, batch_size, hidden_size]
c_0 = torch.randn(4, 3, 20)  # num_layers*num_directions=2, batch_size=3, hidden_size=20

output, (h_n, c_n) = lstm(text)

# output: [seq_length, batch_size, num_directions * hidden_size]
print(output.shape)  # seq_length=5, batch_size=3, num_directions * hidden_size=20

# h_n: [num_layers * num_directions, batch_size, hidden_size]
print(h_n.size())  # num_layers * num_directions=2, batch_size=3, hidden_size=20

# c_n: [num_layers * num_directions, batch_size, hidden_size]
print(c_n.shape)  # num_layers * num_directions=2, batch_size=3, hidden_size=20

import torch
import torch.nn as nn

batch_size = 10
seq_length = 20  # 句子的长度
dictionary_size = 100  # 词典中词语的数量
embedding_dim = 30  # 长度为30的向量表示一个词语
hidden_size = 18
num_layer = 2

# 构造一个batch的数据
text = torch.randint(low=0, high=100, size=[batch_size, seq_length])

print(text.shape)

# 数据经过embedding处理
embedding = nn.Embedding(dictionary_size, embedding_dim)
text_embedded = embedding(text)

# 传入LSTM
lstm = nn.LSTM(input_size=embedding_dim,
               hidden_size=hidden_size,
               num_layers=num_layer,
               batch_first=True)

'''
output: [batch_size, seq_length, num_directions * hidden_size]
h_n: [num_layers * num_directions, batch_size, hidden_size]
c_n: [num_layers * num_directions, batch_size, hidden_size]
'''
output, (h_n, c_n) = lstm(text_embedded)

# output把每一个时间步上的结果在seq_length这一维度上进行了拼接
print(output.shape)  # torch.Size([10, 20, 36])
print(f"{'*' * 20}")

# h_n把不同层的隐藏状态在第0个维度上进行了拼接
print(h_n.size())  # torch.Size([2, 10, 18])
print(f"{'*' * 20}")

print(c_n.shape)  # torch.Size([2, 10, 18])
print(f"{'*' * 20}")

# 最后一次的h_1应该和output的最后一个time step的输出是一样的

# 获取最后一个时间步上的输出
last_output = output[:, -1, :]

# 获取最后一次的hidden_state
last_hidden_state = h_n[-1, :, :]

print(last_output == last_hidden_state)

交叉熵损失：把softmax概率传入对数似然损失得到的损失函数称为交叉熵损失：

在pytorch中有两种方法实现交叉熵损失：

criterion=nn.CrossEntropyLoss()
loss=criterion(input, target)

# 1、对输出值计算softmax和取对数
output=F.log_softmax(x,dim=-1)
# 2、使用torch中带权损失
loss=F.nll_loss(output,target)

双向LSTM

单向的RNN，是根据前面的信息推出后面的，但是有时候只看前面的词是不够的，可能需要预测的词和后面的内容也相关，那么需要一种机制，能够让模型不仅能够从前往后的具有记忆，还需要从后往前的具有记忆，此时双向LSTM能够帮助我们解决这个问题

由于是双向LSTM，所以每个方向的LSTM都会有一个输出，最终的输出会有两部分，所以往往需要concat的操作

import torch
import torch.nn as nn

batch_size = 10
seq_length = 20  # 句子的长度
dictionary_size = 100  # 词典中词语的数量
embedding_dim = 30  # 长度为30的向量表示一个词语
hidden_size = 18
num_layer = 1

# 构造一个batch的数据
text = torch.randint(low=0, high=100, size=[batch_size, seq_length])

print(text.shape)
print(f"{'*' * 20}")

# 数据经过embedding处理
embedding = nn.Embedding(dictionary_size, embedding_dim)
text_embedded = embedding(text)

# 传入LSTM
lstm = nn.LSTM(input_size=embedding_dim,
               hidden_size=hidden_size,
               num_layers=num_layer,
               batch_first=True, bidirectional=True)

'''
output: [batch_size, seq_length, num_directions * hidden_size]
h_n: [num_layers * num_directions, batch_size, hidden_size]
c_n: [num_layers * num_directions, batch_size, hidden_size]
'''
output, (h_n, c_n) = lstm(text_embedded)

# output把每一个时间步上的结果在seq_length这一维度上进行了拼接
# 如果lstm是双向的，则output的num_directions * hidden_size维度中前面是前hidden_size个数据是正向lstm的输出，后hidden_size个数据是反向lstm的输出
print(output.shape)  # torch.Size([10, 20, 36])
print(f"{'*' * 20}")

# h_n把不同层的隐藏状态在第0个维度上进行了拼接
# h_n把双向lstm中正向的hidden_state和反向的hidden_state在第0个维度上也进行了拼接
print(h_n.size())  # torch.Size([2, 10, 18])
print(f"{'*' * 20}")

print(c_n.shape)  # torch.Size([2, 10, 18])
print(f"{'*' * 20}")

# 获取双向lstm中正向最后一个时间步的output
forward_output = output[:, -1, :18]
print(forward_output.shape)
print(f"{'*' * 20}")

# 获取双向lstm中正向的最后一个hidden_state
forward_h_n = h_n[-2, :, :]
print(forward_h_n.shape)
print(f"{'*' * 20}")

print(f"正向output和正向h_n是否相等：{forward_output == forward_h_n}")

# 获取双向lstm中反向最后一个时间步的output
backward_output = output[:, 0, 18:]
print(backward_output.shape)
print(f"{'*' * 20}")

# 获取双向lstm中反向的最后一个hidden_state
backward_h_n=h_n[-1,:,:]
print(backward_h_n.shape)
print(f"{'*' * 20}")

print(f"反向output和反向h_n是否相等：{backward_output == backward_h_n}")

import torch
import torch.nn as nn

batch_size = 10
seq_length = 20  # 句子的长度
dictionary_size = 100  # 词典中词语的数量
embedding_dim = 30  # 长度为30的向量表示一个词语
hidden_size = 18
num_layer = 2

# 构造一个batch的数据
text = torch.randint(low=0, high=100, size=[batch_size, seq_length])

print(text.shape)

# 数据经过embedding处理
embedding = nn.Embedding(dictionary_size, embedding_dim)
text_embedded = embedding(text)

# 传入LSTM
lstm = nn.LSTM(input_size=embedding_dim,
               hidden_size=hidden_size,
               num_layers=num_layer,
               batch_first=True)

'''
output: [batch_size, seq_length, num_directions * hidden_size]
h_n: [num_layers * num_directions, batch_size, hidden_size]
c_n: [num_layers * num_directions, batch_size, hidden_size]
'''
output, (h_n, c_n) = lstm(text_embedded)

# output把每一个时间步上的结果在seq_length这一维度上进行了拼接
print(output.shape)  # torch.Size([10, 20, 36])
print(f"{'*' * 20}")

# h_n把不同层的隐藏状态在第0个维度上进行了拼接
print(h_n.size())  # torch.Size([2, 10, 18])
print(f"{'*' * 20}")

print(c_n.shape)  # torch.Size([2, 10, 18])
print(f"{'*' * 20}")

# 最后一次的h_1应该和output的最后一个time step的输出是一样的

# 获取最后一个时间步上的输出
last_output = output[:, -1, :]

# 获取最后一次的hidden_state
last_hidden_state = h_n[-1, :, :]

'''
-4/1 第一层的正向
-3/2 第一层的反向
-2/3 第二层的正向
-1/4 第二层的反向
'''

print(last_output == last_hidden_state)

使用双向LSTM实现文本情感分类

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch import optim
from dataset import get_dataloader
from pkl import ws, MAX_LEN
from datetime import datetime
from tqdm import tqdm

device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')


class ImdbModule(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(ImdbModule, self).__init__()

        self.embedding = nn.Embedding(len(ws), input_size, padding_idx=ws.PAD)

        self.hidden_size = hidden_size

        '''
        nn.LSTM:
            Args:
                input_size: The number of expected features in the input `x`
                hidden_size: The number of features in the hidden state `h`
                num_layers: Number of recurrent layers.
                bias: If `False`, then the layer does not use bias weights `b_ih` and `b_hh`.
                batch_first: If `True`, then the input and output tensors are provided as (batch, seq, feature).
                bidirectional: If `True`, becomes a bidirectional LSTM.
        '''

        '''
        input:
            x: [seq_length, batch_size, input_size] (tensor containing the features of the input sequence.)
            h_0: [num_layers * num_directions, batch_size, hidden_size] (tensor
              containing the initial hidden state for each element in the batch.)
            c_0: [num_layers * num_directions, batch_size, hidden_size] (tensor
              containing the initial cell state for each element in the batch.)
        return: output, (h_n, c_n):
            output: [seq_length, batch_size, num_directions * hidden_size]
            h_n: [num_layers * num_directions, batch_size, hidden_size]
            c_n: [num_layers * num_directions, batch_size, hidden_size]
        '''
        self.lstm = nn.LSTM(input_size=input_size,
                            hidden_size=self.hidden_size,
                            num_layers=2, bidirectional=True)

        self.linear = nn.Linear(2 * self.hidden_size, output_size)

    def forward(self, x):
        '''
        :param x: [batch_size, seq_length]
        :param h_0: [num_layers * num_directions, batch_size, hidden_size]
        :param c_0: [num_layers * num_directions, batch_size, hidden_size]
        :return:
        '''

        batch_size = x.size(0)

        # x: [batch_size, seq_length, input_size]
        x = self.embedding(x)

        # x: [seq_length, batch_size, input_size]
        x = x.permute(1, 0, 2)

        # output: [seq_length, batch_size, num_directions * hidden_size]
        # h_n: [num_layers * num_directions, batch_size, hidden_size]
        # c_n: [num_layers * num_directions, batch_size, hidden_size]
        output, (h_n, c_n) = self.lstm(x)

        # 往往会使用LSTM or GRU输出的最后一维结果来代表LSTM、GRU对文本处理的结果
        # 使用双向LSTM的时候，往往会使用每个方向最后一次的output，作为当前数据经过双向LSTM的结果

        out = torch.cat((h_n[-2, :, :], h_n[-1, :, :]), dim=-1)
        out = self.linear(out)

        return out


TRAIN_BATCH_SIZE = 128
TEST_BATCH_SIZE = 128
LR = 0.001

imdb = ImdbModule(100, 256, 11).to(device)

optimizer = optim.Adam(imdb.parameters(), lr=LR)

criterion = nn.CrossEntropyLoss().to(device)


def train_test(epoch):
    print(f"{'-' * 10}epoch: {epoch + 1}{'-' * 10}")

    mode = True
    imdb.train(mode)

    train_dataloader, train_data_length = get_dataloader(mode='train', batch_size=TRAIN_BATCH_SIZE)

    for idx, (text, label) in enumerate(train_dataloader):
        text = text.to(device)
        label = label.to(device)

        optimizer.zero_grad()

        # 第一次调用LSTM模型之前，需要初始化隐藏状态，如果不初始化，默认创建全为0的隐藏状态
        output = imdb(text)

        loss = criterion(output, label)

        loss.backward()
        optimizer.step()

        if idx % 50 == 0:
            print(f"第{epoch}轮训练次数为{idx}的误差：{loss.item()}")

    print(f"{'-' * 10}测试开始{'-' * 10}")

    imdb.eval()

    test_dataloader, len_test_data = get_dataloader('test', batch_size=TEST_BATCH_SIZE)

    sum_loss = 0
    total_accuracy = 0

    with torch.no_grad():
        for text, label in tqdm(test_dataloader):
            text = text.to(device)
            label = label.to(device)

            output = imdb(text)

            loss = criterion(output, label)
            sum_loss += loss

            predicted = output.argmax(1)
            accuracy = (predicted == label).sum()

            total_accuracy += accuracy

    print(f"测试集上的loss：{sum_loss}")

    correct_accuracy = total_accuracy / len_test_data
    print(f"整体测试集上的正确率：{correct_accuracy}%")

    print("模型保存成功")
    torch.save(imdb.state_dict(), f'./model/lstm_{epoch}.pth')

    now = datetime.now()
    now = now.strftime("%Y-%m-%d %H:%M:%S")

    content = f"time：{now}\tlstm模型在测试集上的准确率：{correct_accuracy}"

    with open('./accuracy.txt', 'a+', encoding='utf-8') as file:
        file.write(content + '\n')


for epoch in range(100):
    train_test(epoch)

5、pytorch代码实现（GRU）

import torch.nn as nn
import torch

'''
GRU:
    Applies a multi-layer gated recurrent unit (GRU) RNN to an input sequence.

    args:
        input_size: The number of expected features in the input `x`
        hidden_size: The number of features in the hidden state `h`
        num_layers: Number of recurrent layers.
        bias: If `False`, then the layer does not use bias weights
        bidirectional: If `True`, becomes a bidirectional GRU.
'''

'''
Inputs: input, h_0
    input: [seq_length, batch_size, input_size]
    h_0: [num_layers * num_directions, batch_size, hidden_size]

Outputs: output, h_n
    output: [seq_length, batch_size, num_directions * hidden_size]
    h_n: [num_layers * num_directions, batch_size, hidden_size]
'''
gru = nn.GRU(input_size=10, hidden_size=20, num_layers=2, bidirectional=True)

# text: [seq_length, batch_size, input_size]
text = torch.randn(5, 3, 10)

# h_0: [num_layers * num_directions, batch_size, hidden_size]
h_0 = torch.randn(4, 3, 20)

'''
output: [seq_length, batch_size, num_directions * hidden_size]
h_n: [num_layers * num_directions, batch_size, hidden_size]
'''
output, h_n = gru(text, h_0)

# 获取双向gru中正向最后一个时间步的output
forward_output=output[-1,:,:20]
print(forward_output.shape) # [batch_size, hidden_size]
print(f"{'*' * 20}")

# 获取双向gru中正向的最后一个hidden_state
forward_h_n=h_n[-2,:,:]
print(forward_h_n.shape) # [batch_size, hidden_size]
print(f"{'*' * 20}")

print(f"正向output和正向h_n是否相等：{forward_output == forward_h_n}")

# 获取双向gru中反向最后一个时间步的output
backward_output=output[0,:,20:]
print(backward_output.shape) # [batch_size, hidden_size]
print(f"{'*' * 20}")

# 获取双向gru中反向的最后一个hidden_state
backward_h_n=h_n[-1,:,:]
print(backward_h_n.shape)
print(f"{'*' * 20}")

print(f"反向output和反向h_n是否相等：{backward_output == backward_h_n}")

使用双向GRU实现文本情感分类

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch import optim
from dataset import get_dataloader
from pkl import ws, MAX_LEN
from datetime import datetime
from tqdm import tqdm

device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')


class ImdbModule(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(ImdbModule, self).__init__()

        self.embedding = nn.Embedding(len(ws), input_size, padding_idx=ws.PAD)

        self.hidden_size = hidden_size

        '''
        GRU:
            Applies a multi-layer gated recurrent unit (GRU) RNN to an input sequence.
            
            args:
                input_size: The number of expected features in the input `x`
                hidden_size: The number of features in the hidden state `h`
                num_layers: Number of recurrent layers.
                bias: If `False`, then the layer does not use bias weights
                bidirectional: If `True`, becomes a bidirectional GRU.
        '''

        '''
        Inputs: input, h_0
            input: [seq_length, batch, input_size]
            h_0: [num_layers * num_directions, batch_size, hidden_size]
            
        Outputs: output, h_n
            output: [seq_length, batch_size, num_directions * hidden_size]
            h_n: [num_layers * num_directions, batch_size, hidden_size]
        '''

        self.gru = nn.GRU(input_size=input_size,
                          hidden_size=self.hidden_size,
                          num_layers=2,
                          bidirectional=True,
                          dropout=0.5)

        self.linear = nn.Linear(in_features=2 * hidden_size, out_features=output_size)
        self.dropout = nn.Dropout(0.5)

    def forward(self, x):
        '''
        :param x: [batch_size, seq_length]
        :return:
        '''

        batch_size = x.size(0)

        # x: [batch_size, seq_length, embedding_dim]
        x = self.embedding(x)

        # x: [seq_length, batch_size, input_size]
        x = x.permute(1, 0, 2)

        '''
        output: [seq_length, batch_size, num_directions * hidden_size]
        h_n: [num_layers * num_directions, batch_size, hidden_size]
        '''
        output, h_n = self.gru(x)

        h_n = torch.cat((h_n[-2, :, :], h_n[-1, :, :]), dim=-1)

        out = self.linear(h_n)

        return out


TRAIN_BATCH_SIZE = 128
TEST_BATCH_SIZE = 128
LR = 0.001

imdb = ImdbModule(256, 256, 11).to(device)

optimizer = optim.Adam(imdb.parameters(), lr=LR)

criterion = nn.CrossEntropyLoss().to(device)


def train_test(epoch):
    print(f"{'-' * 10}epoch: {epoch + 1}{'-' * 10}")

    mode = True
    imdb.train(mode)

    train_dataloader, train_data_length = get_dataloader(mode='train', batch_size=TRAIN_BATCH_SIZE)

    for idx, (text, label) in enumerate(train_dataloader):
        text = text.to(device)
        label = label.to(device)

        optimizer.zero_grad()

        # 第一次调用LSTM模型之前，需要初始化隐藏状态，如果不初始化，默认创建全为0的隐藏状态
        output = imdb(text)

        loss = criterion(output, label)

        loss.backward()
        optimizer.step()

        if idx % 50 == 0:
            print(f"第{epoch}轮训练次数为{idx}的误差：{loss.item()}")

    print(f"{'-' * 10}测试开始{'-' * 10}")

    imdb.eval()

    test_dataloader, len_test_data = get_dataloader('test', batch_size=TEST_BATCH_SIZE)

    sum_loss = 0
    total_accuracy = 0

    with torch.no_grad():
        for text, label in tqdm(test_dataloader):
            text = text.to(device)
            label = label.to(device)

            output = imdb(text)

            loss = criterion(output, label)
            sum_loss += loss

            predicted = output.argmax(1)
            accuracy = (predicted == label).sum()

            total_accuracy += accuracy

    print(f"测试集上的loss：{sum_loss}")

    correct_accuracy = total_accuracy / len_test_data
    print(f"整体测试集上的正确率：{correct_accuracy}%")

    print("模型保存成功")
    torch.save(imdb.state_dict(), f'./model/lstm_{epoch}.pth')

    now = datetime.now()
    now = now.strftime("%Y-%m-%d %H:%M:%S")

    content = f"time：{now}\tlstm模型在测试集上的准确率：{correct_accuracy}"

    with open('./accuracy.txt', 'a+', encoding='utf-8') as file:
        file.write(content + '\n')


for epoch in range(100):
    train_test(epoch)

相关前置内容和代码请参考：一篇文章入门循环神经网络RNN

参考

1、Understanding LSTM Networks

2、Understanding GRU Networks

3、人人都能看懂的GRU

4、Gated recurrent unit

5、阿达玛乘积 (矩阵)

6、关于Pytorch中双向LSTM的输出表示问题

7、[NLP自然语言处理]保姆级入门教程

你可能感兴趣的:(NLP,python,深度学习,python,NLP)

python笔记-Selenium谷歌浏览器驱动下载 hero.zhong python 笔记 selenium
Selenium谷歌浏览器驱动下载地址：https://googlechromelabs.github.io/chrome-for-testing/#stable下面是遇到的问题：python网络爬虫技术中使用谷歌浏览器代码，报错：OSError:[WinError193]%1不是有效的Win32应用程序：遇到错误OSError:[WinError193]%1不是有效的Win32应用程序通常意味着
网络编程底层通信（socket） En^_^Joy python应用网络 python
文章目录一、socket函数介绍二、TCP/IP服务端/客户端三、UDP/IP服务端/客户端四、多线程服务器（threading）五、网络编程常见问题（地址复用、粘包、数据长度）网络编程指通过计算机网络实现程序间通信的技术。Python提供了丰富的库支持各种网络协议和编程模式套接字是网络通信的基本操作单元，是应用层与TCP/IP协议族通信的中间软件抽象层。它提供了一组接口，允许不同主机或同一主机的
python unicode汉字转成各种进制，以及进制互相转换丧尽天良的良！ python python
例如，汉字：“五”的unicode编码为：4e94，使用二进制的结果为：100111010010100，转换为十进制是：20116对应转换如下：
Python办公—Excel嵌入图片提取&重命名(包含重复图片) 小庄-Python办公 Python办公自动化 python excel Excel图片获取 Excel批量获取嵌入图片 Excel嵌入图片
目录专栏导读背景解决方案1、背景介绍2、库的介绍①：openpyxl3、库的安装4、核心代码5、完整代码总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础专栏：请点击—
Python 是如何执行我的代码的？冰糖心书房 Python python java linux
理解Python如何执行你的代码，可以帮助我们解释很多“为什么”——为什么会有.pyc文件？为什么Python相对较慢？多线程为什么不能利用多核？我们可以用一个“厨师做菜”的比喻来理解整个过程，然后再深入技术细节。一、比喻：厨师（Python）根据菜谱（你的代码）做菜想象一下，你是一位顾客，写了一份非常精确的菜谱（你的.py文件）交给一位名叫CPython的大厨（最常见的Python解释器）。第一
探索Cachier：Python函数的持久化缓存利器胡同琥Randolph
探索Cachier：Python函数的持久化缓存利器cachierPersistent,stale-free,localandcross-machinecachingforPythonfunctions.项目地址:https://gitcode.com/gh_mirrors/ca/cachier在Python开发的世界中，性能优化和资源管理是永恒的话题。今天，我们要介绍的是一个强大的开源项目——C
Pyramda：Python 中的函数式编程利器惠悦颖
Pyramda：Python中的函数式编程利器pyramdaPythonpackagesupportingheavyfunctionalprogrammingthroughcurrying.TranslationoftheRamdalibraryfromjavascripttopython.项目地址:https://gitcode.com/gh_mirrors/py/pyramdaPyramda是
[特殊字符] Excel 读取收件人 + Outlook 批量发送带附件邮件 —— Python 自动化实战 happydog007 python自动化办公 excel outlook python
许多公司定期需要将不同部门或客户的报告发送给指定人员。手动操作容易出错、耗时且繁琐。今天这篇文章教你如何利用Python实现：从Excel中读取“收件人+抄送人+附件文件路径”；使用win32com.client调用Outlook自动生成并发送邮件；✅附加模板正文，并保持批量发送规范无需手工操作。从Excel中读取部门、收件人与附件路径fromopenpyxlimportload_workbook
[特殊字符] Python 实战 | 批量统计中文文档词频并导出 Excel happydog007 python自动化办公 python 开发语言
本文展示如何用Python脚本：批量读取文件夹中的多篇中文文档；用jieba分词并统计词频（过滤停用词与单字符）；将各文档词频输出为对应Excel文件；是文本分析、内容审查、报告编写中的实用技巧。Step1：批量加载文件夹中文本文件路径importospath='主要业务'files=[os.path.join(path,f)forfinos.listdir(path)]使用标准库os.listd
探索开源虚拟 Excel 函数模块：Python 中的 Excel 功能利器
在数据处理和分析的领域中，Excel一直是一款备受青睐的工具，它提供了丰富多样的函数，帮助用户高效地完成各种数据操作。而现在，我（董翔）开发一个基于Python的虚拟Excel函数模块，它将Excel的强大功能带到了Python的世界里，让你在Python环境中也能轻松使用类似Excel的函数。这个模块我已经在GitHub上发布，项目链接为：https://github.com/dxiang-wi
写测试太烦？Copilot + Jest 让你 3 分钟搞定单元测试
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
60天python训练营打卡day46
学习目标：60天python训练营打卡学习内容：DAY46通道注意力(SE注意力)知识点回顾：1.不同CNN层的特征图：不同通道的特征图2.什么是注意力：注意力家族，类似于动物园，都是不同的模块，好不好试了才知道。3.通道注意力：模型的定义和插入的位置4.通道注意力后的特征图和热力图学习时间：2025.06.29@浙大疏锦行
python规划 t_hj python
-----------动态内容与反爬策略----------动态页面处理Selenium：自动化浏览器（点击、滚动、表单提交）Playwright（更现代的替代方案）API逆向工程分析Ajax请求（ChromeDevTools）直接调用API接口（如知乎热榜API）反爬应对User-Agent轮换、IP代理（免费/付费代理池）验证码处理（简单验证码用OCR，复杂验证码需打码平台）请求频率控制（ti
Python 训练营打卡 Day 46 2401_86382089 Python打卡 python
通道注意力一、什么是注意力注意力机制是一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。transformer中的叫做自注意力机制，他是一种自己学习自己的机制，他可以自动学习到图片中的主体，并忽略背景。我们现在说的很多模块，比如通道注意力、空间注意力、通道注意力等等，都是基于自注意力机制的。从数学角度看，注意力机制是对输入特征进行加权求
Python训练营打卡 Day53 yunvwugua__ python自学打卡 python 开发语言
对抗生成网络知识点回顾：对抗生成网络的思想：关注损失从何而来生成器、判别器nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法leakyReLU介绍：避免relu的神经元失活现象对抗生成网络（GAN）知识点回顾对抗生成网络的思想思想：就像在餐厅中，有一个厨师（生成器）负责制作假菜，一个评论家（判别器）负责区分真菜和假菜。厨师的目标是制作出评论家无法区分的假菜，而评论家的目标是找
华为OD机试 2025B卷 - 货币单位转换(C++&Python&JAVA&JS&C语言) YOLO大师华为od c++python 华为OD机试华为OD机试2025B卷华为OD2025B卷华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述记账本上记录了若干条多国货币金额，需要转换成人民币分（fen），汇总后输出。每行记录一条金额，金额带有货币单位，格式为数字+单位，可能是单独元，或者单独分，或者元与分的组合。要求将这些货币全部换算成人民币分（fen）后进行汇总，汇总结果仅保留整数，小数部分舍弃。元和分的换算关系都是
Python 训练营打卡 Day 50 2401_86382089 Python打卡 python
预训练模型CBAM注意力现在我们思考下，是否可以对于预训练模型增加模块来优化其效果，这里我们会遇到一个问题：预训练模型的结构和权重是固定的，如果修改其中的模型结构，是否会大幅影响其性能。其次是训练的时候如何训练才可以更好的避免破坏原有的特征提取器的参数。所以今天的内容，我们需要回答2个问题。resnet18中如何插入cbam模块？采用什么样的预训练策略，能够更好的提高效率？可以很明显的想到，如果是
Python训练营打卡 Day50
预训练模型+CBAM模块知识点回顾：resnet结构解析CBAM放置位置的思考针对预训练模型的训练策略差异化学习率三阶段微调预训练模型+CBAM模块知识点回顾ResNet结构解析残差块：ResNet的核心是残差块，它通过残差连接解决了深层网络的梯度消失问题。残差块允许梯度直接传播到后面的层，从而使得网络能够训练得更深。网络结构：ResNet由多个残差块组成，每个残差块包含两个或三个卷积层，以及一个
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
Python爬虫实战：研究chardet库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 chardet
1.引言1.1研究背景与意义在互联网信息爆炸的时代，网络数据采集技术已成为信息获取、数据分析和知识发现的重要手段。Python作为一种高效的编程语言，凭借其丰富的第三方库和简洁的语法，成为爬虫开发的首选语言之一。然而，在网络数据采集中，文本编码的多样性和不确定性一直是困扰开发者的主要问题之一。不同网站可能采用不同的编码方式（如UTF-8、GBK、GB2312等），甚至同一网站的不同页面也可能使用不
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
Kafka-python 核心 API 深度解析：BrokerConnection 与 ClusterMetadata 的全方位指南佑瞻 python工程化 kafka python 分布式
在Kafka应用开发中，我们时常会面临连接管理混乱、元数据获取不及时等问题，这些问题的根源往往在于对底层API的理解不够深入。今天我们将聚焦kafka-python客户端中两个核心类——BrokerConnection和ClusterMetadata，通过剖析其核心功能与应用场景，帮助大家建立系统化的Kafka连接与元数据管理知识体系。BrokerConnection：Kafka连接管理的中枢神经
KafkaAdminClient 技术详解：Python 操作 Kafka 集群的管理接口佑瞻 python工程化 python kafka
一、KafkaAdminClient基础概念KafkaAdminClient是kafka-python客户端提供的集群管理类，用于通过编程方式管理Kafka集群资源。其核心定位是为开发者提供一套标准化接口，实现对主题、分区、ACL、消费者组等资源的全生命周期管理。核心特性说明：接口定位：专门用于集群资源管理，区别于KafkaConsumer/KafkaProducer的数据读写功能版本要求：要求B
Python日志模块
Python日志模块学习教程：b站王铭东老师Python中logging模块能够完成相关信息的记录，在debug时使用它事半功倍一、模块介绍日志级别DEBUG、INFO、WARNING、ERROR、CRITICAL默认是WARNING，当在WARNING或其之上时才被跟踪日志格式logging.basicConfig函数中，可以指定日志的输出格式format，这个参数可以输出很多有用的信息一般使用
Python爬虫笔记汇总大厂_jvS python 爬虫笔记
except:print(“爬取失败”)4.网络图片爬取及存储#实例4：爬取图片‘’‘r.content#表示返回内容的二进制格式’‘’importrequestsimportosroot=‘./Pic/’path=root+url.split(‘/’)[-1].split(‘@’)[0]url=‘http://img0.dili360.com/ga/M00/02/AB/wKgBzFQ26i2AW
python-for-android 使用教程沈昊冕Nadine
python-for-android使用教程python-for-androidTurnyourPythonapplicationintoanAndroidAPK项目地址:https://gitcode.com/gh_mirrors/py/python-for-android1.项目介绍python-for-android（p4a）是一个开发工具，用于将Python应用打包成可以在Android设
【Python】邮件处理2 宅男很神经 python 开发语言
7.Pythonemail库深度解析：MIME邮件构建与解析的艺术在前面的章节中，我们深入探讨了电子邮件的底层协议（SMTP,POP3,IMAP）以及如何使用imaplib库从服务器接收和管理邮件。然而，邮件内容的实际格式和结构并非由这些传输协议定义，而是由MIME(MultipurposeInternetMailExtensions)标准规范。Python的email库是处理MIME格式邮件的强
Python多线程vs多进程：一场关于效率的“宫斗戏“，谁才是你的真命天子？
清晨的咖啡还冒着热气，你盯着监控面板上飙升的CPU使用率，键盘敲出的代码在"多线程"和"多进程"之间反复横跳——这可能是每个Python开发者都会经历的"效率抉择时刻"。当项目从"能跑就行"进化到"必须快跑"，多线程与多进程这对"欢喜冤家"就会跳出来，用各自的"十八般武艺"让你挑花眼。今天咱们就来扒开表象，从底层机制到实战案例，彻底搞懂这对CP的爱恨纠葛。一、GIL：多线程头顶的"紧箍咒"要聊多线
【mongodb】mongodb数据备份与恢复向往风的男子运维日常 DBA mongodb 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen