CityD

Chapter7 循环神经网络-2

文章目录

5、LSTM & GRU
- 5.1、长短时记忆网络(Long Short-Term Memory, LSTM)
- - 5.1.1、相关概念
  - 5.1.2、从零开始实现
  - 5.1.3、简洁实现
- 5.2、门控循环单元(Gated Recurrent Unit, GRU)
- - 5.2.1、相关概念
  - 5.2.2、模型实现
6、深度循环神经网络
7、双向循环神经网络(Bi-RNN)
8、RNN更多的应用

第一部分地址

5、LSTM & GRU

在实际应用中，上述的标准循环神经网络的优化算法面临一个很大的问题，就是长期依赖问题——由于网络结构的变深使得模型丧失了学习到先前信息的能力。简单来说，标准的循环神经网络实际上虽然有了记忆，但很健忘。当时间步较大或者时间步

当时间步较大或者时间步较小时，循环神经网络的梯度比较容易出现衰减或爆炸。虽然裁剪梯度能够应对梯度爆炸，但无法解决梯度衰减的问题。由于这个原因，循环神经网络在实际中较难捕捉时间序列中时间步距离较大的依赖问题，无法实现长时记忆。那如何解决这个问题？解决RNN中梯度消失方法很多，常用的有：

选取更好的激活函数，如ReLU激活函数。ReLU函数的左侧导数为0，右侧导数恒为1，这就避免了“梯度消失”的发生。
加入Batch Normalization层，其优点可以包括可以加速收敛、控制过拟合。
修改网络的结构，LSTM和GRU可以有效的解决这个问题。

下面LSTM和GRU是如何进行工作的。

5.1、长短时记忆网络(Long Short-Term Memory, LSTM)

5.1.1、相关概念

LSTM中引入了3个门，即输入门(input gate)、遗忘门(forget gate)和输出门(output gate)，以及与隐藏状态形状相同的记忆细胞。

LSTM用两个门来控制记忆细胞 $C$ 的内容，一个是遗忘门，它决定了上一时刻的记忆细胞 $C_{t-1}$ 有多少保留到当前时刻 $C_t$ ；另一个是输入门，它决定了当前时刻网络的输入 $X_t$ 有多少保存到记忆细胞 $C_t$ 。LSTM用输出门来控制单元状态 $C_t$ 有多少输出到LSTM的当前输出值 $H_t$ 。LSTM的循环结构如下图所示：

假设隐藏单元特征向量长度为 $h$ ，给定时间步 $t$ 的小批量输入 $X_t \in R^{x \times d}$ (样本数为n，输入的向量长度为d)和上一时间步隐藏状态 $H_{t-1} \in R^{n \times h}$ 。时间步t的输入门 $I_t \in R^{n \times h}$ 、遗忘门 $F_t \in R^{n \times h}$ 和输出门 $O_t \in R^{n \times h}$ 分别计算如下：
$I_t = \sigma(X_tW_{xi}+H_{t-1}W_{hi}+b_i)\\ F_t = \sigma(X_tW_{xf}+H_{t-1}W_{hf}+b_f)\\ O_t = \sigma(X_tW_{xo}+H_{t-1}W_{ho}+b_o)$
其中的 $W_{xi},W_{xf},W_{xo} \in R^{d \times h}$ 和 $W_{hi},W_{hf},W_{ho} \in R^{h \times h}$ 是权重参数， $b_i,b_f,b_o \in R^{1 \times h}$ 是偏差参数。

时间步t的候选记忆细胞 $\tilde{C}_t \in R^{n \times h}$ 的计算为：
$\tilde{C}_t = tanh(X_tW_{xc}+H_{t-1}W_{hc}+b_c)$
其中 $W_{xc} \in R^{d \times h}$ 和 $W_{hc} \in R^{h \times h}$ 是权重参数， $b_c\in R^{1 \times h}$ 是偏差参数。

当前时间步的记忆细胞 $C_t \in R^{n \times h}$ 的计算组合了上一时间步记忆细胞和当前时间步候选记忆细胞的信息，并通过遗忘门和输入门进行控制合成：
$C_t = F_t \bigodot C_{t-1} + I_t \bigodot \tilde{C}_t$
这个设计可以应对循环神经网络中的梯度衰减问题，并更好地捕捉时间序列中时间步距离较大的依赖关系。

有了当前时间步的记忆细胞后，就可以通过输出门来控制从记忆细胞到隐藏状态 $H_t\in R^{n \times h}$ 的信息流动：
$H_t = O_t \bigodot tanh(C_t)$

LSTM的完整的计算过程为：
$I_t = \sigma(X_tW_{xi}+H_{t-1}W_{hi}+b_i)\\ F_t = \sigma(X_tW_{xf}+H_{t-1}W_{hf}+b_f)\\ O_t = \sigma(X_tW_{xo}+H_{t-1}W_{ho}+b_o)\\ \tilde{C}_t = tanh(X_tW_{xc}+H_{t-1}W_{hc}+b_c)\\ C_t = F_t \bigodot C_{t-1} + I_t \bigodot \tilde{C}_t\\ H_t = O_t \bigodot tanh(C_t)$

上面介绍的只是一个LSTM单元，而在一个多层的LSTM中，是由许许多多个这样的LSTM单元组成的，它的复杂程度是非常恐怖的，下面是它的一部分的结构图：

5.1.2、从零开始实现

下面从零实现LSTM，与RNN的实现过程一样，也使用The Time Machine数据集，实现导入所使用的包并加载数据集。由于重点为怎么从零实现LSTM的结构以加深对LSTM的理解，因此数据加载以处理的代码就不再过多描述。

import torch
from torch import nn
from d2l import torch as d2l
from torch.nn import functional as F

batch_size, num_steps = 32,35
train_iter, vocab = load_data_time_machine(batch_size,num_steps)

初始化模型参数

对模型中所使用的参数进行初始化，num_hiddens指的是隐藏单元的特征向量的长度。

#初始化模型参数
def get_lstm_param(vocab_size,num_hiddens,device):
    num_inputs = num_outputs = vocab_size

    def normal(shape):
        return torch.randn(size = shape, device = device) * 0.01

    def three():
        return (normal((num_inputs,num_hiddens)),
                normal((num_hiddens,num_hiddens)),
                torch.zeros(num_hiddens,device = device))
    #输入门参数
    W_xi,W_hi,b_i = three()
    # 遗忘门参数
    W_xf, W_hf, b_f = three()
    # 输出门参数
    W_xo, W_ho, b_o = three()
    # 候选记忆单元参数
    W_xc, W_hc, b_c = three()
    #输出层参数
    W_hq = normal((num_hiddens,num_outputs))
    b_q = torch.zeros(num_outputs,device = device)
    #因为需要计算梯度，将参数的requires_grad属性设置为True
    params = [W_xi,W_hi,b_i,W_xf, W_hf, b_f,W_xo, W_ho, b_o,W_xc, W_hc, b_c,W_hq,b_q]
    for param in params:
        param.requires_grad_(True)
    return params

对隐藏单元和记忆单元进行初始化

LSTM在处理第一个时间步的时候，还需要一个初始的隐藏状态和记忆单元，因此需要获得初始的隐藏状态和记忆单元。

#初始状态的隐状态和记忆单元
def init_lstm_state(batch_size,num_hiddens,device):
    return (torch.zeros((batch_size,num_hiddens),device = device),
            torch.zeros((batch_size,num_hiddens),device = device))

LSTM核心计算过程

模型的计算需要三个门和一个额外的记忆单元。只有隐状态才会传递到输出层，而记忆单元 $C_t$ 不会直接参与到输出计算中。

#定义lstm单元的计算过程，输入为三个门和一个额外记忆单元，只有隐状态才会传递到输出层，记忆单元不会参与输出计算
def lstm(inputs,state,params):
    [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, b_c, W_hq, b_q] = params
    (H,C) = state
    outputs = []
    for X in inputs:
        I = torch.sigmoid((X @ W_xi) + (H @ W_hi) + b_i)
        F = torch.sigmoid((X @ W_xf) + (H @ W_hf) + b_f)
        O = torch.sigmoid((X @ W_xo) + (H @ W_ho) + b_o)
        C_tilda = torch.tanh((X @ W_xc) + (H @ W_hc) + b_c)
        C = F * C + I * C_tilda
        H = O * torch.tanh(C)
        Y = (H @ W_hq) + b_q
        outputs.append(Y)
    return torch.cat(outputs,dim=0),(H,C)

对模型的各部分进行整个，得到完整的LSTM

下面将模型参数初始化，初始状态，以及lstm计算过程进行整合，得到一个完整的可以用于模型训练的网络。

#将上述操作进行整合，得到一个完整的LSTM
class LSTMModelScratch:
    def __init__(self,vocab_size,num_hiddens,device,get_params,init_state,forward_fn):
        self.vocab_size,self.num_hiddens = vocab_size,num_hiddens
        self.params = get_params(vocab_size,num_hiddens,device)
        self.init_state,self.forward_fn = init_state,forward_fn
    def __call__(self,X,state):
        X = F.one_hot(X.T,self.vocab_size).type(torch.float32)
        return self.forward_fn(X,state,self.params)
    def begin_state(self,batch_size,device):
        return self.init_state(batch_size,self.num_hiddens,device)

训练和预测

使用定义的LSTM模型，然后使用RNN所使用的模型训练和预测过程对LSTM模型进行训练。

vocab_size,num_hiddens,device = len(vocab),256,try_gpu()
num_epochs,lr = 500,1
model = LSTMModelScratch(len(vocab),num_hiddens,device,get_lstm_param,
                         init_lstm_state,lstm)
train(model,train_iter,vocab,lr,num_epochs,device)

困惑度 1.2, 24859.8 词元/秒 cuda:0
time traveller for somephing sofiens which there is to not meact
traveller har in the mericcitnemoter procectithe oflicttyen

代码整合

# -*- coding: utf-8 -*-
# @Time : 2022/4/22 17:37
# @Author : tiancn
import collections
import re
import random
import math
import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l


#1. 数据处理部分

#传入time_machine数据集的下载地址以及哈希校验码
d2l.DATA_HUB['time_machine'] = (d2l.DATA_URL + 'timemachine.txt',
                                '090b5e7e70c295757f55df93cb0a180b9691891a')
#将time_machine数据集加载到文本行的列表中
def read_time_machine():
    #下载timemachine.txt文件，并打开文件按行读取内容
    with open(d2l.download('time_machine'),'r') as f:
        lines = f.readlines()
    #re.sub('[^A-Za-z]+',' ',line):使用正则表达式匹配多个连续的非字母，将它们替换为空格
    #strip()； 去除字符串两边的空格
    #lower():转换字符串中所有大写字符为小写。
    return [re.sub('[^A-Za-z]+',' ',line).strip().lower() for line in lines]

#将文本拆分为单词或者字符词元
def tokenize(lines, token = 'word'):
    #拆分为单词
    if token == 'word':
        return [line.split() for line in lines]
    #拆分为字符
    elif token == 'char':
        return [list(line) for line in lines]
    else:
        print('错误:未知词元类型：'+token)

#统计词元的频率，返回每个词元及其出现的次数，以一个字典形式返回。
def count_corpus(tokens):
    #这里的tokens是一个1D列表或者是2D列表
    if len(tokens) == 0 or isinstance(tokens[0], list):
        #将词元列表展平为一个列表
        tokens = [token for line in tokens for token in line]
    #该方法用于统计某序列中每个元素出现的次数，以键值对的方式存在字典中。
    return collections.Counter(tokens)

#文本词表
class Vocab:
    def __init__(self,tokens = None, min_freq = 0, reserved_tokens = None):
        if tokens is None:
            tokens = []
        if reserved_tokens is None:
            reserved_tokens = []
        #按照单词出现频率排序
        counter = count_corpus(tokens)
        #counter.items():为一个字典
        #lambda x:x[1]:对第二个字段进行排序
        #reverse = True:降序
        self._token_freqs = sorted(counter.items(),key = lambda x:x[1],reverse = True)

        #未知单词的索引为0
        #idx_to_token用于保存所有未重复的词元
        self.idx_to_token = [''] + reserved_tokens
        #token_to_idx:是一个字典，保存词元和其对应的索引
        self.token_to_idx = {token:idx for idx,token in enumerate(self.idx_to_token)}

        for token, freq in self._token_freqs:
            #min_freq为最小出现的次数，如果小于这个数，这个单词被抛弃
            if freq < min_freq:
                break
            #如果这个词元未出现在词表中，将其添加进词表
            if token not in self.token_to_idx:
                self.idx_to_token.append(token)
                #因为第一个位置被位置单词占据
                self.token_to_idx[token] = len(self.idx_to_token) - 1
    #返回词表的长度
    def __len__(self):
        return len(self.idx_to_token)

    #获取要查询词元的索引，支持list，tuple查询多个词元的索引
    def __getitem__(self, tokens):
        if not isinstance(tokens,(list,tuple)):
            #self.unk：如果查询不到返回0
            return self.token_to_idx.get(tokens,self.unk)
        return [self.__getitem__(token) for token in tokens]

    # 根据索引查询词元，支持list，tuple查询多个索引对应的词元
    def to_tokens(self,indices):
        if not  isinstance(indices,(list,tuple)):
            return self.idx_to_token[indices]
        return [self.idx_to_token[index] for index in indices]
    @property
    def unk(self):
        return 0
    @property
    def token_freqs(self):
        return self._token_freqs

#返回The Time Machine数据集的词元索引别表和词表
def load_corpus_time_machine(max_tokens = -1):
    lines = read_time_machine()
    tokens = tokenize(lines,'char')
    vocab = Vocab(tokens)

    #因为The Time Machine数据集中的每个文本行不一定是一个句子或者是一个段落
    #所以将所有文本行展平到一个列表中
    #保存数据集中每个字符的索引
    corpus = [vocab[token] for line in tokens for token in line]
    if max_tokens > 0:
        corpus = corpus[:max_tokens]
    return corpus,vocab

#2.读取处理好的数据，以便于模型训练

# 使用随机抽样生成一个小批量子序列
def seq_data_iter_random(corpus, batch_size, num_steps):
    # 随机偏移量开始对序列进行分区，随机范围包括num_steps-1
    corpus = corpus[random.randint(0, num_steps - 1):]

    # 减去1，是因为需要考虑标签
    # num_subseqs：表示分割的序列的条数
    num_subseqs = (len(corpus) - 1) // num_steps

    # 长度为num_steps的子序列的起始索引编号
    initial_indices = list(range(0, num_subseqs * num_steps, num_steps))

    # 在随机抽样的迭代过程中，来自两个相邻的、随机的、小批量的子序列不一定在原始序列上相邻
    # 因此将起始索引编号打乱
    random.shuffle(initial_indices)

    # 返回从pos位置开始的长度为num_steps的序列
    def data(pos):
        return corpus[pos: pos + num_steps]

    # 表示一共有多少个批量
    num_batches = num_subseqs // batch_size

    # 从0到批量大小×批量的数量遍历，间隔为批量大小，即从循环次数为批量的数量
    for i in range(0, batch_size * num_batches, batch_size):
        # initial_indices包含子序列的随机起始索引
        initial_indices_per_batch = initial_indices[i: i + batch_size]
        # 按照起始索引获取每一个样本和标签序列。
        X = [data(j) for j in initial_indices_per_batch]
        Y = [data(j + 1) for j in initial_indices_per_batch]
        # 返回一个可以用来迭代(for循环)的生成器,因为按照批量大小，返回的数据是多条的
        yield torch.tensor(X), torch.tensor(Y)


# 使用相邻采样生成一个小批量子序列
def seq_data_iter_sequential(corpus, batch_size, num_steps):
    # 从随机偏移量开始划分序列
    offest = random.randint(0, num_steps)
    # 获取用于最终训练的序列，因为有偏移量和不能整除，因此对输入的序列进行处理
    num_tokens = ((len(corpus) - offest - 1) // batch_size) * batch_size

    # 样本序列
    Xs = torch.tensor(corpus[offest:offest + num_tokens])
    # 标签序列
    Ys = torch.tensor(corpus[offest + 1: offest + num_tokens + 1])

    # 转为2维数据，行代表不同批次
    Xs, Ys = Xs.reshape(batch_size, -1), Ys.reshape(batch_size, -1)

    # 为批次的数量
    num_batchs = Xs.shape[1] // num_steps
    # 循环输出
    for i in range(0, num_steps * num_batchs, num_steps):
        X = Xs[:, i:i + num_steps]
        Y = Ys[:, i:i + num_steps]
        yield X, Y

#加载序列数据的迭代器
class SeqDataLoader:
    def __init__(self,batch_size,num_steps,use_random_iter,max_tokens):
        if use_random_iter:
            self.data_iter_fn = seq_data_iter_random
        else:
            self.data_iter_fn = seq_data_iter_sequential
        self.corpus, self.vocab = load_corpus_time_machine(max_tokens)
        self.batch_size,self.num_steps = batch_size,num_steps
    def __iter__(self):
        return self.data_iter_fn(self.corpus,self.batch_size,self.num_steps)

#返回时光机器数据集的迭代器和词表
def load_data_time_machine(batch_size,num_steps,use_random_iter = False,max_tokens = 10000):
    data_iter = SeqDataLoader(batch_size,num_steps,use_random_iter,max_tokens)
    return data_iter,data_iter.vocab


#3.LSTM神经网络搭建部分

#初始化模型参数
def get_lstm_param(vocab_size,num_hiddens,device):
    num_inputs = num_outputs = vocab_size

    def normal(shape):
        return torch.randn(size = shape, device = device) * 0.01

    def three():
        return (normal((num_inputs,num_hiddens)),
                normal((num_hiddens,num_hiddens)),
                torch.zeros(num_hiddens,device = device))
    #输入门参数
    W_xi,W_hi,b_i = three()
    # 遗忘门参数
    W_xf, W_hf, b_f = three()
    # 输出门参数
    W_xo, W_ho, b_o = three()
    # 候选记忆单元参数
    W_xc, W_hc, b_c = three()
    #输出层参数
    W_hq = normal((num_hiddens,num_outputs))
    b_q = torch.zeros(num_outputs,device = device)
    #因为需要计算梯度，将参数的requires_grad属性设置为True
    params = [W_xi,W_hi,b_i,W_xf, W_hf, b_f,W_xo, W_ho, b_o,W_xc, W_hc, b_c,W_hq,b_q]
    for param in params:
        param.requires_grad_(True)
    return params

#初始状态的隐状态和记忆单元
def init_lstm_state(batch_size,num_hiddens,device):
    return (torch.zeros((batch_size,num_hiddens),device = device),
            torch.zeros((batch_size,num_hiddens),device = device))

#定义lstm单元的计算过程，输入为三个门和一个额外记忆单元，只有隐状态才会传递到输出层，记忆单元不会参与输出计算
def lstm(inputs,state,params):
    [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, b_c, W_hq, b_q] = params
    (H,C) = state
    outputs = []
    for X in inputs:
        I = torch.sigmoid((X @ W_xi) + (H @ W_hi) + b_i)
        F = torch.sigmoid((X @ W_xf) + (H @ W_hf) + b_f)
        O = torch.sigmoid((X @ W_xo) + (H @ W_ho) + b_o)
        C_tilda = torch.tanh((X @ W_xc) + (H @ W_hc) + b_c)
        C = F * C + I * C_tilda
        H = O * torch.tanh(C)
        Y = (H @ W_hq) + b_q
        outputs.append(Y)
    return torch.cat(outputs,dim=0),(H,C)

#将上述操作进行整合，得到一个完整的LSTM
class LSTMModelScratch:
    def __init__(self,vocab_size,num_hiddens,device,get_params,init_state,lstm):
        self.vocab_size,self.num_hiddens = vocab_size,num_hiddens
        self.params = get_params(vocab_size,num_hiddens,device)
        self.init_state,self.lstm = init_state,lstm
    def __call__(self,X,state):
        X = F.one_hot(X.T,self.vocab_size).type(torch.float32)
        return self.lstm(X,state,self.params)
    def begin_state(self,batch_size,device):
        return self.init_state(batch_size,self.num_hiddens,device)

#使用GPU
#如果存在，则返回gpu(i)，否则返回cpu
def try_gpu(i=0):
    if torch.cuda.device_count()>=i+1:
        return torch.device(f'cuda:{i}')
    return torch.device('cpu')

#4.预测部分


#在prefix后面生成新字符
def predict(prefix, num_preds, net, vocab, device):
    # 获取初始状态
    state = net.begin_state(batch_size=1, device=device)
    # 保存输出的字符
    outputs = [vocab[prefix[0]]]
    # 获得当前时间步的输入，为输出列表的最后一个字符
    get_input = lambda: torch.tensor([outputs[-1]], device=device).reshape((1, 1))

    # 预热期
    for y in prefix[1:]:
        _, state = net(get_input(), state)
        outputs.append(vocab[y])
    # 预测num_pred步
    for _ in range(num_preds):
        y, state = net(get_input(), state)
        outputs.append(int(y.argmax(dim=1).reshape(1)))
    return ''.join([vocab.idx_to_token[i] for i in outputs])



#5.模型训练部分

#裁剪梯度
def grad_clipping(net,theta):
    if isinstance(net,nn.Module):
        params = [p for p in net.parameters() if p.requires_grad]
    else:
        params = net.params
    norm = torch.sqrt(sum(torch.sum((p.grad ** 2)) for p in params))
    if norm > theta:
        for param in params:
            param.grad[:] *= theta / norm


# 自定义优化器
def sgd(params, lr, batch_size):
    # 小批量随机梯度下降
    with torch.no_grad():
        for param in params:
            param -= lr * param.grad / batch_size
            param.grad.zero_()


def train(net, train_iter, vocab, lr, num_epochs, device, use_random_iter=False):
    # 交叉熵损失函数
    loss = nn.CrossEntropyLoss()
    animator = d2l.Animator(xlabel='epoch', ylabel='perplexity',
                            legend=['train'], xlim=[10, num_epochs])
    if isinstance(net, nn.Module):
        updater = torch.optim.SGD(net.parameters(), lr)
    else:
        updater = lambda batch_size: sgd(net.params, lr, batch_size)
    predict_ = lambda prefix: predict(prefix, 50, net, vocab, device)

    for epoch in range(num_epochs):
        state, timer = None, d2l.Timer()
        # 记录损失之和，词元数量
        metric = d2l.Accumulator(2)
        for X, Y in train_iter:
            # 第一次迭代或者使用随机抽样是初始化state
            if state is None or use_random_iter:
                state = net.begin_state(batch_size=X.shape[0], device=device)
            else:
                if isinstance(net, nn.Module) and not isinstance(state, tuple):
                    state.detach_()
                else:
                    for s in state:
                        s.detach_()
            # 更改标签形状，与输出一样，便于计算损失
            y = Y.T.reshape(-1)
            X, y = X.to(device), y.to(device)
            # 返回输出和状态
            y_hat, state = net(X, state)
            # 计算损失
            l = loss(y_hat, y.long()).mean()
            # 针对优化器是pytotch还是自定义有不同的优化方法
            if isinstance(updater, torch.optim.Optimizer):
                updater.zero_grad()
                l.backward()
                grad_clipping(net, 1)
                updater.step()
            else:
                l.backward()
                grad_clipping(net, 1)
                updater(batch_size=1)

            metric.add(l * y.numel(), y.numel())
        # 返回困惑度和平均用时
        ppl, speed = math.exp(metric[0] / metric[1]), metric[1] / timer.stop()

        if (epoch + 1) % 10 == 0:
            print(predict_('time traveller'))
            animator.add(epoch + 1, [ppl])
    print(f'困惑度 {ppl:.1f}, {speed:.1f} 词元/秒 {str(device)}')

#定义参数，训练模型
#6. 获取数据，实例化模型，训练模型并预测
#批量大小，时间步长
batch_size, num_steps = 32,35
#训练轮次，学习率
num_epochs, lr = 500, 1
#隐藏层特征数量
num_hiddens = 512

#返回时光机器数据集的迭代器和词表
#train_iter中已经将样本和标签处理好，并且将数据以索引的形式保存
#vocab为词表，用于将相应的索引转为文本
train_iter,vocab = load_data_time_machine(batch_size, num_steps)

#定义模型
net = LSTMModelScratch(len(vocab),num_hiddens,try_gpu(),get_lstm_param,init_lstm_state,lstm)

#训练模型
train(net, train_iter, vocab, lr, num_epochs, try_gpu())

困惑度 1.2, 16917.7 词元/秒 cuda:0

#使用训练的模型进行预测
predict('time traveller', 50, net, vocab, try_gpu())

'time traveller for so it will be convenient to speak of himwas e'

5.1.3、简洁实现

下面使用Pytorch中的关于LSTM的相关函数实现LSTM，并使用之前的The Time Machine数据集对模型进行训练。与RNN类型，Pytorch同样有两个函数可以实现LSTM，即torch.nn.LSTM和torch.nn.LSTMCell。它们之间的区别也和torch.nn.RNN和torch.nn.RNNCell是一样的，下面主要介绍torch.nn.LSTM，并使用它搭建一个LSTM模型。

torch.nn.LSTM在Pytorch中的结构为：

torch.nn.LSTM(*args, **kwargs)

它的相关参数与RNN类似有：

input_size：输入x中预期特征数量
hidden_size：隐藏层的特征数量
num_layers：循环层数。设置num_layers=2意味着将两个LSTM堆叠在一起形成一个堆叠的LSTM，第二个LSTM接受第一个LSTM的输出并计算最终结果。默认为1.
bias：如果是False，该层层就不会使用偏置权重，默认是True
batch_first：如果为True的话，那么输入Tensor的shape应该是(batch,seq,feature)，输出也是这样。默认为False，即网络输入为(seq,batch,feature)，即序列长度、批次大小、特征维度
dropout：如果值非零(参数的取值范围在0-1之间)，那么除了最后一层外，其他层的输出都会加上一个dropout层，默认为0
bidirectional：如果True，将变成一个双向的LSTM，默认为False。
proj_size:如果大于0，将使用LSTM与相应大小的投影。默认值：0。

函数torch.nn.RNN()的输入为输入特征特征、隐藏状态和记忆单元，记为 $x_t,(h_0,c_0))$ ，输出包括输出特征、输出隐藏状态和输出记忆单元，记为 $output_t,(h_n,c_n))$ 。其中输出的output_t为每一时间步隐藏状态的集合，没有经过线性层，因此使用完LSTM后一般还需要使用线性层，而 $h_n$ 和 $c_n$ 为当前时间步的隐藏状态和记忆单元。

输入特征 $x_t$ 的形状为 $L,N,H_{in})$ ，分别为序列长度，批量大小，输入尺寸(就是一个词向量的长度，在这里指的是one-hot编码的长度)。而当batch_first=True时，输入的形状为 $N,L,H_{in})$ 。

h_0:张量的形状为 $D * num_layers,N,H_{out})$ ，如果没有提供该参数，则为0。

c_0:张量的形状为 $D * num_layers,N,H_{cell})$ ，如果没有提供该参数，则为0。

输入特征 $output_t$ 的形状为 $L,N,D * H_{out})$ ，分别为序列长度，批量大小，输出尺寸(其中D为是否双向，为1是单向，2为双向)。而当batch_first=True时，输入的形状为 $N,LD * H_{out})$ 。其中包含每一个时间步LSTM最后一层的输出。

h_n:张量的形状为 $D * num_layers,N,H_{out})$ ，包含序列中每个元素最终隐状态(即最后一个时间步的隐状态)。

c_n:张量的形状为 $D * num_layers,N,H_{cell})$ ，包含序列中每个元素最终的记忆细胞信息(最后一个时间步的记忆细胞信息)。

下面搭建模型试试吧！

还是老样子，导包，加载数据集。

import torch
from torch import nn
from d2l import torch as d2l
from torch.nn import functional as F

batch_size, num_steps = 32,35
train_iter, vocab = load_data_time_machine(batch_size,num_steps)

下面就使用Pytorch中的torch.nn.LSTM函数搭建模型。

class LSTMModel(nn.Module):
    def __init__(self,input_size,num_hiddens,**kwargs):
        super(LSTMModel, self).__init__(**kwargs)
        self.lstm = nn.LSTM(input_size,num_hiddens)
        self.vocab_size = input_size
        self.num_hiddens = num_hiddens
        # 如果LSTM是双向的，num_directions应该是2，否则应该是1
        if not self.lstm.bidirectional:
            self.num_directions = 1
            self.linear = nn.Linear(self.num_hiddens,self.vocab_size)
        else:
            self.num_directions = 2
            self.linear = nn.Linear(self.num_hiddens * 2,self.vocab_size)

    def forward(self,inputs,state):
        X = F.one_hot(inputs.T.long(),self.vocab_size)
        X = X.to(torch.float32)
        #staet为一个元组，包含了隐藏状态和记忆单元
        Y,state = self.lstm(X,state)

        # 全连接层首先将Y的形状改为(时间步数*批量大小,隐藏单元数)
        # 它的输出形状是(时间步数*批量大小,词表大小)。
        output = self.linear(Y.reshape((-1, Y.shape[-1])))
        return output,state

    def begin_state(self, device, batch_size=1):
            # nn.LSTM以元组作为隐状态
            return (torch.zeros((self.num_directions * self.lstm.num_layers,
                                 batch_size,self.num_hiddens),device=device),
                    torch.zeros((self.num_directions * self.lstm.num_layers,
                                 batch_size,self.num_hiddens),device=device))

下面就实例化模型，并使用数据集对模型进行训练。

device = try_gpu()
#实例化模型
net = LSTMModel(input_size=len(vocab),num_hiddens=num_hiddens)
net = net.to(device)

#模型训练
num_epochs,lr = 500,1
train(net,train_iter,vocab,lr,num_epochs,device)

困惑度 1.0, 40644.4 词元/秒 cuda:0

代码整合

# -*- coding: utf-8 -*-
# @Time : 2022/4/22 22:10
# @Author : tiancn
#传入time_machine数据集的下载地址以及哈希校验码
import collections
import re
import random
import numpy
import math
import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l


#1. 数据处理部分
d2l.DATA_HUB['time_machine'] = (d2l.DATA_URL + 'timemachine.txt',
                                '090b5e7e70c295757f55df93cb0a180b9691891a')
#将time_machine数据集加载到文本行的列表中
def read_time_machine():
    #下载timemachine.txt文件，并打开文件按行读取内容
    with open(d2l.download('time_machine'),'r') as f:
        lines = f.readlines()
    #re.sub('[^A-Za-z]+',' ',line):使用正则表达式匹配多个连续的非字母，将它们替换为空格
    #strip()； 去除字符串两边的空格
    #lower():转换字符串中所有大写字符为小写。
    return [re.sub('[^A-Za-z]+',' ',line).strip().lower() for line in lines]

#将文本拆分为单词或者字符词元
def tokenize(lines, token = 'word'):
    #拆分为单词
    if token == 'word':
        return [line.split() for line in lines]
    #拆分为字符
    elif token == 'char':
        return [list(line) for line in lines]
    else:
        print('错误:未知词元类型：'+token)

#统计词元的频率，返回每个词元及其出现的次数，以一个字典形式返回。
def count_corpus(tokens):
    #这里的tokens是一个1D列表或者是2D列表
    if len(tokens) == 0 or isinstance(tokens[0], list):
        #将词元列表展平为一个列表
        tokens = [token for line in tokens for token in line]
    #该方法用于统计某序列中每个元素出现的次数，以键值对的方式存在字典中。
    return collections.Counter(tokens)

#文本词表
class Vocab:
    def __init__(self,tokens = None, min_freq = 0, reserved_tokens = None):
        if tokens is None:
            tokens = []
        if reserved_tokens is None:
            reserved_tokens = []
        #按照单词出现频率排序
        counter = count_corpus(tokens)
        #counter.items():为一个字典
        #lambda x:x[1]:对第二个字段进行排序
        #reverse = True:降序
        self._token_freqs = sorted(counter.items(),key = lambda x:x[1],reverse = True)

        #未知单词的索引为0
        #idx_to_token用于保存所有未重复的词元
        self.idx_to_token = [''] + reserved_tokens
        #token_to_idx:是一个字典，保存词元和其对应的索引
        self.token_to_idx = {token:idx for idx,token in enumerate(self.idx_to_token)}

        for token, freq in self._token_freqs:
            #min_freq为最小出现的次数，如果小于这个数，这个单词被抛弃
            if freq < min_freq:
                break
            #如果这个词元未出现在词表中，将其添加进词表
            if token not in self.token_to_idx:
                self.idx_to_token.append(token)
                #因为第一个位置被位置单词占据
                self.token_to_idx[token] = len(self.idx_to_token) - 1
    #返回词表的长度
    def __len__(self):
        return len(self.idx_to_token)

    #获取要查询词元的索引，支持list，tuple查询多个词元的索引
    def __getitem__(self, tokens):
        if not isinstance(tokens,(list,tuple)):
            #self.unk：如果查询不到返回0
            return self.token_to_idx.get(tokens,self.unk)
        return [self.__getitem__(token) for token in tokens]

    # 根据索引查询词元，支持list，tuple查询多个索引对应的词元
    def to_tokens(self,indices):
        if not  isinstance(indices,(list,tuple)):
            return self.idx_to_token[indices]
        return [self.idx_to_token[index] for index in indices]
    @property
    def unk(self):
        return 0
    @property
    def token_freqs(self):
        return self._token_freqs

#返回The Time Machine数据集的词元索引别表和词表
def load_corpus_time_machine(max_tokens = -1):
    lines = read_time_machine()
    tokens = tokenize(lines,'char')
    vocab = Vocab(tokens)

    #因为The Time Machine数据集中的每个文本行不一定是一个句子或者是一个段落
    #所以将所有文本行展平到一个列表中
    #保存数据集中每个字符的索引
    corpus = [vocab[token] for line in tokens for token in line]
    if max_tokens > 0:
        corpus = corpus[:max_tokens]
    return corpus,vocab

#2.读取处理好的数据，以便于模型训练

def seq_data_iter_random(corpus, batch_size, num_steps):
    # 随机偏移量开始对序列进行分区，随机范围包括num_steps-1
    corpus = corpus[random.randint(0, num_steps - 1):]

    # 减去1，是因为需要考虑标签
    # num_subseqs：表示分割的序列的条数
    num_subseqs = (len(corpus) - 1) // num_steps

    # 长度为num_steps的子序列的起始索引编号
    initial_indices = list(range(0, num_subseqs * num_steps, num_steps))

    # 在随机抽样的迭代过程中，来自两个相邻的、随机的、小批量的子序列不一定在原始序列上相邻
    # 因此将起始索引编号打乱
    random.shuffle(initial_indices)

    # 返回从pos位置开始的长度为num_steps的序列
    def data(pos):
        return corpus[pos: pos + num_steps]

    # 表示一共有多少个批量
    num_batches = num_subseqs // batch_size

    # 从0到批量大小×批量的数量遍历，间隔为批量大小，即从循环次数为批量的数量
    for i in range(0, batch_size * num_batches, batch_size):
        # initial_indices包含子序列的随机起始索引
        initial_indices_per_batch = initial_indices[i: i + batch_size]
        # 按照起始索引获取每一个样本和标签序列。
        X = [data(j) for j in initial_indices_per_batch]
        Y = [data(j + 1) for j in initial_indices_per_batch]
        # 返回一个可以用来迭代(for循环)的生成器,因为按照批量大小，返回的数据是多条的
        yield torch.tensor(X), torch.tensor(Y)


# 使用相邻采样生成一个小批量子序列
def seq_data_iter_sequential(corpus, batch_size, num_steps):
    # 从随机偏移量开始划分序列
    offest = random.randint(0, num_steps)
    # 获取用于最终训练的序列，因为有偏移量和不能整除，因此对输入的序列进行处理
    num_tokens = ((len(corpus) - offest - 1) // batch_size) * batch_size

    # 样本序列
    Xs = torch.tensor(corpus[offest:offest + num_tokens])
    # 标签序列
    Ys = torch.tensor(corpus[offest + 1: offest + num_tokens + 1])

    # 转为2维数据，行代表不同批次
    Xs, Ys = Xs.reshape(batch_size, -1), Ys.reshape(batch_size, -1)

    # 为批次的数量
    num_batchs = Xs.shape[1] // num_steps
    # 循环输出
    for i in range(0, num_steps * num_batchs, num_steps):
        X = Xs[:, i:i + num_steps]
        Y = Ys[:, i:i + num_steps]
        yield X, Y

        
#加载序列数据的迭代器
class SeqDataLoader:
    def __init__(self,batch_size,num_steps,use_random_iter,max_tokens):
        if use_random_iter:
            self.data_iter_fn = seq_data_iter_random
        else:
            self.data_iter_fn = seq_data_iter_sequential
        self.corpus, self.vocab = load_corpus_time_machine(max_tokens)
        self.batch_size,self.num_steps = batch_size,num_steps
    def __iter__(self):
        return self.data_iter_fn(self.corpus,self.batch_size,self.num_steps)

#返回时光机器数据集的迭代器和词表
def load_data_time_machine(batch_size,num_steps,use_random_iter = False,max_tokens = 10000):
    data_iter = SeqDataLoader(batch_size,num_steps,use_random_iter,max_tokens)
    return data_iter,data_iter.vocab


#3.LSTM网络搭建部分
class LSTMModel(nn.Module):
    def __init__(self,input_size,num_hiddens,**kwargs):
        super(LSTMModel, self).__init__(**kwargs)
        self.lstm = nn.LSTM(input_size,num_hiddens)
        self.vocab_size = input_size
        self.num_hiddens = num_hiddens
        # 如果LSTM是双向的，num_directions应该是2，否则应该是1
        if not self.lstm.bidirectional:
            self.num_directions = 1
            self.linear = nn.Linear(self.num_hiddens,self.vocab_size)
        else:
            self.num_directions = 2
            self.linear = nn.Linear(self.num_hiddens * 2,self.vocab_size)

    def forward(self,inputs,state):
        X = F.one_hot(inputs.T.long(),self.vocab_size)
        X = X.to(torch.float32)
        #staet为一个元组，包含了隐藏状态和记忆单元
        Y,state = self.lstm(X,state)

        # 全连接层首先将Y的形状改为(时间步数*批量大小,隐藏单元数)
        # 它的输出形状是(时间步数*批量大小,词表大小)。
        output = self.linear(Y.reshape((-1, Y.shape[-1])))
        return output,state

    def begin_state(self, device, batch_size=1):
            # nn.LSTM以元组作为隐状态
            return (torch.zeros((self.num_directions * self.lstm.num_layers,
                                 batch_size,self.num_hiddens),device=device),
                    torch.zeros((self.num_directions * self.lstm.num_layers,
                                 batch_size,self.num_hiddens),device=device))

#使用GPU
#如果存在，则返回gpu(i)，否则返回cpu
def try_gpu(i=0):
    if torch.cuda.device_count()>=i+1:
        return torch.device(f'cuda:{i}')
    return torch.device('cpu')

#4.预测部分


#在prefix后面生成新字符
def predict(prefix, num_preds, net, vocab, device):
    # 获取初始状态
    state = net.begin_state(batch_size=1, device=device)
    # 保存输出的字符
    outputs = [vocab[prefix[0]]]
    # 获得当前时间步的输入，为输出列表的最后一个字符
    get_input = lambda: torch.tensor([outputs[-1]], device=device).reshape((1, 1))

    # 预热期
    for y in prefix[1:]:
        _, state = net(get_input(), state)
        outputs.append(vocab[y])
    # 预测num_pred步
    for _ in range(num_preds):
        y, state = net(get_input(), state)
        outputs.append(int(y.argmax(dim=1).reshape(1)))
    return ''.join([vocab.idx_to_token[i] for i in outputs])

#5.模型训练部分

#裁剪梯度
def grad_clipping(net,theta):
    if isinstance(net,nn.Module):
        params = [p for p in net.parameters() if p.requires_grad]
    else:
        params = net.params
    norm = torch.sqrt(sum(torch.sum((p.grad ** 2)) for p in params))
    if norm > theta:
        for param in params:
            param.grad[:] *= theta / norm
            
def train(net, train_iter, vocab, lr, num_epochs, device, use_random_iter=False):
    # 交叉熵损失函数
    loss = nn.CrossEntropyLoss()
    animator = d2l.Animator(xlabel='epoch', ylabel='perplexity',
                            legend=['train'], xlim=[10, num_epochs])

    updater = torch.optim.SGD(net.parameters(), lr)
    predict_ = lambda prefix: predict(prefix, 50, net, vocab, device)

    for epoch in range(num_epochs):
        state, timer = None, d2l.Timer()
        # 记录损失之和，词元数量
        metric = d2l.Accumulator(2)
        for X, Y in train_iter:
            # 第一次迭代或者使用随机抽样是初始化state
            if state is None or use_random_iter:
                state = net.begin_state(batch_size=X.shape[0], device=device)
            else:
                if isinstance(net, nn.Module) and not isinstance(state, tuple):
                    state.detach_()
                else:
                    for s in state:
                        s.detach_()
            # 更改标签形状，与输出一样，便于计算损失
            y = Y.T.reshape(-1)
            X, y = X.to(device), y.to(device)
            # 返回输出和状态
            y_hat, state = net(X, state)
            # 计算损失
            l = loss(y_hat, y.long()).mean()
            # 针对优化器是pytotch还是自定义有不同的优化方法
            updater.zero_grad()
            l.backward()
            grad_clipping(net, 1)
            updater.step()

            metric.add(l * y.numel(), y.numel())
        # 返回困惑度和平均用时
        ppl, speed = math.exp(metric[0] / metric[1]), metric[1] / timer.stop()

        if (epoch + 1) % 10 == 0:
            print(predict_('time traveller'))
            animator.add(epoch + 1, [ppl])
    print(f'困惑度 {ppl:.1f}, {speed:.1f} 词元/秒 {str(device)}')
    #print(predict_('time traveller'))
    #print(predict_('traveller'))

下面训练模型

batch_size, num_steps = 32, 35
# 训练轮次，学习率
num_epochs, lr = 500, 1
# 隐藏层特征数量
num_hiddens = 512
# 返回时光机器数据集的迭代器和词表
# train_iter中已经将样本和标签处理好，并且将数据以索引的形式保存
# vocab为词表，用于将相应的索引转为文本
train_iter, vocab = load_data_time_machine(batch_size, num_steps)
# 定义模型
net = LSTMModel(input_size=len(vocab),num_hiddens=num_hiddens)
net.to(try_gpu())
# 训练模型
train(net,train_iter,vocab,lr,num_epochs,try_gpu())

困惑度 1.1, 38936.0 词元/秒 cuda:0

使用训练的模型进行预测

predict('time traveller', 50, net, vocab, try_gpu())

'time traveller for so it will be convenient to speak of himwas e'

5.2、门控循环单元(Gated Recurrent Unit, GRU)

5.2.1、相关概念

上面介绍了LSTM，它有效的克服了传统RNN的一些不足，比较好的解决了梯度消失、长期依赖等问题。但是LSTM也存在一些不足，比如结构比较复杂、计算复杂度比较高等问题。因此后人在LSTM的基础上，有推出其他变种，如GRU。GRU对LSTM做了很多简化，比LSTM少了一个门，因此计算效率更高，占用内存也相对较少。

GRU对LSTM做了两大改动：

将输入门、遗忘门、输出门变为两个门：更新门(Update Gate) $Z_t$ 和重置门(Reset Gate) $R_t$ 。
将记忆单元和隐藏状态合并为一个隐藏状态： $H_t$

GRU的结构图如下所示：

给定时间步t的小批量输入 $X_t\in R^{n \times d}$ 和上一个时间步的隐藏状态 $H_{t-1} \in R^{n \times h}$ 。重置门 $R_t \in R^{n \times h}$ 和更新门 $Z_t \in R^{n \times h}$ 的计算为：
$R_t = \sigma(X_tW_{xr}+H_{t-1}W_{hr}+b_r)\\ Z_t = \sigma(X_tW_{xz}+H_{t-1}W_{hz}+b_z)$
其中 $W_{xr},W_{xz} \in R^{d \ times h}$ 和 $W_{hr},W_{hz} \in R^{h \ times h}$ 为权重参数， $b_r,b_z \in R^{x \ times h}$ 是偏差参数。

时间步t的候选隐藏状态的计算为：
$\tilde{H}_t = tanh(X_tW_{xh}+(R_t \bigodot H_{t-1})W_{hh}+b_h)$
其中 $W_{xh} \in R^{d \times h}$ 和 $W_{hh} \in R^{h \times h}$ 是权重参数， $b_n \in R^{1 \times h}$ 是偏差参数。从公式可以看出，重置门控制上一时间步的隐藏状态如何流入当前时间步的候选隐藏状态。重置门可以用来丢弃无关的历史信息。

时间步t的隐藏状态 $H_t \in R^{n\times h}$ 的计算是使用当前时间步的更新门 $Z_t$ 来对上一时间步的隐藏状态 $H_{t-1}$ 和当前时间步的候选隐藏状态 $\tilde{H}_t$ 做组合：
$H_t = Z_t\bigodot H_{t-1}+(1-Z_t)\bigodot \tilde{H}_t$
这个设计可以应对循环神经网络中的梯度衰减问题，并更好的捕捉时间序列中时间步距离较大的依赖关系。

在这里的的更新门代替了LSTM的是输入门和遗忘门，这样就可以使输入门和遗忘门进行一个联动。当输入门被打开的时候，遗忘门就会被关闭。这样就可以使用一个门完成了LSTM两个门的功能。

5.2.2、模型实现

在这里只对如何使用上述公式对GRU的计算进行代码实现，详细的代码与上面介绍的LSTM类似。例如数据加载，模型预测，模型训练等部分都与LSTM中从零开始实现一样。这里只介绍不一样的，如初始化模型参数，和模型中GRU计算部分。

import torch
from torch import nn
from d2l import torch as d2l
from torch.nn import functional as F

batch_size, num_steps = 32,35
train_iter, vocab = load_data_time_machine(batch_size,num_steps)

初始化模型参数

从标准差为的高斯分布中提取权重，并将偏置项设为，超参数num_hiddens定义隐藏单元特征数量，实例化与更新门、重置门、候选隐状态和输出层相关的所有权重和偏置。

def get_gru_params(vocab_size, num_hiddens, device):
    num_inputs = num_outputs = vocab_size

    def normal(shape):
        return torch.randn(size=shape, device=device)*0.01

    def three():
        return (normal((num_inputs, num_hiddens)),
                normal((num_hiddens, num_hiddens)),
                torch.zeros(num_hiddens, device=device))

    W_xz, W_hz, b_z = three()  # 更新门参数
    W_xr, W_hr, b_r = three()  # 重置门参数
    W_xh, W_hh, b_h = three()  # 候选隐状态参数
    # 输出层参数
    W_hq = normal((num_hiddens, num_outputs))
    b_q = torch.zeros(num_outputs, device=device)
    # 附加梯度
    params = [W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q]
    for param in params:
        param.requires_grad_(True)
    return params

定义初始化的隐状态

函数返回一个形状为（批量大小，隐藏单元个数）的张量，张量的值全部为零。

def init_gru_state(batch_size, num_hiddens, device):
    return (torch.zeros((batch_size, num_hiddens), device=device), )

模型计算过程

为使用上述公式对输入进行处理的过程。

def gru(inputs, state, params):
    W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q = params
    H, = state
    outputs = []
    for X in inputs:
        Z = torch.sigmoid((X @ W_xz) + (H @ W_hz) + b_z)
        R = torch.sigmoid((X @ W_xr) + (H @ W_hr) + b_r)
        H_tilda = torch.tanh((X @ W_xh) + ((R * H) @ W_hh) + b_h)
        H = Z * H + (1 - Z) * H_tilda
        Y = H @ W_hq + b_q
        outputs.append(Y)
    return torch.cat(outputs, dim=0), (H,)

对模型的各部分进行整个，得到完整的GRU

下面将模型参数初始化，初始状态，以及gru计算过程进行整合，得到一个完整的可以用于模型训练的网络。

#将上述操作进行整合，得到一个完整的LSTM
class GRUModelScratch:
    def __init__(self,vocab_size,num_hiddens,device,get_params,init_state,forward_fn):
        self.vocab_size,self.num_hiddens = vocab_size,num_hiddens
        self.params = get_params(vocab_size,num_hiddens,device)
        self.init_state,self.forward_fn = init_state,forward_fn
    def __call__(self,X,state):
        X = F.one_hot(X.T,self.vocab_size).type(torch.float32)
        return self.forward_fn(X,state,self.params)
    def begin_state(self,batch_size,device):
        return self.init_state(batch_size,self.num_hiddens,device)

实例化模型

vocab_size,num_hiddens,device = len(vocab),256,try_gpu()
num_epochs,lr = 500,1
model =GRUModelScratch(len(vocab),num_hiddens,device,get_gru_params,
                         init_gru_state,gru)
train(model,train_iter,vocab,lr,num_epochs,device)

困惑度 1.1, 26344.5 词元/秒 cuda:0

Pytorch中GRU的实现是使用torch.nn.GRU和torch.nn.GRUCell函数，与LSTM使用方法类似，其简介实现与LSTM类似，只需要将函数进行替换。

6、深度循环神经网络

前面介绍的RNN、LSTM、GRU都只有一个单向的隐藏层，而在深度学习中通常会使用含有多个隐藏层的循环神经网络，也称作深度循环神经网络。下图为有L个隐藏层的深度循环神经网络，每个隐藏状态不断传递至当前层的下一时间步和当前时间步的下一层。

具体来说，在时间步t里，设小批量输入 $X_t \in R^{n \times d}$ ，第 $l$ 隐藏层( $1,\cdots ,L$ )的隐藏状态 $H_t^{(l)}$ ，输出层变量为 $O_t \in R^{n \times q}$ ，且隐藏层的激活函数为 $\sigma$ ，第一层隐藏层的隐藏状态和之前计算一样：
$H_t^{(1)}=\sigma(X_tW_{xh}^{(1)}+H_{t-1}^{(1)}W_{hh}^{(1)}+b_h^{(1)})$
其中权重 $W_{xh}^{(1)}\in R^{d \times h}、W_{hh}^{(1)}\in R^{h \times h}$ 和偏差 $b_h^{(1)} \in R^{1\times h}$ 为第一隐藏层的模型参数。

当 $\lt l \le L$ 时，第 $l$ 隐藏层的隐藏状态的表达式为：
$H_t^{(l)}=\sigma(H_t^{(l-1)}W_{xh}^{(l)}+H_{t-1}^{(l)}W_{hh}^{(l)}+b_h^{(l)})$

其中权重 $W_{xh}^{(l)}\in R^{d \times h}、W_{hh}^{(l)}\in R^{h \times h}$ 和偏差 $b_h^{(l)} \in R^{1\times h}$ 为第 $l$ 隐藏层的模型参数。

最终，输出层的输出只需要基于第 $L$ 隐藏层的隐藏状态：
$O_t = H_t^{(L)}W_{hq}+b_q$
其中权重 $W_{h1} \in R^{h\times q}$ 和偏差 $b_q\in R^{1 \times q}$ 为输出层的模型参数。

同多层感知机一样，隐藏层的层数和隐藏单元的特征向量长度都为超参数。也可以将其应用到LSTM个GRU中，就可以得到深度LSTM和深度GRU。

在Pytorch中，实现也十分简单。在前面介绍的RNN，LSTM，GRU中，在pytorch中都有对应的函数，该函数中都有一个num_layers，我们只需要指定该参数为 $L$ ，就可以得到一个 $L$ 层深层循环神经网络。

7、双向循环神经网络(Bi-RNN)

之前介绍的循环神经网络的模型都是当前时间步是由前面的较早时间步的序列决定的，因此它们都将信息通过隐藏状态从前往后传递。但有时候掐面的信息也会由后面的信息决定，因此就需要双向循环神经网络(Bi-RNN)。Bi-RNN同时使用时序数据输入历史及未来数据，时序相反的两个神经网络连接同一输出，输出层可以同时获取历史和未来的信息。下图为双向循环神经网络的结构图。

给定时间步 $t$ 的小批量输入 $X_t \in R^{n \times d}$ 和隐藏层激活函数为 $\sigma$ 。在双向循环神经网络架构中，设该时间步正向隐藏状态为 $\overrightarrow {H}_t \in R_{n \times h}$ ，反向隐藏状态为 $\overleftarrow {H}_t \in R_{n \times h}$ 。正向隐藏状态和反向隐藏状态的计算为：
$\overrightarrow {H}_t=\sigma(X_tW_{xh}^{(f)}+\overrightarrow {H}_{t-1}W_{hh}^{(f)}+b_h^{(f)}) \\ \overleftarrow {H}_t=\sigma(X_tW_{xh}^{(b)}+\overrightarrow {H}_{t-1}W_{hh}^{(b)}+b_h^{(b)})$
其中权重 $W_{xh}^{(f)}、W_{hh}^{(f)}、W_{xh}^{(b)}、W_{hh}^{(b)}$ 和偏差 $b_h^{(f)}、b_h^{(b)}$ 均为模型参数。

然后连接两个方向的隐藏状态 $\overrightarrow {H}_t$ 和 $\overleftarrow {H}_t$ 来得到隐藏状态 $H_t \in R^{n \times 2h}$ ，并将其输入到输出层，输出层计算为：
$O_t = H_tW_{hq}+b_q$
其中 $W_{hq}$ 和 $b_q$ 为输出层模型参数。

Bi-RNN中的思想也可以用于LSTM和GRU。Bi-RNN的在pytorch中的实现也很简单，只需要修改torch.nn.RNN，torch.nn.LSTM或者torch.nn.GRU等函数中的bidirectional参数为True就好了，具体实现代码只需要将5.1.3节中或者4.5.2节中模型定义中将bidirectional参数为True就好了，其他搭建过程与之前介绍的是一样的。

8、RNN更多的应用

在上面的介绍中，我们所训练的RNN的模型处理的问题是使用当前的单词去预测下一个单词，在形式上来看为多个输入多个输出的问题(训练的时候输入的个数和输出的个数是相同的)。RNN不仅可以处理这种问题,还可以解决更多复杂的问题，RNN的输入和输出可以为多种形式，比如一对一，一对多，多对一，多对多等。下面是这些输入输出形式的结构图：

上图中红色代表输入，蓝色代表输出，有1对1，1对多，多对1，多对多等不同的形式，形式的不同可以完成不同的任务：

1->1：输入和输出都为1。没有用到RNN的模型，可以用于图像分类。
1->N：输入为1，输出为多个。可以用于输出一张图片，然后给出一段文字描述。
N->1：输入为多个，输出为1。可以用于文本的情感分析，给定一段文字，判断文字是积极还是消极。
N->M：输入为多个，输出也为多个，输入和输出个数可以不相等。可以用于机器翻译、语音识别等。
N->N：输入为多个，输出也为多个，输入和输出个数相等。可以用于视频分类，对视频的每一帧打标签；或者是词性标注，判断文本中的每一个词属于什么词性。

你可能感兴趣的:(深度学习-Pytorch,深度学习,pytorch,自然语言处理)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
Pyorch中 nn.Conv1d 与 nn.Linear 的区别迪三 #NN_Layer 神经网络
即一维卷积层和全联接层的区别nn.Conv1d和nn.Linear都是PyTorch中的层，它们用于不同的目的，主要区别在于它们处理输入数据的方式和执行的操作类型。nn.Conv1d通过应用滑动过滤器来捕捉序列数据中的局部模式，适用于处理具有时间或序列结构的数据。nn.Linear通过将每个输入与每个输出相连接，捕捉全局关系，适用于将输入数据作为整体处理的任务。1.维度与输入nn.Conv1d（一
图片中的上采样，下采样和通道融合(up-sample, down-sample, channel confusion) 迪三 #图像处理_PyTorch 计算机视觉深度学习人工智能
前言以conv2d为例（即图片），Pytorch中输入的数据格式为tensor，格式为:[N,C,W,H,W]第一维N.代表图片个数，类似一个batch里面有N张图片第二维C.代表通道数，在模型中输入如果为彩色，常用RGB三色图，那么就是3维，即C=3。如果是黑白的，即灰度图，那么只有一个通道，即C=1第三维H.代表图片的高度，H的数量是图片像素的列数第四维W.代表图片的宽度，W的数量是图片像素的
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin