AncilunKiang

《动手学深度学习 Pytorch版》 9.7 序列到序列学习（seq2seq）

循环神经网络编码器使用长度可变的序列作为输入，将其编码到循环神经网络编码器固定形状的隐状态中。

为了连续生成输出序列的词元，独立的循环神经网络解码器是基于输入序列的编码信息和输出序列已经看见的或者生成的词元来预测下一个词元。

要点：

“”表示序列结束词元，一旦输出序列生成此词元，模型就会停止预测。
“”表示序列开始词元，它是解码器的输入序列的第一个词元。
使用循环神经网络编码器最终的隐状态来初始化解码器的隐状态。
允许标签成为原始的输出序列

import collections
import math
import torch
from torch import nn
from d2l import torch as d2l

9.7.1 编码器

使用函数 $f$ 描述循环神经网络的循环层所做的变换：

$\boldsymbol{h}_t=f(\boldsymbol{x}_t,\boldsymbol{h}_{t-1})$

参数字典：

$\boldsymbol{x}_t$ 表示词元 $x_t$ 的输入特征向量
$\boldsymbol{h}_{t-1}$ 是词元 $x_t$ 的另一个输入向量，即上一时间步的隐状态
$\boldsymbol{h}_t$ 表示当前步的隐状态

总之，编码器通过选定的函数 $q$ 将所有时间步的隐状态转换为上下文变量：

$\boldsymbol{c}=q(\boldsymbol{h}_t,\dots,\boldsymbol{h}_T)$

到目前为止使用单向循环神经网络设计的编码器中的隐状态只依赖于由输入序列的开始位置到隐状态所在的时间步的位置（包括隐状态所在的时间步）组成的输入子序列。

使用双向循环神经网络构造的编码器中隐状态依赖于由隐状态所在的时间步的位置之前的序列和之后的序列（包括隐状态所在的时间步）组成的两个输入子序列，因此隐状态对整个序列的信息都进行了编码。

以下实现的循环神经网络编码器使用了嵌入层（embedding layer）来获得输入序列中每个词元的特征向量。

嵌入层的权重是一个矩阵，其行数等于输入词表的大小（vocab_size），其列数等于特征向量的维度（embed_size）。
对于任意输入词元的索引 $i$ ，嵌入层获取权重矩阵的第 $i$ 行（从 0 开始）以返回其特征向量。
另外，本文选择了一个多层门控循环单元来实现编码器。

#@save
class Seq2SeqEncoder(d2l.Encoder):
    """用于序列到序列学习的循环神经网络编码器"""
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqEncoder, self).__init__(**kwargs)
        self.embedding = nn.Embedding(vocab_size, embed_size)  # 嵌入层
        self.rnn = nn.GRU(embed_size, num_hiddens, num_layers,
                          dropout=dropout)

    def forward(self, X, *args):
        # 输出'X'的形状：(batch_size,num_steps,embed_size)
        X = self.embedding(X)
        # 在循环神经网络模型中，第一个轴对应于时间步
        X = X.permute(1, 0, 2)  # 前两个轴互换
        # 如果未提及状态，则默认为0
        output, state = self.rnn(X)
        # output的形状:(num_steps,batch_size,num_hiddens)
        # state的形状:(num_layers,batch_size,num_hiddens)
        return output, state

# 实例化编码器

encoder = Seq2SeqEncoder(vocab_size=10, embed_size=8, num_hiddens=16,  # 隐藏单元数为 16
                         num_layers=2)
encoder.eval()  # 不启用 Batch Normalization 和 Dropout
X = torch.zeros((4, 7), dtype=torch.long)  # 批量大小为 4，时间步为7
output, state = encoder(X)
output.shape  # 形状为（时间步数，批量大小，隐藏单元数）

torch.Size([7, 4, 16])

state.shape  # 最后一个时间步的多层隐状态的形状是（隐藏层的数量，批量大小，隐藏单元的数量）

torch.Size([2, 4, 16])

9.7.2 解码器

对于解码器的输出来说，概率取决于：

$P(y_{t'}|y_1,\dots,y_{t'-1},\boldsymbol{c})$

参数字典：

$y_{t'}$ 表示时间步 $t^{'}$ 的输出（用 ’ 是为了和编码器的量区分）
$y_1,y_2,\dots,y_{T'}$ 表示训练数据集的输出序列
$\boldsymbol{c}$ 表示上下文变量

简言之，码器输出的概率取决于先前的输出子序列和上下文变量。

为了在序列上模型化这种条件概率，需要使用另一个循环神经网络作为解码器。在输出序列上的任意时间步 $t^{'}$ ，循环神经网络将来自上一时间步的输出 $y_{t'-1}$ 和上下文变量 $\boldsymbol{c}$ 作为其输入，然后在当前时间步将它们和上一隐状态 $\boldsymbol{s}_{t'-1}$ 转换为隐状态 $\boldsymbol{s}_t$ 。因此，可以使用函数 $g$ 来表示解码器的隐藏层的变换：

$\boldsymbol{s}_{t'}=g(y_{t'-1},\boldsymbol{c},\boldsymbol{s}_{t'-1})$

获得解码器的隐状态之后，可以使用输出层和 softmax 操作来计算在时间步 $t^{'}$ 时输出 $y_{t'}$ 的条件概率分布 $P(y_{t'}|y_1,\dots,y_{t'-1},\boldsymbol{c})$
。

实现要点：

直接使用编码器最后一个时间步的隐状态来初始化解码器的隐状态。
- 因此要求使用循环神经网络实现的编码器和解码器具有相同数量的层和隐藏单元。
上下文变量在所有的时间步与解码器的输入进行拼接（concatenate），以进一步包含经过编码的输入序列的信息。
在循环神经网络解码器的最后一层使用全连接层来变换隐状态，以预测输出词元的概率分布。

class Seq2SeqDecoder(d2l.Decoder):
    """用于序列到序列学习的循环神经网络解码器"""
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqDecoder, self).__init__(**kwargs)
        self.embedding = nn.Embedding(vocab_size, embed_size)  # 嵌入层
        self.rnn = nn.GRU(embed_size + num_hiddens, num_hiddens, num_layers,
                          dropout=dropout)
        self.dense = nn.Linear(num_hiddens, vocab_size)  # 解码器是有输出层的

    def init_state(self, enc_outputs, *args):
        return enc_outputs[1]  # 获取 states

    def forward(self, X, state):
        # 输出'X'的形状：(batch_size,num_steps,embed_size)
        X = self.embedding(X).permute(1, 0, 2)  # 时间步放在前面
        # 广播context，使其具有与X相同的num_steps
        context = state[-1].repeat(X.shape[0], 1, 1)  # 最后一次的隐藏状态拿出来按解码器单元数复制
        X_and_context = torch.cat((X, context), 2)  # 拼接输入和上下文变量
        output, state = self.rnn(X_and_context, state)
        output = self.dense(output).permute(1, 0, 2)
        # output的形状:(batch_size,num_steps,vocab_size)
        # state的形状:(num_layers,batch_size,num_hiddens)
        return output, state

# 与前文编码器超参数一样

decoder = Seq2SeqDecoder(vocab_size=10, embed_size=8, num_hiddens=16,
                         num_layers=2)
decoder.eval()
state = decoder.init_state(encoder(X))
output, state = decoder(X, state)
output.shape, state.shape

(torch.Size([4, 7, 10]), torch.Size([2, 4, 16]))

总结构图：

9.7.3 损失函数

使用 softmax 来获得分布，并通过计算交叉熵损失函数来进行优化。需要注意，应该将填充词元的预测排除在损失函数的计算之外。

下面的 sequence_mask 函数通过零值化屏蔽不相关的项实现。

#@save
def sequence_mask(X, valid_len, value=0):
    """在序列中屏蔽不相关的项"""
    maxlen = X.size(1)
    mask = torch.arange((maxlen), dtype=torch.float32,
                        device=X.device)[None, :] < valid_len[:, None]  # 优雅，比较 arange 生成张量(即列号序列)的列和 valid_len 的行
    X[~mask] = value  # 按位反转 仅有效位赋值
    return X

X = torch.tensor([[1, 2, 3], [4, 5, 6]])
sequence_mask(X, torch.tensor([1, 2]))

tensor([[1, 0, 0],
        [4, 5, 0]])

X = torch.ones(2, 3, 4)
sequence_mask(X, torch.tensor([1, 2]), value=-1)  # 用非零值替代也可以

tensor([[[ 1.,  1.,  1.,  1.],
         [-1., -1., -1., -1.],
         [-1., -1., -1., -1.]],

        [[ 1.,  1.,  1.,  1.],
         [ 1.,  1.,  1.,  1.],
         [-1., -1., -1., -1.]]])

#@save
class MaskedSoftmaxCELoss(nn.CrossEntropyLoss):
    """带遮蔽的softmax交叉熵损失函数"""
    # pred的形状：(batch_size,num_steps,vocab_size)
    # label的形状：(batch_size,num_steps)
    # valid_len的形状：(batch_size,)
    def forward(self, pred, label, valid_len):
        weights = torch.ones_like(label)  # 同型全一掩码矩阵
        weights = sequence_mask(weights, valid_len)  # 生成过滤填充词元的掩码矩阵
        self.reduction='none'  # 不进行值归并，原样输出
        unweighted_loss = super(MaskedSoftmaxCELoss, self).forward(
            pred.permute(0, 2, 1), label)  # 计算交叉熵损失
        weighted_loss = (unweighted_loss * weights).mean(dim=1)  # 过滤并求均值
        return weighted_loss

loss = MaskedSoftmaxCELoss()
loss(torch.ones(3, 4, 10), torch.ones((3, 4), dtype=torch.long),  # 使用三个相同的序列进行检查
     torch.tensor([4, 2, 0]))  # 设定有效长度为 4，2，0 则第一个序列的损失应为第二个序列的两倍，而第三个序列的损失应为零

tensor([2.3026, 1.1513, 0.0000])

9.7.4 训练

#@save
def train_seq2seq(net, data_iter, lr, num_epochs, tgt_vocab, device):
    """训练序列到序列模型"""
    def xavier_init_weights(m):  # xavier 初始化
        if type(m) == nn.Linear:
            nn.init.xavier_uniform_(m.weight)
        if type(m) == nn.GRU:
            for param in m._flat_weights_names:
                if "weight" in param:
                    nn.init.xavier_uniform_(m._parameters[param])

    net.apply(xavier_init_weights)
    net.to(device)
    optimizer = torch.optim.Adam(net.parameters(), lr=lr)  # 使用 Adam 优化器
    loss = MaskedSoftmaxCELoss()  # 使用改造的交叉熵损失
    net.train()
    animator = d2l.Animator(xlabel='epoch', ylabel='loss',
                     xlim=[10, num_epochs])
    for epoch in range(num_epochs):
        timer = d2l.Timer()
        metric = d2l.Accumulator(2)  # 设置两个累加器：训练损失总和，词元数量
        for batch in data_iter:
            optimizer.zero_grad()
            X, X_valid_len, Y, Y_valid_len = [x.to(device) for x in batch]  # 加载数据
            bos = torch.tensor([tgt_vocab['']] * Y.shape[0],  # 获取特定的开始词元
                          device=device).reshape(-1, 1)
            dec_input = torch.cat([bos, Y[:, :-1]], 1)  # 强制教学，拼接开始词元和原始输出序列
            Y_hat, _ = net(X, dec_input, X_valid_len)  # 前向传播
            l = loss(Y_hat, Y, Y_valid_len)  # 计算损失
            l.sum().backward()  # 损失函数的标量进行“反向传播”
            d2l.grad_clipping(net, 1)  # 梯度裁剪
            num_tokens = Y_valid_len.sum()
            optimizer.step()  # 优化
            with torch.no_grad():
                metric.add(l.sum(), num_tokens)
        if (epoch + 1) % 10 == 0:
            animator.add(epoch + 1, (metric[0] / metric[1],))
    print(f'loss {metric[0] / metric[1]:.3f}, {metric[1] / timer.stop():.1f} '
        f'tokens/sec on {str(device)}')

embed_size, num_hiddens, num_layers, dropout = 32, 32, 2, 0.1
batch_size, num_steps = 64, 10
lr, num_epochs, device = 0.005, 300, d2l.try_gpu()

train_iter, src_vocab, tgt_vocab = d2l.load_data_nmt(batch_size, num_steps)
encoder = Seq2SeqEncoder(len(src_vocab), embed_size, num_hiddens, num_layers,
                        dropout)
decoder = Seq2SeqDecoder(len(tgt_vocab), embed_size, num_hiddens, num_layers,
                        dropout)
net = d2l.EncoderDecoder(encoder, decoder)
train_seq2seq(net, train_iter, lr, num_epochs, tgt_vocab, device)

loss 0.020, 15597.5 tokens/sec on cuda:0

9.7.5 预测

序列开始词元（“”）在初始时间步被输入到解码器中。当输出序列的预测遇到序列结束词元（“”）时，预测就结束了。

#@save
def predict_seq2seq(net, src_sentence, src_vocab, tgt_vocab, num_steps,
                    device, save_attention_weights=False):
    """序列到序列模型的预测"""
    net.eval()  # 在预测时将net设置为评估模式 不启用 Batch Normalization 和 Dropout
    src_tokens = src_vocab[src_sentence.lower().split(' ')] + [
        src_vocab['']]  # 预处理源语言
    enc_valid_len = torch.tensor([len(src_tokens)], device=device)
    src_tokens = d2l.truncate_pad(src_tokens, num_steps, src_vocab[''])  # 进行截断与填充
    # 添加批量轴
    enc_X = torch.unsqueeze(
        torch.tensor(src_tokens, dtype=torch.long, device=device), dim=0)
    enc_outputs = net.encoder(enc_X, enc_valid_len)  # 进行编码
    dec_state = net.decoder.init_state(enc_outputs, enc_valid_len)  # 初始化解码器
    # 添加批量轴
    dec_X = torch.unsqueeze(torch.tensor(
        [tgt_vocab['']], dtype=torch.long, device=device), dim=0)
    output_seq, attention_weight_seq = [], []
    for _ in range(num_steps):
        Y, dec_state = net.decoder(dec_X, dec_state)  # 解码
        dec_X = Y.argmax(dim=2)  # 使用具有预测最高可能性的词元，作为解码器在下一时间步的输入
        pred = dec_X.squeeze(dim=0).type(torch.int32).item()
        if save_attention_weights:  # 保存注意力权重（稍后讨论）
            attention_weight_seq.append(net.decoder.attention_weights)
        if pred == tgt_vocab['']:  # 一旦序列结束词元被预测，输出序列的生成就完成了
            break
        output_seq.append(pred)
    return ' '.join(tgt_vocab.to_tokens(output_seq)), attention_weight_seq

9.7.6 预测序列的评估

BLEU（bilingual evaluation understudy）最先是用于评估机器翻译的结果，但现在它已经被广泛用于测量许多应用的输出序列的质量。

原则上说，对于预测序列中的任意 n 元语法（n-grams），BLEU 的评估都是这个 n 元语法是否出现在标签序列中。BLEU 定义为：

$\exp{\left(\min{\left(0,1-\frac{len_{label}}{len_{pred}}\right)}\right)}\prod^k_{n=1}p_n^{1/2^n}$

参数字典：

$len_{label}$ 表示标签序列中的词元数
$len_{pred}$ 表示预测序列中的词元数
$k$ 用于匹配的最长的 n 元语法
$p_n$ 表示 n 元语法的精确度它是两个数量的比值：
- 第一个是预测序列与标签序列中匹配的 n 元语法的数量
- 第二个是预测序列中 n 元语法的数量的比率。

设计要点：

当预测序列与标签序列完全相同时，BLEU 为 1。
此外，由于 n 元语法越长则匹配难度越大，所以 BLEU 为更长的元语法的精确度分配更大的权重。具体来说，当 $p_n$ 固定时， $p_n^{1/2^n}$ 会随着 n 的增长而增加（原始论文使用 $p_n^{1/n}$ ）。
由于预测的序列越短获得的 $p_n$ 值越高，所以 BLEU 定义式中乘法项之前的系数用于惩罚较短的预测序列。

def bleu(pred_seq, label_seq, k):  #@save
    """计算BLEU"""
    pred_tokens, label_tokens = pred_seq.split(' '), label_seq.split(' ')
    len_pred, len_label = len(pred_tokens), len(label_tokens)
    score = math.exp(min(0, 1 - len_label / len_pred))  # 计算惩罚项
    for n in range(1, k + 1):  # 计算乘法项
        num_matches, label_subs = 0, collections.defaultdict(int)  # 匹配数，预测序列内比率（带默认值的字典）
        for i in range(len_label - n + 1):
            label_subs[' '.join(label_tokens[i: i + n])] += 1  # 对各词元进行计数
        for i in range(len_pred - n + 1):
            if label_subs[' '.join(pred_tokens[i: i + n])] > 0:  # 匹配中词元
                num_matches += 1  # 匹配数加一
                label_subs[' '.join(pred_tokens[i: i + n])] -= 1  # 减去已经匹配过的词元，防止重复匹配
        score *= math.pow(num_matches / (len_pred - n + 1), math.pow(0.5, n))
    return score

engs = ['go .', "i lost .", 'he\'s calm .', 'i\'m home .']
fras = ['va !', 'j\'ai perdu .', 'il est calme .', 'je suis chez moi .']
for eng, fra in zip(engs, fras):
    translation, attention_weight_seq = predict_seq2seq(
        net, eng, src_vocab, tgt_vocab, num_steps, device)
    print(f'{eng} => {translation}, bleu {bleu(translation, fra, k=2):.3f}')

go . => va  !, bleu 0.000
i lost . => j'ai perdu perdu ., bleu 0.783
he's calm . => il est  ., bleu 0.658
i'm home . => je suis calme ., bleu 0.512

练习

（1）试着通过调整超参数来改善翻译效果。

embed_size1, num_hiddens1, num_layers1, dropout1 = 64, 64, 2, 0.2
batch_size1, num_steps1 = 128, 10
lr1, num_epochs1, device1 = 0.01, 500, d2l.try_gpu()

train_iter1, src_vocab1, tgt_vocab1 = d2l.load_data_nmt(batch_size1, num_steps1)
encoder1 = Seq2SeqEncoder(len(src_vocab1), embed_size1, num_hiddens1, num_layers1,
                        dropout1)
decoder1 = Seq2SeqDecoder(len(tgt_vocab1), embed_size1, num_hiddens1, num_layers1,
                        dropout1)
net1 = d2l.EncoderDecoder(encoder1, decoder1)
train_seq2seq(net1, train_iter1, lr1, num_epochs1, tgt_vocab1, device1)

loss 0.020, 18634.0 tokens/sec on cuda:0

engs = ['go .', "i lost .", 'he\'s calm .', 'i\'m home .']
fras = ['va !', 'j\'ai perdu .', 'il est calme .', 'je suis chez moi .']
for eng, fra in zip(engs, fras):
    translation, attention_weight_seq = predict_seq2seq(
        net1, eng, src_vocab, tgt_vocab, num_steps, device)
    print(f'{eng} => {translation}, bleu {bleu(translation, fra, k=2):.3f}')

go . => va !, bleu 1.000
i lost . => j'ai perdu ., bleu 1.000
he's calm . => il est paresseux ., bleu 0.658
i'm home . => je suis chez moi ., bleu 1.000

（2）重新运行实验并在计算损失时不使用遮蔽，可以观察到什么结果？为什么会有这个结果？

翻译效果变差，可能是填充词元使翻译的逻辑更困难了。

class MaskedSoftmaxCELoss_test(nn.CrossEntropyLoss):
    def forward(self, pred, label, valid_len):
        self.reduction='none'
        return super(MaskedSoftmaxCELoss_test, self).forward(
            pred.permute(0, 2, 1), label).mean(dim=1)

def train_seq2seq_test(net, data_iter, lr, num_epochs, tgt_vocab, device):
    """训练序列到序列模型"""
    def xavier_init_weights(m):  # xavier 初始化
        if type(m) == nn.Linear:
            nn.init.xavier_uniform_(m.weight)
        if type(m) == nn.GRU:
            for param in m._flat_weights_names:
                if "weight" in param:
                    nn.init.xavier_uniform_(m._parameters[param])

    net.apply(xavier_init_weights)
    net.to(device)
    optimizer = torch.optim.Adam(net.parameters(), lr=lr)  # 使用 Adam 优化器
    loss = MaskedSoftmaxCELoss_test()  # 使用改造的交叉熵损失
    net.train()
    animator = d2l.Animator(xlabel='epoch', ylabel='loss',
                     xlim=[10, num_epochs])
    for epoch in range(num_epochs):
        timer = d2l.Timer()
        metric = d2l.Accumulator(2)  # 设置两个累加器：训练损失总和，词元数量
        for batch in data_iter:
            optimizer.zero_grad()
            X, X_valid_len, Y, Y_valid_len = [x.to(device) for x in batch]  # 加载数据
            bos = torch.tensor([tgt_vocab['']] * Y.shape[0],  # 获取特定的开始词元
                          device=device).reshape(-1, 1)
            dec_input = torch.cat([bos, Y[:, :-1]], 1)  # 强制教学，拼接开始词元和原始输出序列
            Y_hat, _ = net(X, dec_input, X_valid_len)  # 前向传播
            l = loss(Y_hat, Y, Y_valid_len)  # 计算损失
            l.sum().backward()  # 损失函数的标量进行“反向传播”
            d2l.grad_clipping(net, 1)  # 梯度裁剪
            num_tokens = Y_valid_len.sum()
            optimizer.step()  # 优化
            with torch.no_grad():
                metric.add(l.sum(), num_tokens)
        if (epoch + 1) % 10 == 0:
            animator.add(epoch + 1, (metric[0] / metric[1],))
    print(f'loss {metric[0] / metric[1]:.3f}, {metric[1] / timer.stop():.1f} '
        f'tokens/sec on {str(device)}')
    
embed_size2, num_hiddens2, num_layers2, dropout2 = 32, 32, 2, 0.1
batch_size2, num_steps2 = 64, 10
lr2, num_epochs2, device2 = 0.005, 300, d2l.try_gpu()

train_iter2, src_vocab2, tgt_vocab2 = d2l.load_data_nmt(batch_size2, num_steps2)
encoder2 = Seq2SeqEncoder(len(src_vocab2), embed_size2, num_hiddens2, num_layers2,
                        dropout2)
decoder2 = Seq2SeqDecoder(len(tgt_vocab2), embed_size2, num_hiddens2, num_layers2,
                        dropout2)
net2 = d2l.EncoderDecoder(encoder2, decoder2)
train_seq2seq_test(net2, train_iter2, lr2, num_epochs2, tgt_vocab, device2)

loss 0.019, 14341.4 tokens/sec on cuda:0

engs = ['go .', "i lost .", 'he\'s calm .', 'i\'m home .']
fras = ['va !', 'j\'ai perdu .', 'il est calme .', 'je suis chez moi .']
for eng, fra in zip(engs, fras):
    translation, attention_weight_seq = predict_seq2seq(
        net2, eng, src_vocab, tgt_vocab, num_steps, device)
    print(f'{eng} => {translation}, bleu {bleu(translation, fra, k=2):.3f}')

go . => va !, bleu 1.000
i lost . => j'ai perdu perdu ., bleu 0.783
he's calm . => attrapez tom ., bleu 0.000
i'm home . => je suis chez moi mouvement de tom ., bleu 0.640

（3）如果编码器和解码器的层数或者隐藏单元数不同，那么如何初始化解码器的隐状态？

不会，略。

（4）在训练中，如果用前一时间步的预测输入到解码器来代替强制教学，对性能有何影响？

预测会越来越偏吧。

（5）用长短期记忆网络替换门控循环单元重新运行实验。

class Seq2SeqEncoder_test(d2l.Encoder):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqEncoder_test, self).__init__(**kwargs)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.lstm = nn.LSTM(embed_size, num_hiddens, num_layers,  # 更换为 LSTM
                          dropout=dropout)

    def forward(self, X, *args):
        X = self.embedding(X)
        X = X.permute(1, 0, 2)
        output, state = self.lstm(X)
        return output, state
    
class Seq2SeqDecoder_test(d2l.Decoder):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqDecoder_test, self).__init__(**kwargs)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.lstm = nn.LSTM(embed_size + num_hiddens, num_hiddens, num_layers,  # 更换为 LSTM
                          dropout=dropout)
        self.dense = nn.Linear(num_hiddens, vocab_size)

    def init_state(self, enc_outputs, *args):
        return enc_outputs[1]

    def forward(self, X, state):
        X = self.embedding(X).permute(1, 0, 2)
        # context = state[-1].repeat(X.shape[0], 1, 1)
        context = state[-1][0].repeat(X.shape[0], 1, 1)  # 注意 LSTM 有 hidden state 和 cell state，这里使用 hidden state
        X_and_context = torch.cat((X, context), 2)
        output, state = self.lstm(X_and_context, state)
        output = self.dense(output).permute(1, 0, 2)
        return output, state
    
embed_size3, num_hiddens3, num_layers3, dropout3 = 32, 32, 2, 0.1
batch_size3, num_steps3 = 64, 10
lr3, num_epochs3, device3 = 0.005, 300, d2l.try_gpu()

train_iter3, src_vocab3, tgt_vocab3 = d2l.load_data_nmt(batch_size3, num_steps3)
encoder3 = Seq2SeqEncoder_test(len(src_vocab3), embed_size3, num_hiddens3, num_layers3,
                        dropout3)
decoder3 = Seq2SeqDecoder_test(len(tgt_vocab3), embed_size3, num_hiddens3, num_layers3,
                        dropout3)
net3 = d2l.EncoderDecoder(encoder3, decoder3)
train_seq2seq(net3, train_iter3, lr3, num_epochs3, tgt_vocab3, device3)

loss 0.019, 14508.5 tokens/sec on cuda:0

engs = ['go .', "i lost .", 'he\'s calm .', 'i\'m home .']
fras = ['va !', 'j\'ai perdu .', 'il est calme .', 'je suis chez moi .']
for eng, fra in zip(engs, fras):
    translation, attention_weight_seq = predict_seq2seq(
        net2, eng, src_vocab, tgt_vocab, num_steps, device)
    print(f'{eng} => {translation}, bleu {bleu(translation, fra, k=2):.3f}')

go . => va !, bleu 1.000
i lost . => j'ai perdu perdu ., bleu 0.783
he's calm . => attrapez tom ., bleu 0.000
i'm home . => je suis chez moi mouvement de tom ., bleu 0.640

（6）有没有其他方法来设计解码器的输出层？

不会，略。

你可能感兴趣的:(《动手学深度学习,Pytorch版》学习笔记,深度学习,pytorch,学习)

【GMT-学习4】比例尺背景透明度设置科熊小猪 GMT 学习
比例尺背景透明度设置通过修改-F+gwhite参数为-F+gwhite@50，可以将地图的白色填充设置为50%的透明度。可以根据需要调整透明度值（例如@30表示30%透明度，@80表示80%透明度）。
awesome python 中文版相见恨晚！(pythonNB的第三方资源库) weixin_30788731
AwesomePython中文版来啦！原文链接：Python资源大全内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。GitHub-jobbole/awesome-python-cn:Python资源大全中文版环境管理管理Python版本和环境的工具p–非常简单的交互式python版本管理工具。pyenv–简单
【机器学习】决策树 ( Decision Tree ) AI天才研究院 ChatGPT DeepSeek R1 &大数据AI人工智能大模型深度学习实战机器学习决策树算法支持向量机人工智能
【机器学习】决策树(DecisionTree)文章目录【机器学习】决策树(DecisionTree)1.ID3(1)信息增益(2)ID3的算法流程(3)实现ID32.C4.53.CART(1)决策桩DecisionStump(2)回归CART：最小二乘回归树leastsquaresregressiontree⚪回归CART的例子(3)分类CART(4)处理缺失值Handlemissingfeatu
超实用计算机网络面试题，快来学习一下优人ovo 计算机网络学习
引言计算机网络作为程序员的内功，不仅要做到深入理解，面试题也要详细掌握，跟着作者的节奏好好复盘一下吧1.OSI模型和TCP/IP模型的区别是什么？各层的主要功能是什么？考察点：网络分层架构、协议栈理解答案方向：OSI分为7层（物理层→数据链路层→网络层→传输层→会话层→表示层→应用层），TCP/IP简化为4层（网络接口层→网络层→传输层→应用层）。关键区别：OSI是理论模型，TCP/IP是实际工业
机器学习-随机森林解析 Mr终游机器学习机器学习随机森林人工智能
目录一、.随机森林的思想二、随机森林构建步骤1.自助采样2.特征随机选择3构建决策树4.集成预测三.随机森林的关键优势**(1)减少过拟合****(2)高效并行化****(3)特征重要性评估****(4)耐抗噪声**四.随机森林的优缺点优点缺点五.参数调优（以scikit-learn为例）波士顿房价预测一、.随机森林的思想1.通过组成多个弱学习器（决策树）形成一个学习器2.多样性增强：每颗决策树通
基于YOLOv5深度学习的田间杂草检测系统：UI界面 + YOLOv5 + 数据集详细教程深度学习&目标检测实战项目 YOLO 深度学习 ui YOLOv5 人工智能计算机视觉
引言随着农业科技的进步，智能化农业越来越受到重视，尤其是通过计算机视觉技术对作物进行监测和管理。在农业生产中，杂草的生长对作物的生长产生了负面影响，因此准确地检测和识别田间杂草至关重要。本文将详细介绍如何构建一个基于深度学习的田间杂草检测系统，使用YOLOv5模型进行目标检测，并提供一个用户友好的界面。我们将分步骤进行，包括环境配置、数据集准备、模型训练、实时杂草检测系统的实现等内容。目录引言目录
象牙塔中的“智者”：DeepSeek R1 引领高校问答智体新纪元海棠AI实验室 “智教之光“-探索AI教育新范式人工智能 RAG DeepSeek
目录高校问答智体的“前世今生”：痛点与机遇DeepSeekR1：开启推理大模型的新篇章“DeepSeekR1+高校”：场景、架构与实践3.1场景一：智能学术助手3.2场景二：个性化学习导航3.3场景三：科研数据分析3.4系统架构设计3.5实践案例分享技术进阶：让问答智体更“聪明”4.1知识图谱融合4.2持续学习与反馈4.3多模态融合挑战与展望：迈向更广阔的未来1.高校问答智体的“前世今生”：痛点与
人工智能与深度学习的应用案例解析及代码实现 accurater 人工智能深度学习科技机器人
引言人工智能（AI）与深度学习（DeepLearning）作为21世纪最具变革性的技术之一，已渗透到医疗、金融、交通、制造等各个领域。深度学习通过多层神经网络模拟人类认知过程，显著提升了复杂任务的自动化水平。本文将从技术原理、核心应用案例及代码实现三个维度，系统解析其实际应用，并探讨未来挑战与发展方向。一、深度学习技术概述1.1核心技术框架深度学习基于深度神经网络（DNN），其核心在于通过多层非线
数据在内存中的存储逻辑（打得手累版） Cinema KI 开发语言 c语言
数据在内存中的存储这期博客咱们来讲一讲数据在内存中是如何存储的呢，这期较难，博主在理解的时候也是几近崩溃，今天给大家讲三个内容字节在存放中有大小端之分整数在内存中的存储浮点数在内存中的存储字节在内存中存放有大小端之分咱们先确定一个事实，就是：整数在内存中都是以补码的形式存储的，那么为什么呢？这里引用一下别的文献原因在于，使⽤补码，可以将符号位和数值域统⼀处理；同时，加法和减法也可以统⼀处理**（C
零基础入门Jetson Nano——踩坑系统烧入，软件安装部署 Agmage 人工智能边缘计算视觉检测计算机视觉嵌入式硬件算法
一、简介本文章主要讲述作为小白的我，在零基础入手国产JetsonNano套件，踩坑系统烧入，环境部署，下面是我在最初学习路上遇到的问题，做一个总结，以便来帮助更多的nano小白少走弯路。二、问题汇总及解决方法问题点描述解决问题点时长/H解决问题点方法解决过程说明电源无匹配上对应设备要求1H选用设备所需电源5V,4A刚开始选用不匹配电源线，导致设备无法启动，误以为是设备坏了，拿了万用表测量。在使用到
（C语言小项目）猜字游戏（测试版）双叶836 C语言小项目 c语言游戏算法数据结构 c++开发语言
#include#include#includevoidpage0(){printf("****************************************\n");printf("********1.开始游戏2.退出游戏********\n");printf("********3.游戏难度4.神秘力量********\n");printf("*********************
深度学习笔记——基础部分肆—— 深度学习深度学习笔记人工智能 python pytorch
深度学习是一种机器学习的方式，通过模仿人脑吃力信息的方式，使用多层神经网络来学习数据的复杂模式和特征。深度学习和机器学习的区别：在机器学习中，特征提取通常需要人工设计和选择，依赖于领域专家的知识来确定哪些特征对模型最为重要;而在深度学习中，特征提取是自动进行的，通过多层神经网络结构直接从原始数据(也可能需要初步处理)中学习复杂特征，减少了对人工干预的依赖，使得模型能够处理更加复杂的数据和任务。计算
Linux 详细了解 ytdbc linux
1.Linux命令行a.Linux命令行是Linux系统的一个核心组件，允许用户通过键盘输入命令来管理和操作系统，必须学习和掌握常用的Linux命令，才可以高效地使用Linux系统。b‌.打开终端‌：在大多数Linux发行版中，你可以通过应用程序菜单或快捷键（如Ctrl+Alt+T）来打开终端。‌c.输入命令‌：在命令提示符后面输入你想要的命令，然后按Enter键执行。‌使用Tab键自动补全‌：输
机器学习基础（4） yyc_audio 深度学习 python 机器学习神经网络人工智能
超越基于常识的基准除了不同的评估方法，还应该利用基于常识的基准。训练深度学习模型就好比在平行世界里按下发射火箭的按钮，你听不到也看不到。你无法观察流形学习过程，它发生在数千维空间中，即使投影到三维空间中，你也无法解释它。唯一的反馈信号就是验证指标，就像隐形火箭的高度计。特别重要的是，我们需要知道火箭是否离开了地面。发射地点的海拔高度是多少？模型似乎有15%的精度——这算是很好吗？在开始处理一个数据
算法训练（leetcode）二刷第三十八天 | 1143. 最长公共子序列、1035. 不相交的线、53. 最大子数组和、392. 判断子序列 Star Patrick 二刷日记算法 leetcode 职场和发展
刷题记录1143.最长公共子序列1035.不相交的线53.最大子数组和动态规划优化版392.判断子序列1143.最长公共子序列leetcode题目地址本题和300.最长递增子序列相似（题解）。使用动态规划：dp数组含义：dp[i][j]表示以text1[i-1]结尾的子串A和以text2[j-1]结尾的子串B的最长公共子序列的长度。思路同300.最长递增子序列，每个状态更新基于前面的状态，为了防止
vlookup反向查询_XLOOKUP函数与VLOOKUP函数用法比较 weixin_39968820 vlookup反向查询
1、XLOOKUP基础语法在学习任何一个函数之前，需要了解这个函数的基础语法，从微软官方的帮助文档里找到了这个函数的参数语法，共计有5个参数，跟LOOKUP的参数非常接近，但是使用起来会更加简单了一些。其中第1~3个参数跟LOOKUP的参数非常接近，都是将「查找区域」和「结果区域」全部独立出来了，跟VLOOKUP的「选择区域」就有所差异，拆分出来会让函数更加灵活。第4个参数match_mode表示
深入理解 Java 中的 Lambda 表达式与函数式编程庞胖 java spring boot jdk
引言Java8引入的StreamAPI是处理集合数据的强大工具，结合Lambda表达式，可以极大地简化集合操作。本文将全面介绍StreamAPI的常用操作，涵盖实体类Map互转、生成新List、取内层嵌套的Map组成List、循环、过滤、根据多个属性过滤、分组、去重、根据条件筛选数据等常见场景。通过学习本文，你将掌握StreamAPI的95%常用操作，提升代码的简洁性和效率。1.实体类Map互转场
kafka 在Linux上的安装部署 The博宇软件安装 linux kafka 运维
一、前言Kafka是一个分布式流处理平台，在大数据领域有着广泛的应用。在Linux系统上安装部署Kafka可以为我们搭建高效的数据处理环境。本教程将详细介绍在Linux中安装和部署Kafka的步骤。二、准备工作2.1系统要求确保你的Linux系统已经安装并配置好。本教程以CentOS7为例，但其他常见的Linux发行版（如Ubuntu等）步骤也大致相似。系统需要有足够的磁盘空间、内存等资源，一般建
CentOS 7中安装Dify laolitou_1024 CentOS Docker AI centos 运维人工智能
Dify是一个开源的LLM应用开发平台。其直观的界面结合了AI工作流、RAG管道、Agent、模型管理、可观测性功能等，让您可以快速从原型到生产。尤其是我们本地部署DeepSeek等大模型时，会需要用到Dify来帮我们快捷的开发和应用。大家可以参考学习它的中文文档：https://github.com/langgenius/dify/blob/main/README_CN.md一、系统要求在安装D
uniapp学习笔记之知识点大总结 Qiuxuntao uniapp uni-app 学习前端
文章目录一、uniapp介绍二、环境搭建2.1、利用HbuilderX初始化项目2.2、运行项目2.3、介绍项目目录和文件作用三、网络1、发起请求2、上传3、下载4、SocketTask1、SocketTask.onMessage(callback)2、SocketTask.send(object)3、SocketTask.close(object)4、SocketTask.onOpen(call
Java爬取淘宝商品详情高级版接口的完整指南 Jelena15779585792 淘宝API Java java 开发语言
在电商数据分析和市场研究中，获取淘宝商品的详细信息是一项重要任务。淘宝开放平台提供了taobao.item.get和taobao.item.get_pro等高级接口，允许开发者通过商品ID（num_iid）获取商品的标题、价格、图片、描述、SKU等详细信息。本文将详细介绍如何使用Java技术实现一个高效、稳定的爬虫程序，从接口调用、数据解析到存储，帮助你快速获取淘宝商品详情。一、环境搭建与依赖配置
【前端知识】Web Components开发框架quarkC介绍问道飞鱼前端开发技术前端 javascript 开发语言 web components
文章目录概述**QuarkC简介****核心特性****QuarkC的使用方法****1.安装QuarkC****2.创建一个简单的QuarkC组件****3.使用组件****QuarkC的优势****1.更低的学习成本****2.更好的开发体验****3.跨框架兼容性****4.性能优化****5.社区支持与生态****6.开放性和灵活性****QuarkC的适用场景****总结**构建复杂We
机器学习｜决策树｜Gini指数和熵的区别｜简单示例漂亮_大男孩机器学习决策树人工智能
如是我闻：在决策树模型中，Gini指数和熵（Entropy）是用来计算节点纯度的两种方法。它们都是评估分裂点的好坏，以选择最佳的属性来分裂。让我们先来了解一下这两种方法的定义，然后通过一个简单的例子来讨论它们之间的区别。Gini指数Gini指数是一个衡量数据分布不均匀程度的指标。在决策树中，它用于评估数据集的不纯度。Gini指数越低，数据的纯度越高。其计算公式为：Gini=1−∑i=1npi2Gi
认识 TapFlow，以编程方式运行 TapData 开源软件开发者物化视图
什么是TapFlow？TapFlow是TapDataLiveDataPlatform最新推出的一个面向编程的API框架。TapFlow可以让开发者和数据工程师用一个简单易用而又强大的编程语言来进行数据管道和数据模型的开发工作。这次的发布包括一个Python的SDK。TapFlow需要连接一个TapDataCluster(可以是企业版，云版或社区版）才能运行。为何需要编程式的方式？TapData目前
00计算机视觉学习内容依旧阳光的老码农计算机视觉计算机视觉人工智能
计算机视觉（ComputerVision）开发需要掌握数学基础、编程语言、图像处理、机器学习、深度学习等多个方面的知识。以下是一个系统的学习路线：1️⃣数学基础（核心理论支撑）计算机视觉涉及很多数学概念，以下是必备数学知识：✅线性代数（矩阵运算是计算机视觉的核心）向量、矩阵运算（加减、乘法、转置）特征值与特征向量SVD（奇异值分解），用于图像压缩、降维齐次坐标变换（用于3D计算机视觉）✅概率统计（
一个人可以仿制出中望CAD 类似的软件吗七贤岭双花红棍面试
仿制中望CAD这类工业级CAD软件对个人开发者而言几乎是不可能完成的任务，但若以研究或简化版为目标，则存在理论可能性。以下是具体分析：一、技术挑战：工业软件的复杂性远超想象几何内核（CAD的核心灵魂）中望CAD依赖自主开发的Overdrive内核，需实现：BREP/NURBS几何建模约束求解器（如草图尺寸驱动）大规模装配体管理（10万+零件级）难点：仅几何内核开发就需要数十名数学家和工程师团队协作
Manus学习手册合集【建议收藏】周师姐学习 pdf 人工智能
这两天，一款通用AI智能体Manus还没发布就火了，因为还在内测中，用户需要邀请码才能够体验，这就导致原本免费的邀请码在二手平台最高被炒到8万8。相比于之前爆火的DeepSeek和ChatGPT这类AI对话工具，Manus是全球首款真正意义上的通用人工智能！没错，就是科幻电影里面能够独立思考，自主运行的人工智能！！manus学习资料：https://pan.xunlei.com/s/VOKk8Cq
iOS安全和逆向系列教程第16篇：Frida入门与高级应用自学不成才 iOS安全和逆向系列教程 cocoa macos objective-c
iOS逆向工程专栏第16篇：Frida入门与高级应用前言欢迎来到iOS逆向工程专栏的第16篇文章！在上一篇中，我们探讨了Cycript这一强大的逆向分析工具。今天，我们将深入学习功能更为强大、更为灵活的动态插桩工具——Frida。Frida作为现代iOS逆向工程中最受欢迎的工具之一，其强大的跨平台能力和灵活的JavaScript引擎使得我们能够轻松地分析和修改iOS应用的运行时行为。无论是逆向分析
iOS安全和逆向系列教程第17篇：探讨ARM64架构与Swift逆向分析技术自学不成才 iOS安全和逆向系列教程 ios 安全架构
iOS安全和逆向系列教程第17篇：探讨ARM64架构与Swift逆向分析技术前言欢迎来到iOS安全和逆向系列教程的第17篇。在前面的文章中，我们已经学习了iOS逆向工程的基础知识，以及各种分析工具的使用方法。今天，我们将深入探讨ARM64架构以及Swift语言的逆向分析技术，这两者对于现代iOS应用的逆向工程至关重要。随着Apple全面迁移到ARM64架构和Swift语言的广泛应用，掌握这些技术已
学习prompt artificiali prompt
1解释概念中文指令：请借助费曼学习法，以简单的语言解释[特定概念]是什么，并提供一个例子来说明它如何应用。Prompt:PleaseusetheFeynmanLearningTechniquetoexplain[specificconcept]insimplelanguage,andprovideanexampletoillustratehowitapplies.2帕累托法则帮你找到最重要、最具挑
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那