Yang SiCheng

【PyTorch】6 法语英语翻译RNN实战——基于Attention的seq2seq模型、Attention可视化

基于注意力机制的 seq2seq 神经网络翻译

1. 本文工作
2. 加载数据文件
3. Seq2Seq 模型
4. GRU
5. 准备训练数据
6. 编码器
7. 解码器
- 7.1 简单解码器
- 7.2 Attention解码器
8. 训练模型
9. 评价
10. 可视化注意力
11. 全部代码
小结

这是官方NLP From Scratch的一个教程（3/3），原中文链接，在这个项目中，我们将搭建神经网络，将法语翻译成英语，本文是其详细的注解

1. 本文工作

编码器网络将输入序列压缩为一个向量，而解码器网络将该向量展开为一个新序列

改进此模型，使用注意机制，该机制可让解码器学习将注意力集中在输入序列的特定范围内

2. 加载数据文件

需要加载名为’data/eng-fra.txt’的文件

编码方式：将一种语言中的每个单词表示为一个单向矢量：

这其实也是one-hot编码，但与之前所有字母中可能存在的几十个字符相比，单词有很多，因此编码向量要大得多。这里作弊并整理数据以使每种语言仅使用几千个单词

首先创建函数：

def readLangs(lang1, lang2, reverse=False)

读文件进来，发现有一些：\u202f这种符号，所以再创建函数：

def normalizeString(s)

进行标准化，看一下re库的这两个函数用法：

s = 'I love you!?,'
s = re.sub(r"([.!?])", r" \1", s)
print(s)
s = re.sub(r"[^a-zA-Z.!?]+", r"6", s)
print(s)

I love you ! ?,
I6love6you!?6

生成的pairs就是：

[...['plastic surgery alone will not make you any less ugly .', 'la chirurgie plastique seule ne vous rendra pas moins laid .']...]

如果需要其他语言 → 英语，可以用reversed()函数，返回的是一个反转的迭代器，需要使用list()函数，原理如下：

x = ['plastic surgery alone will not make you any less ugly .', 'la chirurgie plastique seule ne vous rendra pas moins laid .']
pairs = list(reversed(x))
print(pairs)

['la chirurgie plastique seule ne vous rendra pas moins laid .', 'plastic surgery alone will not make you any less ugly .']

没有list就是：

<list_reverseiterator object at 0x000001C5A3399820>

希望为每个单词创建一个唯一的索引，定义一个类class Lang，该类具有单词→索引(word2index）和索引→单词(index2word）字典，以及每个要使用的单词word2count的计数，以便以后替换稀有词

在这里，最大长度为 10 个字(包括结尾的标点符号），并且过滤翻译成“i’m”或“he’s”等形式的句子(考虑到前面已替换掉撇号的情况）

关于startswith(str, beg=0,end=len(string))函数，用于检查字符串是否是以指定子字符串开头，如果是则返回 True，否则返回 False。如果参数 beg 和 end 指定值，则在指定范围内检查

这里直接把原文prepareData函数写道主函数里面，原文默认英语→其他语言，但是它两次的结果演示都是其他语言 → 英语，所以默认reverse=True才对：

print("Counted words:")
print(input_lang.name, input_lang.n_words)
print(output_lang.name, output_lang.n_words)
print(random.choice(pairs))

Counted words:
fra 4345
eng 2803
['il fait une promenade .', 'he is taking a walk .']

3. Seq2Seq 模型

序列到序列网络或 seq2seq 网络或编码器解码器网络是由两个称为编码器和解码器的 RNN 组成的模型，编码器读取输入序列并输出单个向量，而解码器读取该向量以产生输出序列

与使用单个 RNN 进行序列预测(每个输入对应一个输出）不同，seq2seq 模型使我们摆脱了序列长度和顺序的限制，这使其非常适合在两种语言之间进行翻译

例如：Je ne suis pas le chat noir(我不是黑猫)单个词的百度翻译：

Je 我
ne NE公司
suis 跟踪
pas 没有
le 在
chat 猫
noir 黑色

输入句子中的大多数单词在输出句子中具有直接翻译，但是顺序略有不同，例如 “chat noir”和“black cat”，由于采用“ ne / pas”结构，因此在输入句子中还有一个单词。直接从输入单词的序列中产生正确的翻译将是困难的

使用 seq2seq 模型，编码器创建单个矢量，在理想情况下，该矢量将输入序列的“含义”编码为单个矢量-句子的某些 N 维空间中的单个点

4. GRU

先来看一下门控循环单元(gated recurrent unit, GRU)

参考此视频

LSTM门控网络结构过于复杂与冗余
GRU将遗忘门和输入门合并成更新门，同时将记忆单元与隐藏层合并成了重置门，进而让整个结构运算变得更加简化且性能得以增强。

每个隐藏单元都有单独的重置和更新门

当重置门接近于0时，隐藏状态被迫忽略先前的隐藏状态，仅用当前输入进行复位
这有效地使隐藏状态可以丢弃将来以后发现不相关的任何信息，从而允许更紧凑的表示

另一方面，更新门控制从前一个隐藏状态将有多少信息转移到当前隐藏状态。这类似于LSTM网络中的记忆单元，并有助于RNN记住长期信息

运算过程如下：

5. 准备训练数据

对于每一对，我们将需要一个输入张量(输入句子中单词的索引）和目标张量(目标句子中单词的索引），创建这些向量时，将 EOS 令牌附加到两个序列上

对于pairs[0]，即['j ai ans .', 'i m .']，由tensorFromPair(pair)函数返回的input_tensor为：

tensor([[2],
        [3],
        [4],
        [5],
        [1]], device='cuda:0')

其大小为torch.Size([5, 1])，target_tensor为：

tensor([[2],
        [3],
        [4],
        [1]], device='cuda:0')

其大小为torch.Size([4, 1])

6. 编码器

seq2seq 网络的编码器是 RNN，它为输入句子中的每个单词输出一些值。对于每个输入字，编码器输出一个向量和一个隐藏状态，并将隐藏状态用于下一个输入字

7. 解码器

解码器是另一个 RNN，它采用编码器输出矢量并输出单词序列来创建翻译

7.1 简单解码器

在最简单的 seq2seq 解码器中，我们仅使用编码器的最后一个输出。最后的输出有时称为上下文向量，因为它对整个序列的上下文进行编码。该上下文向量用作解码器的初始隐藏状态，在解码的每个步骤中，为解码器提供输入令牌和隐藏状态。初始输入令牌是字符串开始，第一个隐藏状态是上下文向量(编码器的最后一个隐藏状态）

7.2 Attention解码器

如果仅上下文向量在编码器和解码器之间传递，则该单个向量承担对整个句子进行编码的负担，Attention使解码器网络可以针对解码器自身输出的每一步，“专注”于编码器输出的不同部分。首先，我们计算一组Attention权重。将这些与编码器输出向量相乘以创建加权组合。结果(在代码中称为attn_applied）应包含有关输入序列特定部分的信息，从而帮助解码器选择正确的输出字

计算注意力权重的方法是使用另一个前馈层attn，并使用解码器的输入和隐藏状态作为输入。由于训练数据中包含各种大小的句子，因此要实际创建和训练该层，我们必须选择可以应用的最大句子长度(输入长度，用于编码器输出）。最大长度的句子将使用所有注意权重，而较短的句子将仅使用前几个

关于：
torch.bmm()是tensor中的一个相乘操作，类似于矩阵中的A*B，input（p,m,n) * mat2(p,n,a) ->output(p,m,a)，前一个矩阵的列等于后面矩阵的行才可以相乘，例如：

import torch
x = torch.rand(2,3,6)
y = torch.rand(2,6,7)
print(torch.bmm(x,y).size())

torch.Size([2, 3, 7])

8. 训练模型

为了进行训练，我们通过编码器运行输入语句，并跟踪每个输出和最新的隐藏状态。然后，为解码器提供SOS_TOKEN令牌作为其第一个输入，并将编码器的最后一个隐藏状态作为其第一个隐藏状态

“教师强制”的概念是使用实际目标输出作为每个下一个输入，而不是使用解码器的猜测作为下一个输入。使用教师强制会导致其收敛更快，但是当使用受过训练的网络时，可能会显示不稳定

您可以观察到以教师为主导的网络的输出，这些输出阅读的是连贯的语法，但却偏离了正确的翻译-直观地，它学会了代表输出语法，并且一旦老师说了最初的几个单词就可以“理解”含义，但是，它还没有正确地学习如何从翻译中创建句子

由于 PyTorch 的 autograd 具有给我们的自由，我们可以通过简单的 if 语句随意选择是否使用教师强迫。调高teacher_forcing_ratio以使用更多功能

再看一下：

x = torch.rand(2,3,4)
print(x)
topv, topi = x.topk(1)
print(topv, topi)

tensor([[[0.9181, 0.4981, 0.9914, 0.2432],
         [0.6078, 0.0700, 0.5814, 0.1134],
         [0.5261, 0.4351, 0.7423, 0.5492]],

        [[0.4094, 0.0585, 0.6755, 0.5136],
         [0.2214, 0.1035, 0.8093, 0.9017],
         [0.3362, 0.2959, 0.6774, 0.8712]]])
tensor([[[0.9914],
         [0.6078],
         [0.7423]],

        [[0.6755],
         [0.9017],
         [0.8712]]]) tensor([[[2],
         [0],
         [2]],

        [[2],
         [3],
         [3]]])

关于

x = torch.rand(1, 2560)
topv, topi = x.topk(1)
print(topi)
print(topi.squeeze())		# 将输入张量形状中的1 去除并返回，如果输入是形如(A×1×B×1×C×1×D)，那么输出形状就为： (A×B×C×D)
print(topi.squeeze().detach())		# 返回一个新的Tensor，从当前图中脱离出来，该tensor不会要求更新梯度，也就是梯度在这中断了
print(topi.squeeze().detach().item())

tensor([[1217]])
tensor(1217)
tensor(1217)
1217

关于绘图，原代码把纵轴的间隔设成了0.2：

import matplotlib.pyplot as plt
plt.switch_backend('agg')
import matplotlib.ticker as ticker
import numpy as np

def showPlot(points):
    plt.figure()
    fig, ax = plt.subplots()
    # this locator puts ticks at regular intervals
    loc = ticker.MultipleLocator(base=0.2)
    ax.yaxis.set_major_locator(loc)
    plt.plot(points)

训练所得曲线如图所示：

9. 评价

0.
> je suis mauvais aux echecs .
= i m terrible at chess .
< i am a chess chess . <EOS>
1.
> c est un tres bon joueur de tennis .
= he is a good tennis player .
< he is a good tennis player . <EOS>
2.
> elle porte de l ombre a paupiere .
= she s wearing eye shadow .
< she s wearing her birth . <EOS>
3.
> je suis ravi de votre travail .
= i m very pleased with your work .
< i m pleased your your work . <EOS>
4.
> je suis creatif .
= i m creative .
< i m thorough . <EOS>

10. 可视化注意力

注意机制的一个有用特性是其高度可解释的输出。因为它用于加权输入序列的特定编码器输出，所以我们可以想象一下在每个时间步长上网络最关注的位置。

可以简单地运行plt.matshow(attentions)以将注意力输出显示为矩阵，其中列为输入步骤，行为输出步骤

为了获得更好的观看体验，我们将做一些额外的工作来添加轴和标签，关于cmap的使用可见此：

input = elle a cinq ans de moins que moi .
output = she s five years younger than me . <EOS>
input = elle est trop petit .
output = she s too short . <EOS>
input = je ne crains pas de mourir .
output = i m not scared to die . <EOS>
input = c est un jeune directeur plein de talent .
output = he s a talented young person . <EOS>

11. 全部代码

import unicodedata
import re
def normalizeString(s):
    # 将 Unicode 字符转换为 ASCII
    Ascii = []
    for c in unicodedata.normalize('NFD', s):
        if unicodedata.category(c) != 'Mn':
            Ascii.append(c)
    # 将ASCII列表转化为字符串，并将所有内容都转换为小写，并修剪大多数标点符号
    s = ''.join(Ascii).lower().strip()
    s = re.sub(r"([.!?])", r" \1", s)       # 在.!?前面加上空格
    s = re.sub(r"[^a-zA-Z.!?]+", r" ", s)       # 只保留a-zA-Z.!?并在其后加空格
    return s


SOS_token = 0       # Start of sentence
EOS_token = 1       # End of sentence
class Lang:
    def __init__(self, name):
        self.name = name
        self.word2index = {
     }
        self.word2count = {
     }
        self.index2word = {
     0: "SOS", 1: "EOS"}
        self.n_words = 2

    def addSentence(self, sentence):
        for word in sentence.split(' '):
            self.addWord(word)

    def addWord(self, word):
        if word not in self.word2index:
            self.word2index[word] = self.n_words
            self.index2word[self.n_words] = word
            self.word2count[word] = 1
            self.n_words += 1
        else:
            self.word2count[word] += 1


def readLangs(lang1='eng', lang2='fra', reverse=False):     # 默认英语→其他语言，可以用reverse反转
    print('Reading lines...')
    file = open(path + 'eng-fra.txt', encoding='utf-8')
    lines = file.read().strip().split('\n')
    pairs = [[normalizeString(s) for s in l.split('\t')]for l in lines]
    if reverse:
        pairs = [list(reversed(i)) for i in pairs]
        input_lang = Lang(lang2)        # 初始化class里面的name
        output_lang = Lang(lang1)
    else:
        input_lang = Lang(lang1)
        output_lang = Lang(lang2)
    return input_lang, output_lang, pairs


MAX_LENGTH = 10

eng_prefixes = (
    "i am ", "i m ",
    "he is", "he s ",
    "she is", "she s ",
    "you are", "you re ",
    "we are", "we re ",
    "they are", "they re "
)


def filterPair(pairs):
    pair_filter = []
    for p in pairs:
        if len(p[0].split(' ')) < MAX_LENGTH and len(p[1].split(' ')) < MAX_LENGTH and p[1].startswith(eng_prefixes):
            pair_filter.append(p)
    return pair_filter


def tensorFromSentence(lang, sentence):
    indexes = []
    for word in sentence.split(' '):
        indexes.append(lang.word2index[word])
    indexes.append(EOS_token)
    return torch.tensor(indexes, dtype=torch.long, device=device).view(-1, 1)


def tensorFromPair(pair):
    input_tensor = tensorFromSentence(input_lang, pair[0])
    target_tensor = tensorFromSentence(output_lang, pair[1])
    return (input_tensor, target_tensor)


import torch
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
import torch.nn as nn
class EncoderRNN(nn.Module):
    def __init__(self, input_size, hidden_size):        # input_lang.n_words(4345), hidden_size=256
        super(EncoderRNN, self).__init__()
        self.hidden_size = hidden_size

        self.embedding = nn.Embedding(input_size, hidden_size)
        self.gru = nn.GRU(hidden_size, hidden_size)     # embedding_dim=hidden_size, hidden_size, num_layers=1, bidirectional=False

    def forward(self, input, hidden):   # input.size()= torch.Size([1])
        embedded = self.embedding(input).view(1, 1, -1)     # 1 * hidden_size → 1 * 1 * hidden_size:torch.Size([1, 1, 256])
        output = embedded
        output, hidden = self.gru(output, hidden)
        return output, hidden

    def initHidden(self):
        return torch.zeros(1, 1, self.hidden_size, device=device)       # num_layers * num_directions, batch, hidden_size


# 简单解码器
import torch.nn.functional as F
# class DecoderRNN(nn.Module):
#     def __init__(self, hidden_size, output_size):
#         super(DecoderRNN,self).__init__()
#         self.hidden_size = hidden_size
#
#         self.embedding = nn.Embedding(output_size, hidden_size)
#         self.gru = nn.GRU(hidden_size, hidden_size)
#         self.out = nn.Linear(hidden_size, output_size)
#         self.softmax = nn.LogSoftmax(dim=1)
#
#     def forward(self, input, hidden):
#         output = self.embedding(input).view(1, 1, -1)
#         output = F.relu(output)
#         output, hidden = self.gru(output, hidden)
#         output = self.softmax(self.out(output[0]))
#         return output, hidden
#
#     def initHidden(self):
#         return torch.zeros(1, 1, self.hidden_size, device=device)


# Attention 解码器
class AttnDecoderRNN(nn.Module):
    def __init__(self, hidden_size, output_size, dropout_p=0.1, max_length=MAX_LENGTH):
        super(AttnDecoderRNN, self).__init__()
        self.hidden_size = hidden_size
        self.output_size = output_size
        self.dropout_p = dropout_p
        self.max_length = max_length

        self.embedding = nn.Embedding(self.output_size, self.hidden_size)
        self.dropout = nn.Dropout(self.dropout_p)
        self.attn = nn.Linear(self.hidden_size * 2, self.max_length)
        self.attn_combine = nn.Linear(self.hidden_size * 2, self.hidden_size)
        self.gru = nn.GRU(self.hidden_size, self.hidden_size)
        self.out = nn.Linear(self.hidden_size, self.output_size)

    def forward(self, input, hidden, encoder_outputs):
        embedded = self.embedding(input).view(1, 1, -1)     # 1 * 1 * 256
        embedded = self.dropout(embedded)

        attn_weights = F.softmax(
            self.attn(torch.cat((embedded[0], hidden[0]), 1)), dim=1        # (1 * 256与1 * 256) → Linear 1 * 10
        )
        attn_applied = torch.bmm(attn_weights.unsqueeze(0),encoder_outputs.unsqueeze(0))        # 1 * 1 * 10, 1 * max_length * encoder.hidden_size → 1 * 1 * 256
        output = torch.cat((embedded[0], attn_applied[0]), 1)       # 1 * 512
        output = self.attn_combine(output).unsqueeze(0)      # 1 * 1* 256
        output = F.relu(output)
        output, hidden = self.gru(output, hidden)
        output = F.log_softmax(self.out(output[0]), dim=1)
        return output, hidden, attn_weights
    
    def initHidden(self):
        return torch.zeros(1, 1, self.hidden_size, device=device)

from torch import optim
teacher_forcing_ratio = 0.5
def train(input_tensor, target_tensor, encoder, decoder, encoder_optimizer, decoder_optimizer, criterion, max_length=MAX_LENGTH):
    encoder_hidden = encoder.initHidden()

    encoder_optimizer.zero_grad()
    decoder_optimizer.zero_grad()

    input_length = input_tensor.size()[0]
    target_length = target_tensor.size()[0]

    encoder_outputs = torch.zeros(max_length, encoder.hidden_size, device=device)

    loss = 0

    for ei in range(input_length):
        encoder_output, encoder_hidden = encoder(input_tensor[ei], encoder_hidden)
        encoder_outputs[ei] = encoder_output[0][0]

    decoder_input = torch.tensor([SOS_token], device=device)

    decoder_hidden = encoder_hidden

    use_teacher_forcing = True if random.random() < teacher_forcing_ratio else False

    if use_teacher_forcing:     # Learn from reference
        for di in range(target_length):
            decoder_output, decoder_hidden, decoder_attention = decoder(decoder_input, decoder_hidden, encoder_outputs)
            loss += criterion(decoder_output, target_tensor[di])        # 1 * output_size
            decoder_input = target_tensor[di]       # Teacher forcing

    else:       # Learn from model
        for di in range(target_length):
            decoder_output, decoder_hidden, decoder_attention = decoder(decoder_input, decoder_hidden, encoder_outputs)
            loss += criterion(decoder_output, target_tensor[di])
            topv, topi = decoder_output.topk(1)
            decoder_input = topi.detach()  # detach from history as input
            if decoder_input.item() == EOS_token:
                break

    loss.backward()

    encoder_optimizer.step()
    decoder_optimizer.step()

    return loss.item() / target_length


import random
import matplotlib.pyplot as plt
def trainIters(encoder, decoder):
    start = time.time()
    n_iters = 75000
    print_every = 1000
    plot_every = 100
    print_loss_total = 0  # Reset every print_every
    plot_loss_total = 0  # Reset every plot_every

    encoder_optimizer = optim.SGD(encoder.parameters(), lr=0.01)
    decoder_optimizer = optim.SGD(decoder.parameters(), lr=0.01)
    training_pairs = [tensorFromPair(random.choice(pairs)) for i in range(75000)]       # n_iters
    criterion = nn.NLLLoss()

    plot_losses = []

    for iter in range(1, n_iters + 1):
        training_pair = training_pairs[iter - 1]
        input_tensor = training_pair[0]
        target_tensor = training_pair[1]
        loss = train(input_tensor, target_tensor, encoder, decoder, encoder_optimizer, decoder_optimizer, criterion)
        print_loss_total += loss
        plot_loss_total += loss
        if iter % print_every == 0:
            print_loss_avg = print_loss_total / print_every
            print_loss_total = 0
            print('{} 当前iter={} 完成进度{:.3f}% Loss:{:.4f}'.format(timeSince(start, iter / n_iters), iter, iter / n_iters * 100, print_loss_avg))

        if iter % plot_every == 0:
            plot_loss_avg = plot_loss_total / plot_every
            plot_loss_total = 0
            plot_losses.append(plot_loss_avg)

    torch.save(encoder.state_dict(), '... your path\\model_encoder.pth')
    torch.save(decoder.state_dict(), '... your path\\model_decoder.pth')

    plt.figure()
    plt.plot(plot_losses)
    plt.show()


import time
import math
def asMinutes(s):
    m = math.floor(s / 60)
    s -= m * 60
    return '%dm %ds' % (m, s)


def timeSince(since, percent):      #用于在给定当前时间和进度％的情况下打印经过的时间和估计的剩余时间
    now = time.time()
    s = now - since
    es = s / (percent)
    rs = es - s
    return '运行时间 %s (估计的剩余时间 %s)' % (asMinutes(s), asMinutes(rs))


def evaluate(encoder, decoder, sentence):
    max_length = MAX_LENGTH
    encoder.load_state_dict(torch.load('... your path\\model_encoder.pth'))
    decoder.load_state_dict(torch.load('... your path\\model_decoder.pth'))
    with torch.no_grad():
        input_tensor = tensorFromSentence(input_lang, sentence)
        input_length = input_tensor.size()[0]

        encoder_hidden = encoder.initHidden()
        encoder_outputs = torch.zeros(max_length, encoder.hidden_size, device=device)

        for ei in range(input_length):
            encoder_output, encoder_hidden = encoder(input_tensor[ei], encoder_hidden)
            encoder_outputs[ei] += encoder_output[0][0]

        decoder_input = torch.tensor([[SOS_token]], device=device)
        decoder_hidden = encoder_hidden
        decoder_words = []

        decoder_attentions = torch.zeros(max_length, max_length)

        for di in range(max_length):
            decoder_output, decoder_hidden, decoder_attention = decoder(decoder_input, decoder_hidden, encoder_outputs)
            decoder_attentions[di] = decoder_attention.data
            topv, topi = decoder_output.data.topk(1)
            if topi.item() == EOS_token:
                decoder_words.append('')
                break
            else:
                decoder_words.append(output_lang.index2word[topi.item()])
            decoder_input = topi.detach()

        return decoder_words, decoder_attentions[:di+1]


def evaluateRandomly(encoder, decoder, n=5):
    for i in range(n):
        pair = random.choice(pairs)
        print(str(i) + '.')
        print('>', pair[0])
        print('=', pair[1])
        decoder_words, decoder_attentions = evaluate(encoder1, attn_decoder1, pair[0])
        print('<', ' '.join(decoder_words))


import matplotlib.ticker as ticker
def showAttention(input_sentence, output_words, attentions):
    # 用色条设置图形
    fig = plt.figure()
    ax = fig.add_subplot(111)
    cax = ax.matshow(attentions.numpy())       # colormap, cmap='bone'
    fig.colorbar(cax)
    # 设置轴
    ax.set_xticklabels([''] + input_sentence.split(' ') + [''], rotation=90)
    ax.set_yticklabels([''] + output_words)

    # Show label at every tick
    ax.xaxis.set_major_locator(ticker.MultipleLocator(1))
    ax.yaxis.set_major_locator(ticker.MultipleLocator(1))

    plt.show()


def evaluateAndShowAttention(input_sentence):
    output_words, attentions = evaluate(encoder1, attn_decoder1, input_sentence)
    print('input =', input_sentence)
    print('output =', ' '.join(output_words))
    showAttention(input_sentence, output_words, attentions)


if __name__ == '__main__':
    path = '... your path\\'
    # prepareData
    input_lang, output_lang, pairs = readLangs(reverse=True)
    print('Read %d sentence pairs' % len(pairs))
    pairs = filterPair(pairs)
    print('Trimmed to %d sentence pairs' % len(pairs))
    for pair in pairs:
        input_lang.addSentence(pair[0])
        output_lang.addSentence(pair[1])

    hidden_size = 256
    encoder1 = EncoderRNN(input_lang.n_words, hidden_size).to(device)
    attn_decoder1 = AttnDecoderRNN(hidden_size, output_lang.n_words, dropout_p=0.1).to(device)
    # 以下为训练
    # trainIters(encoder1, attn_decoder1)
    # 以下为测试1
    # sentence = 'vous etes avides .'
    # decoder_words, decoder_attentions = evaluate(encoder1, attn_decoder1, sentence)
    # print(' '.join(decoder_words))
    # 以下为测试2
    # evaluateRandomly(encoder1, attn_decoder1, n=5)
    # 以下为注意力可视化1
    # output_words, attentions = evaluate(encoder1, attn_decoder1, "je suis trop froid .")
    # plt.matshow(attentions.numpy())
    # plt.show()
    # 以下为注意力可视化2
    evaluateAndShowAttention("elle a cinq ans de moins que moi .")

    evaluateAndShowAttention("elle est trop petit .")

    evaluateAndShowAttention("je ne crains pas de mourir .")

    evaluateAndShowAttention("c est un jeune directeur plein de talent .")

小结

本文主要实际应用了Attentions模型
本文件是一个英文文件，所以需要做一些希腊字母转化、标点符号转化、大小写问题处理，实际上处理的句子还是很有限的，只有I’m, It’s …这种
seq2seq模型的编码器、解码器原理进一步清晰
GRU原理简单入门，具体编程的话，输入输出的维度和LSTM应该是一样的吧
训练数据处理，能写成函数就写成函数，养成习惯
Attention具体编程实现
Attention可视化，和原文有一些出入，不过总的来说结果还可以

你可能感兴趣的:(【深度学习】,人工智能,pytorch,神经网络,attention,循环神经网络)

基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
【国内超大型智能算力中心建设白皮书 2024】 AI大模型 lose and dream 人工智能开源 git 开源软件 github gitlab 开放原子
文末有福利！智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构（一）总体架构图8智算中心总体架构智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；
高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
米信使股票群诈骗真相！郑洪盛国浩盟国一带一路项目就是资金盘不要被骗了！不成功不收费
讲述:郑洪盛国浩盟国慈善投票被骗无法出金真相！套路太深教你该如何避！！骗子引诱人上当方式很简单：先给你一点甜头尝尝，一开始入金能正常提现，也能赚一点，但当投入更多钱时，你发现你的运气开始变差了。所以，荐股类骗局最大的迷惑性是：给受害人一种假象，你是投资亏损的，而不是被骗的！广大市民对此要提高警惕，如果是还没有投资，千万不要抱有侥幸心理，一定要及时远离！一定不要打草惊蛇低碳项目数字体育，人工智能ai
实现大语言模型与应用的无缝对接 meslog 技术分享语言模型 microsoft 人工智能
在当今人工智能快速发展的时代，大语言模型（LLMs）已经成为众多应用的核心驱动力。然而，如何让这些强大的模型与各种数据源和工具进行有效集成，仍然是一个挑战。ModelContextProtocol（MCP）正是为解决这一问题而设计的开放协议，它标准化了应用程序如何向大语言模型提供上下文信息。本文将介绍MCP的基本概念，并通过C#SDK展示如何实现客户端和服务器端的交互。什么是MCP？ModelCo
如何调整优化器的参数来优化神经网络性能？ Idividuals 深度学习神经网络机器学习 python scikit-learn
不同优化器有不同的可调整参数，下面以常见的优化器为例，讲解如何调整其参数来优化神经网络性能：Adam优化器Adam优化器有几个关键参数：learning_rate（学习率）、beta_1、beta_2和epsilon。1.学习率(learning_rate)-作用：控制每次参数更新的步长。学习率过大，模型可能无法收敛，在最优解附近振荡甚至发散；学习率过小，训练速度会非常缓慢。-调整方法：通常初始值
4D卓越团队 AMBR习书报告第17章成长教练继哥
Attention我关注的内容一、团队成员当停止指责和抱怨，发出4D请求承担责任。二、4种叫人失去反应能力的“戏剧状态”及解决方案：1、受害者（绿色）：抱怨他人、悲观无助->停止抱怨，发出请求；2、救助者（黄色）：为求认可，取悦他人，过度承诺、累垮自己->划定界限，适度承诺3、指责者（橙色）：怕被指责、归咎他人、愤怒掩盖->不再指责，生发好奇，了解未知4、理智者（蓝色）：过度理智、压抑情绪->放松
解决引入TransXNet模块后显存爆炸问题的全面指南 pk_xz123456 算法大数据 python 机器人数据挖掘深度学习
解决引入TransXNet模块后显存爆炸问题的全面指南前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.问题背景与现状分析1.1MF-PSN和TransXNet项目概述MF-PSN（Multi-FeaturePyramidStereoNetwork）是一个基于金字塔特征的多特征立体匹配网络，它通过构建多层次的特征金字塔来处理不同尺度的立体匹配问题
GPT-4o mini TTS：领先的文本转语音技术桂花饼 AIGC GPT-4o o4-mini 语音识别人工智能 GPT-4o
什么是GPT-4ominiTTS？GPT-4ominiTTS是OpenAI推出的全新一代文本转语音（TTS）技术，能够以自然、流畅的方式将普通文本转换为语音。依托先进的神经网络架构，GPT-4ominiTTS在语音合成中避免了传统TTS的生硬与机械感，能够生成富有情感和个性化表达的高质量语音。该技术支持多语言与多口音，是视频、播客、电子学习等场景的理想选择。核心特点自然流畅，接近真人GPT-4om
人工智能时代下的数据新职业：新兴工作岗位版图研究司南锤 economics 人工智能
目录摘要第一章：AI驱动的数据价值链重构1.1从“沉睡金矿”到“流动的血液”：数据作为核心经济资产的激活1.2知识的新经济学：零边际成本革命1.3AI作为新的“操作系统”：重塑产业竞争格局第二章：基石层：数据准备与质量保障中的角色2.1数据标注与标签领导力：数据标注经理/主管2.2“地面真实”的守护者：AI数据质量专家第三章：技术核心层：构建AI与机器学习全生命周期的工程角色3.1AI生产线架构师
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
现代人工智能综合分类：大模型时代的架构、模态与生态系统司南锤 economics 人工智能分类数据挖掘
目录引言：人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer：现代人工智能的架构基石2.2架构分化：一种功能性分类2.3提升效率与规模：专家混合模型（MoE）2.4超越Transformer：下一代架构的探索
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
Sequential Thinking：AI深度思考的新范式及其与CoT、ReAct的对比分析码字的字节人工智能 Sequential CoT ReAct
引言：AI深度思考的演进与SequentialThinking的崛起在人工智能技术快速发展的今天，AI模型的思考能力正经历着从简单应答到深度推理的革命性转变。这一演进过程不仅反映了技术本身的进步，更体现了人类对机器智能认知边界的持续探索。早期的大语言模型虽然能够生成流畅的文本，但在处理复杂问题时往往表现出"浅思考"的局限性——答案可能看似合理，却缺乏严谨的推理过程和系统性考量。例如，2022年的一
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
Unet源码实现（pytorch） wyn20001128 pytorch 人工智能 python
U-Net是一种用于生物医学图像分割的卷积神经网络架构。它通过引入一种新颖的网络结构和训练策略解决了传统方法在数据量不足时面临的挑战。U-Net的主要思想是利用数据增强技术来高效利用有限的标注样本，并通过独特的网络设计来提高分割精度。主要贡献U-Net的主要贡献包括：1、数据增强策略：使用随机弹性变形和其他形式的数据增强来增加训练数据的多样性，从而在有限的数据集上训练出更强大的模型。2、U形网络结
pytorch的学习笔记 wyn20001128 算法
一cuda 2006年，NVIDIA公司发布了CUDA(ComputeUnifiedDeviceArchitecture)，是一种新的操作GPU计算的硬件和软件架构，是建立在NVIDIA的GPUs上的一个通用并行计算平台和编程模型，它提供了GPU编程的简易接口，基于CUDA编程可以构建基于GPU计算的应用程序。 CPU是用于负责逻辑性比较强的计算，GPU专注于执行高度线程化的并行处理任务。所以
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解
基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解文章目录基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解1.RELM原理2.分类问题求解3.基于探路者算法优化的RELM4.实验结果5.Matlab代码1.RELM原理极限学习机(ELM)具有训练速度快、泛化性能好的优点。极限学习机的结构是一种典型的单隐层前馈神经网络(SLFN)。极限学习机的结构见图RELM算法：若NNN
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
【DL经典回顾】激活函数大汇总（四）（Softmax & Softplus附代码和详细公式）夺命猪头 python 机器学习人工智能神经网络 numpy
激活函数大汇总（四）（Softmax&Softplus附代码和详细公式）更多激活函数见激活函数大汇总列表一、引言欢迎来到我们深入探索神经网络核心组成部分——激活函数的系列博客。在人工智能的世界里，激活函数扮演着不可或缺的角色，它们决定着神经元的输出，并且影响着网络的学习能力与表现力。鉴于激活函数的重要性和多样性，我们将通过几篇文章的形式，本篇详细介绍两种激活函数，旨在帮助读者深入了解各种激活函数的
神经网络项目--基于FPGA的AI简易项目（1-9图片数字识别）霖12 深度学习 pytorch 神经网络 fpga开发人工智能机器学习
1.训练MNIST模型importtorch#导入pytorch核心库importtorch.nnasnn#神经网络模块，如卷积层importtorch.optimasoptim#优化器fromtorchvisionimportdatasets,transforms#数据集与图像预处理工具#定义CNN模型classSimpleCNN(nn.Module):#PyTorch库中所有神经网络的“基础模
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
神经网络常见激活函数 13-Softplus函数亲持红叶神经网络常见激活函数神经网络人工智能深度学习
文章目录Softplus函数+导函数函数和导函数图像优缺点PyTorch中的Softplus函数TensorFlow中的Softplus函数Softplus函数+导函数Softplus函数Softplus⁡(x)=ln⁡(1+e x)\begin{aligned}\operatorname{Softplus}(x)&=\ln\bigl(1+e^{\,x}\bigr)\end{aligned}Sof
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key