iteapoy

【Pytorch官方教程】从零开始自己搭建RNN3 - 含注意力机制的Seq2Seq机器翻译模型

文章目录

0 前言
1 数据与说明
- 数据下载
- 任务说明
2 基本原理
- 序列
- 编码器-解码器
- 注意力机制
3 代码
- 数据预处理
- 模型
- - 编码器
  - 解码器
  - - 简单的解码器
    - 含注意力机制的解码器
- 训练
- 测试
- 画图
参考资料

0 前言

来自官方教程，对于萌新学习用Pytorch做NLP任务有很大的帮助，就翻译过来，顺便自己Mark一下，因为打开官网有时候太慢了，还是看自己写的Blog比较快。另外，之前在做⭐ 李宏毅2020机器学习作业4-RNN：句子情感分类的时候，代码看起来有些难度。之前的几个作业都还能看懂，但是作业4实在跳跃度太大了，就先拿这几个练个手。

这是官方教程中同一个系列的文章，总共有3篇：

第一篇，教你搭建一个字母级别（character-level）的RNN，对名字进行分类，是一个分类的任务。
第二篇，教你搭建一个字母级别（character-level）的RNN，生成名字，是一个自然语言生成的任务。
第三篇，教你搭建一个Seq2Seq的RNN，进行机器翻译，也是一个自然语言生成的任务。Seq2Seq是序列到序列的模型，类似于单词级别（word-level）的RNN。

博主更新完的本系列文章：

第一篇：【Pytorch官方教程】从零开始自己搭建RNN1 - 字母级RNN的分类任务
第二篇：【Pytorch官方教程】从零开始自己搭建RNN2 - 字母级RNN的生成任务
第三篇：【Pytorch官方教程】从零开始自己搭建RNN3 - 含注意力机制的Seq2Seq机器翻译模型

1 数据与说明

数据下载

数据下载链接：点击下载

数据是一个data.zip压缩包，解压后的目录树如下所示：

D:.
│  eng-fra.txt
│  
└─names
        Arabic.txt
        Chinese.txt
        Czech.txt
        Dutch.txt
        English.txt
        French.txt
        German.txt
        Greek.txt
        Irish.txt
        Italian.txt
        Japanese.txt
        Korean.txt
        Polish.txt
        Portuguese.txt
        Russian.txt
        Scottish.txt
        Spanish.txt
        Vietnamese.txt

eng-fra.txt 是本篇任务中用到的， /name 这个文件夹下的18个文件是第一篇和第二篇任务中用到的。

用Notepad++打开 eng-fra.txt，可以看到每一行是一个翻译对，前面的是英文，后面的是法文，中间用tab隔开。

Go.	Va !
Run!	Cours !
Run!	Courez !
Wow!	Ça alors !
Fire!	Au feu !
Help!	À l'aide !
Jump.	Saute.
Stop!	Ça suffit !
Stop!	Stop !
Stop!	Arrête-toi !
Wait!	Attends !
Wait!	Attendez !
I see.	Je comprends.
I try.	J'essaye.
……

任务说明

这次任务的目标是：输入法文，将它翻译成英文，或者可以反过来，输入英文，将它翻译成法文。

比如：

[KEY: > input, = target, < output]

> il est en train de peindre un tableau .
= he is painting a picture .
< he is painting a picture .

> pourquoi ne pas essayer ce vin delicieux ?
= why not try that delicious wine ?
< why not try that delicious wine ?

> elle n est pas poete mais romanciere .
= she is not a poet but a novelist .
< she not not a poet but a novelist .

> vous etes trop maigre .
= you re too skinny .
< you re all alone .

这次，我们仍然要自己搭建一个RNN，与第一篇和第二篇不同的是，这次是一个单词级别的RNN，是一个从序列到序列的模型，又叫做Seq2Seq（Sequence to Sequence）模型，常用到的结构是编码器-解码器结构（Encoder-Decoder）。在这个模型中，由两个循环神经网络同时工作，把一个序列转换成另一个序列。一个编码器神经网络会把输入的序列编码成一个上下文向量，然后把这个上下文向量输入解码器网络，解码器网络把它解码成一个新的序列。其结构如下图所示：

为了改进模型，我们还用到了一个注意力机制（Attention Mechanism），它使得解码器在每一步解码的时候，关注上下文向量中不同的范围。

2 基本原理

关于RNN的基础原理等，请见第一篇。

这里将简单介绍一下编码器-解码器以及注意力机制的原理。

序列

第一篇和第二篇都是字母级别的RNN，即对于输入 $X=\{x_1,x_2,\ldots,x_n\}$ ， $X$ 是一个单词， $x_i$ 是组成单词的字母，比如 $X$ 是 “apple”，那么：

$x_1$ ：“a” 的one-hot编码
$x_2$ ：“p” 的one-hot编码
$x_3$ ：“p” 的one-hot编码
$x_4$ ：“l” 的one-hot编码
$x_5$ ：“e” 的one-hot编码

而在这一篇中是单词级别的RNN。

一句话可以看成是由词组成的序列。假设输入序列为 $X=\{x_1,x_2,\ldots,x_n\}$ ， $x_i$ 是词典 $V_x$ 中的单词，输出序列为 $Y=\{y_1,y_2,\ldots,y_m\}$ ， $y_i$ 是词典 $V_y$ 中的单词。

以机器翻译任务为例，假设输入一句法文 “vous etes trop maigre .” 那么输入序列就是：

$x_1$ ：“vous” 的one-hot编码
$x_2$ ：“etes” 的one-hot编码
$x_3$ ：“trop” 的one-hot编码
$x_4$ ：“maigre” 的one-hot编码
$x_5$ ："." 的one-hot编码

输出一句英文 “ you re all alone .” 那么输出序列就是：

$y_1$ ：“you” 的one-hot编码
$y_2$ ：“re” 的one-hot编码
$y_3$ ：“all” 的one-hot编码
$y_4$ ：“alone” 的one-hot编码
$y_5$ ："." 的one-hot编码

编码器-解码器

RNN的输入和输出关系可以分为几类：

我们已经知道，一般的RNN，每一个输入都会对应产生一个输出：

输入 $x_{1}$ ，输出 $y_{1}$
输入 $x_{2}$ ，输出 $y_{2}$
……
输入 $x_{t}$ ，输出 $y_{t}$

第一篇的RNN分类任务是典型的“多对一”的情况，我们用到的是模型最后一层的输出，通过softmax生成概率分布，从而进行分类

第二篇的RNN生成任务，本质上是“一对多”的情况，因为我们只输入了最开始的字母 $x_1$ ，本来模型应该只输出 $y_1$ 就结束循环。RNN之后能够不断生成 $y_2$ 、 $y_3$ 、 $y_4$ ……，是因为我们把前一步的输出 $y_{t-1}$ 作为了下一步的输入 $x_t$ ，所以模型能够从“一对多”变成“多对多”。

回到我们的翻译任务，考虑我们自己做中英翻译，有时候，输入序列和输出序列是等长的，比如：“I have a pen”，可以翻译成“我有支笔”；有时候，输入序列和输出序列是不等长的，比如："I have an apple "，翻译成“我有只苹果”，英文单词的数量是4，但是中文字的数量是5。

如何才能让输入序列和输出序列不等长？甚至输出序列比输入序列还长？有人想到了用两个RNN。一个RNN作为编码器，输入序列输入到RNN，然后它输出一个上下文向量（Context Vector） $c$ ，这个过程称为编码；另一个RNN作为解码器，把这个上下文向量 $c$ 输入到RNN，它输出另一个输出序列，这个过程称为解码。如下图所示：

$c$ 的左侧是编码器， $c$ 的右侧是解码器。

上图中的 $c$ 只作为了解码器在第一步的输入，又有下面一种变体，即解码器的每一步都用到 $c$ ：

这相当于把“多对一”的RNN和“一对多”的RNN拼接在了一起，就可以完成我们的机器翻译任务。

注意力机制

事实上，很难真正把输入序列的所有信息都压缩到一个向量 $c$ 中，所以有人想到了用注意力机制，产生一个“注意力范围”。讲人话，就是解码器在每一步解码的时候，给编码器的隐藏层赋上不同的权重，用到不同的上下文向量 $c_t$ 。

普通的编码器-解码器如下图所示：

含有注意力机制的编码器-解码器如下图所示：

假设 $h_i$ 是编码器第 $i$ 步的隐藏层状态； $h'_t$ 是解码器第 $t$ 步的隐藏层状态，上下文向量 $c_t$ 的计算公式为：

$c_{t}=\sum_{i=1}^{|Y|} \alpha_{t i} h_{i}$

$\alpha_{t i}= \frac{\exp \left(e_{t i}\right)}{\sum_{j=1}^{|Y|} \exp \left(e_{t j}\right)}$

$e_{t i} =g\left(h_{i}, h'_{t}\right)$

$\alpha_{t i}$ 是注意力的权重，是 $e_{t i}$ 经过softmax函数后的值， $e_{t i}$ 表示预测与目标的匹配打分函数。

$c_1$ 注意力权重的计算示例图如下图所示：

3 代码

数据预处理

首先，载入一些头文件。

from __future__ import unicode_literals, print_function, division
from io import open
import unicodedata
import string
import re
import random

import torch
import torch.nn as nn
from torch import optim
import torch.nn.functional as F

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

在Seq2Seq模型中，除了原有的词典外，还需要引入两个特殊符号，一个用于标记文本序列开始（Start of String），一个用于标记文本序列结束（End of String），它们的索引分别是0和1.

此外，对于英文和法文，都定义一个语言类 Lang，用于建立相应的词典。

和字母级别的RNN教程一样，每个单词都用一个 one-hot 向量来表示，即一堆0和一个1的向量，1所在的位置是这个单词的索引。与英文中只有26个字母相比，单词的数量要多得多，因此，对于英文和法文，我们都只选择一些数据来建立我们的词典。在英文数据上建立的词典 word2index 如下图所示：

索引为0的是 “” 符号，索引为1的是 “” 符号。

假设这里索引为2的是 “the” 这个单词，索引为3的是 “a” 这个单词，索引为4的是 “is” 这个单词，索引为5的是 “and” 这个单词，索引为6的是 “or” 这个单词……

那么 “and” 的one-hot向量即为：<0,0,0,0,0,1,0,…> （在5这个位置是1，其它位置都是0）

语言类 Lang 的定义如下：

word2index ： word→index，是把单词映射为索引的词典
index2word ：index → word，是把索引映射为单词的词典
word2count：统计出现过的单词总共出现的次数的词典
n_words：词典中单词数量

SOS_token = 0
EOS_token = 1

class Lang:
    def __init__(self,name):
        self.name = name
        self.word2index = {
     } #把单词映射为索引的词典
        self.word2count = {
     } #统计出现过的单词总共出现的次数
        self.index2word = {
     0:"SOS", 1:"EOS"} #把索引映射为单词
        self.n_words = 2     #词典中单词数量

    def addSentence(self, sentence):
        # 把句子按空格分割，把句中每个单词都加入词典
        for word in sentence.split(' '):
            self.addWord(word)

    def addWord(self, word):
        # 如果单词之前没有出现过，就加入词典
        if word not in self.word2index:
            self.word2index[word] = self.n_words
            self.word2count[word] = 1
            self.index2word[self.n_words] = word
            self.n_words += 1
        # 如果单词之前已经出现过，就次数加1
        else:
            self.word2count[word] += 1

eng-fra.txt 是Unicode编码，把一些法文转化成普通的ASCII编码。此外，把句子中所有字母都转化成小写，并且移除一些不是字母的字符

# 把unicode编码转化成普通的ASCII编码
def unicodeToAscii(s):
    return ''.join(
        c for c in unicodedata.normalize('NFD', s)
        if unicodedata.category(c) != 'Mn'
    )

# 小写、移除一些不是字母的字符
def normalizeString(s):
    s = unicodeToAscii(s.lower().strip())
    s = re.sub(r"([.!?])", r" \1", s)
    s = re.sub(r"[^a-zA-Z.!?]+", r" ", s)
    return s

读入文件 eng-fra.txt。原来的文件是英译法，如果想法译英，可以把输入序列和输出序列交换一下，因此加入了一个 reverse 布尔值

def readLangs(lang1, lang2, reverse=False):
    print("Reading lines...")
    
    # 读入文件，并按回车分行，每一行都存储在lines中
    lines = open('data/%s-%s.txt' % (lang1, lang2),encoding='utf-8').read().strip().split('\n')
    
    # 每一行，用tab分割，前面的是英文，后面的是法文
    pairs = [[normalizeString(s) for s in line.split('\t')] for line in lines]
    
    # 如果reverse=True，就是法译英
    if reverse:
        pairs = [list(reversed(p)) for p in pairs]
        input_lang = Lang(lang2)
        output_lang = Lang(lang1)
    # 如果reverse=False，就是英译法
    else:
        input_lang = Lang(lang1)
        output_lang = Lang(lang2)

    return input_lang,output_lang,pairs

由于原来的文件中，样本句子有很多，为了加快训练，我们在本教程中，只用一些短小、简单的句子来创建训练集。我们去除了文件中长度大于 10 个单词（包含结尾标点符号）的句子，此外，我们只用以 “I am” 或 “He is” 等形式开头的句子。因为之前把 "i’m " 等缩写中的撇号（’）过滤掉了，所以这里是 "i m "。

MAX_LENGTH = 10 # 句子最大长度是10

# 过滤出一些长度不超过10，以下列前缀开头的句子作为训练集
eng_prefixes = (
    "i am ", "i m ",
    "he is", "he s ",
    "she is", "she s ",
    "you are", "you re ",
    "we are", "we re ",
    "they are", "they re"
)

def filterPair(p):
    return len(p[0].split(' ')) < MAX_LENGTH and\
      len(p[1].split(' ')) < MAX_LENGTH and\
      p[1].startswith(eng_prefixes)

def filterPairs(pairs):
    return [pair for pair in pairs if filterPair(pair)]

调用前面定义的函数，正式读入数据，并创建数据集：

读入文件，把文件分成行，然后每一行分成一个英-法句子对
把文本规则化，按长度和内容过滤出一些简单、短小的句子
从这些英-法句子对中创建词典

def prepareData(lang1, lang2, reverse=False):
    input_lang, output_lang, pairs = readLangs(lang1,lang2,reverse)
    print("Read %s sentence pairs" % len(pairs))
    pairs = filterPairs(pairs)
    print("Trimmed to %s sentence pairs" % len(pairs))
    print("Counting words...")
    for pair in pairs:
        input_lang.addSentence(pair[0]) # input_lang中为句子pair[0]创建词典
        output_lang.addSentence(pair[1]) # output_lang中为句子pair[1]创建词典
    print("Counted wrods:")
    print(input_lang.name,input_lang.n_words)
    print(output_lang.name,output_lang.n_words)
    return input_lang,output_lang,pairs

input_lang,output_lang,pairs=prepareData('eng','fra',True) #法译英
print(random.choice(pairs))

Out：

Reading lines...
Read 135842 sentence pairs
Trimmed to 10635 sentence pairs
Counting words...
Counted wrods:
fra 4370
eng 2824
['je suis une inconditionnelle de l opera allemand .', 'i m a fan of german opera .']

对于每一个英-法句子对，我们都需要一个输入的tensor（它是输入句子中的单词的索引）和一个目标的tensor（它是目标句子中的单词的索引）。在创建这些向量的时候，我们还需要给每个句子序列加入一个 “” 符号：

# 创建句子的tensor
def indexesFromSentence(lang, sentence):
    return [lang.word2index[word] for word in sentence.split(' ')]

# 在句子的tensor中，加入EOS符号
def tensorFromSentence(lang, sentence):
    indexes = indexesFromSentence(lang,sentence)
    indexes.append(EOS_token)
    return torch.tensor(indexes, dtype = torch.long, device=device).view(-1,1)

# 创建句子对的tensor
def tensorsFromPair(pair):
    input_tensor = tensorFromSentence(input_lang,pair[0])
    target_tensor = tensorFromSentence(output_lang,pair[1])
    return (input_tensor, target_tensor)

sample_pairs = random.choice(pairs)
print(sample_pairs)
input_tensor, target_tensor = tensorsFromPair(sample_pairs)
print('input:',input_tensor)
print('target:',target_tensor)

Out：

['vous etes bonne .', 'you are good .']
input: tensor([[118],
        [214],
        [290],
        [  5],
        [  1]], device='cuda:0')
target: tensor([[129],
        [124],
        [ 44],
        [  4],
        [  1]], device='cuda:0')

模型

如前面所说，Seq2Seq模型中有两个RNN，一个是编码器，把输入序列编码成为一个向量 $c$ ，另一个是解码器，把向量 $c$ 解码成为一个输出序列。如下图所示：

编码器

Seq2Seq网络的编码器是一个RNN，在输入句子序列时，会为每一个单词输出一些值。对于每个输入的单词，编码器会输出一个向量和一个隐藏层状态，并将隐藏层状态用于下一个输入的单词。我们的编码器的示意图如下：

embedded 会将单词的one-hot向量变成词嵌入向量。

class EncoderRNN(nn.Module):
    def __init__(self,input_size,hidden_size):
        super(EncoderRNN, self).__init__()
        self.hidden_size = hidden_size
        self.embedding = nn.Embedding(input_size, hidden_size)
        self.gru = nn.GRU(hidden_size, hidden_size)

    def forward(self, input, hidden):
        embedded = self.embedding(input).view(1,1,-1)
        output, hidden = self.gru(embedded,hidden)
        return output,hidden

    def initHidden(self):
        return torch.zeros(1,1,self.hidden_size, device=device)

解码器

解码器是另一个RNN，它的输入是编码器输出的向量，然后解码器输出单词序列，从而进行机器翻译。

简单的解码器

在最简单的Seq2Seq模型中，解码器只用到编码器最后一层的输出。这最后一层的输出通常叫做上下文向量，因为它浓缩了输入序列的完整信息。这个上下文向量被用于初始化解码器的隐藏层状态。

在每一个解码的时候，会向解码器中输入一个符号和一个隐藏层状态，最开始的输入符号是 “” 符号，标志着字符串的开始（Start-of-String），解码器的第一个隐藏层状态是上下文向量，即编码器最后一层的隐藏层状态。

普通的解码器的结构如下图所示：

class DecoderRNN(nn.Module):
    def __init__(self, hidden_size, output_size):
        super(DecoderRNN, self).__init__()
        self.hidden_size = hidden_size
        self.embedding = nn.Embedding(output_size, hidden_size)
        self.gru = nn.GRU(hidden_size, hidden_size)
        self.out = nn.Linear(hidden_size, output_size)
        self.softmax = nn.LogSoftmax(dim=1)

    def forward(self, input, hidden):
        embedded = self.embedding(input).view(1,1,-1)
        embedded = F.relu(embedded)
        output, hidden = self.gru(embedded, hidden)
        output = self.softmax(self.out(output[0]))
        return output, hidden

    def initHidden(self):
        return torch.zeros(1,1,self.hidden_size, device=device)

你可以尝试用上面的解码器进行机器翻译，但是我们接下来会直接介绍一种更好的解码器——含注意力机制的解码器。

含注意力机制的解码器

如果光凭上下文向量把信息从编码器传递到解码器，那么它的负担太重——它要携带输入序列的完整信息。

注意力机制允许解码器在输出每一步的单词时，关注到编码器的输出的不同部分。首先，我们会计算一个注意力权重，然后，它们与编码器每一步输出的向量相乘，加权求和，得到一个向量。这个向量（代码中叫做 attn_applied ）包含输入序列某一部分的信息，因此可以帮助解码器选择正确的输出单词。

由另一个前向传播的全连接层 attn 来计算注意力权重，它的输入是解码器的输入和隐藏层状态。因为在训练数据中，句子长度各不同，所以在训练这一层时，我们必须选择一个它能适用的最大句子长度。最大长度的句子将使用所有的注意力权重，而较短的句子只使用前几个。它的结构如下图所示：

class AttnDecoderRNN(nn.Module):
    def __init__(self, hidden_size, output_size, 
                dropout_p=0.1, max_length=MAX_LENGTH):
        super(AttnDecoderRNN, self).__init__()
        self.hidden_size = hidden_size
        self.output_size = output_size # 目标语言的单词数量
        self.dropout_p = dropout_p
        self.max_length = max_length

        self.embedding = nn.Embedding(self.output_size, self.hidden_size)
        self.attn = nn.Linear(self.hidden_size * 2,self.max_length)
        self.attn_combine = nn.Linear(self.hidden_size * 2,self.hidden_size)
        self.dropout = nn.Dropout(self.dropout_p)
        self.gru = nn.GRU(self.hidden_size, self.hidden_size)
        self.out = nn.Linear(self.hidden_size, self.output_size)

    def forward(self, input, hidden, encoder_outputs):
        # input是编码器的上一步输出 或者 真实的前一个单词
        embedded = self.embedding(input).view(1,1,-1)
        embedded = self.dropout(embedded)
        
        # 计算注意力权重
        attn_weights = F.softmax(
            self.attn(torch.cat((embedded[0],hidden[0]),1)),dim=1)
        
        # torch.bmm(a,b):计算两个tensor的Hadamard乘积，
        # tensor a 的大小为(b,h1,w),
        # tensor b 的大小为(b,w,h2)
        attn_applied = torch.bmm(attn_weights.unsqueeze(0), # 1, 1， max_length
                    encoder_outputs.unsqueeze(0)) # 1, max_length， hidden_size
        
        # 输出的attn_applied 大小为 (1, 1, hidden_size)
        # embedded: (1, 1, hidden_size)
        output = torch.cat((embedded[0], attn_applied[0]),1)
        output = self.attn_combine(output).unsqueeze(0)

        output = F.relu(output)
        output, hidden = self.gru(output,hidden)

        output = F.log_softmax(self.out(output[0]),dim=1)
        return output, hidden, attn_weights

    def initHidden(self):
        return torch.zeros(1,1,self.hidden_size,device=device)

训练

为了训练，我们先把输入序列通过编码器，然后用 encoder_outputs 记录编码器每一步的输出和最后一步的隐藏层状态。然后，我们给解码器输入 “” 符号作为第一个输入，然后把编码器最后一步的隐藏层状态作为解码器第一步的隐藏层状态。

“Teacher forcing”是一个加速RNN收敛的技巧。如下图所示：

我们原本是拿RNN上一步的预测值 $y_{t-1}$ 作为当前的输入 $x_t$ ，这个方法叫做自回归（Autoregressive）。但是，RNN刚开始训练时，预测效果不好，如果一味任凭RNN自己训练，一旦它某一步预测错误，之后的预测就会偏离目标值越来越远；而“Teacher forcing”中用真实的目标单词 $y^*_{t-1}$ 作为当前的输入 $x_t$ ，帮助模型学习与快速收敛。不过，“Teacher forcing”也存在着问题：当我们用训练好的模型进行测试时，它可能会表现得不稳定。

因此，我们需要限制“Teacher forcing”和自回归的比例，用到了teacher_forcing_ratio，即有 $p$ 的概率，选择“Teacher forcing”，输入真值 $y^*_{t-1}$ ，有 $1 - p$ 的概率选择自回归，输入预测值 $y_{t-1}$ 。

teacher_forcing_ratio = 0.5

def train(input_tensor, target_tensor, encoder, decoder,
      encoder_optimizer, decoder_optimizer, criterion, max_length=MAX_LENGTH):
    encoder_hidden = encoder.initHidden()

    encoder_optimizer.zero_grad()
    decoder_optimizer.zero_grad()

    input_length = input_tensor.size(0)  # 源语言句子长度
    target_length = target_tensor.size(0) # 目标语言句子长度

    encoder_outputs = torch.zeros(max_length,encoder.hidden_size,device=device)

    loss = 0

    for ei in range(input_length):
        encoder_output, encoder_hidden = encoder(
            input_tensor[ei],encoder_hidden)
        encoder_outputs[ei] = encoder_output[0,0]  # 保存encoder每一步的隐藏层状态
  
    decoder_input = torch.tensor([[SOS_token]],device=device) # decoder的第一个输入是SOS

    decoder_hidden = encoder_hidden # encoder最后一步隐藏层状态

    use_teacher_forcing = True if random.random()<teacher_forcing_ratio else False

    if use_teacher_forcing:
    # 强制输入target的input
        for di in range(target_length):
            decoder_output, decoder_hidden, decoder_attention = decoder(
              decoder_input, decoder_hidden, encoder_outputs)
            loss += criterion(decoder_output, target_tensor[di])
            decoder_input = target_tensor[di]

    else:
    # 输入预测的input
        for di in range(target_length):
            decoder_output, decoder_hidden, decoder_attention = decoder(
              decoder_input, decoder_hidden, encoder_outputs)
            topv,topi = decoder_output.topk(1)
            decoder_input = topi.squeeze().detach()

            loss += criterion(decoder_output, target_tensor[di])

            if decoder_input.item() == EOS_token: break

    loss.backward()

    encoder_optimizer.step()
    decoder_optimizer.step()

    return loss.item()/target_length

与前两篇相同，让我们在训练时记录已训练的时间、剩余训练时间、损失等信息。

import time
import math

def asMinutes(s):
    m = math.floor(s / 60)
    s -= m * 60
    return '%dm %ds' % (m, s)

def timeSince(since, percent):
    now = time.time()
    s = now - since
    es = s / (percent)
    rs = es - s
    return '%s (- %s)' % (asMinutes(s), asMinutes(rs))

整个训练过程如下：

开始一个计时器
初始化优化器 optimizers 和损失函数 criterion
创建训练的样本对
在数组中记录损失，用于之后画图

%matplotlib inline 
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import numpy as np

def showPlot(points):
    plt.figure()
    fig, ax = plt.subplots()
    # this locator puts ticks at regular intervals
    loc = ticker.MultipleLocator(base=0.2)
    ax.yaxis.set_major_locator(loc)
    plt.plot(points)

def trainIters(encoder, decoder, n_iters, print_every=1000,
               plot_every=100,learning_rate = 0.01):
    start = time.time()
    plot_losses = []
    print_loss_total = 0 
    plot_loss_total = 0

    encoder_optimizer = optim.SGD(encoder.parameters(),lr=learning_rate)
    decoder_optimizer = optim.SGD(decoder.parameters(),lr=learning_rate)

    training_pairs = [tensorsFromPair(random.choice(pairs)) for i in range(n_iters)]
    criterion = nn.NLLLoss()

    for iter in range(1,n_iters+1):
        training_pair = training_pairs[iter-1]
        input_tensor = training_pair[0]
        target_tensor = training_pair[1]

        loss = train(input_tensor, target_tensor,encoder,
                     decoder, encoder_optimizer, decoder_optimizer,criterion)
        print_loss_total += loss
        plot_loss_total += loss

        if iter % print_every ==0:
            print_loss_avg = print_loss_total/print_every
            print_loss_total = 0 
            print("%s (%d %d%%) %.4f"%(timeSince(start,iter/n_iters),
             iter, iter / n_iters*100, print_loss_avg))
      
        if iter % plot_every == 0:
            plot_loss_avg = plot_loss_total / plot_every
            plot_losses.append(plot_loss_avg)
            plot_loss_total =0

    showPlot(plot_losses)

hidden_size = 256
encoder1 = EncoderRNN(input_lang.n_words, hidden_size).to(device)
attn_decoder1 = AttnDecoderRNN(hidden_size, output_lang.n_words, dropout_p=0.1).to(device)

trainIters(encoder1,attn_decoder1,75000,print_every=5000)

运行了71分钟，终于训练完了……

Out：

5m 0s (- 70m 2s) (5000 6%) 2.8654
9m 35s (- 62m 22s) (10000 13%) 2.2857
14m 21s (- 57m 27s) (15000 20%) 2.0029
19m 7s (- 52m 36s) (20000 26%) 1.7256
23m 48s (- 47m 37s) (25000 33%) 1.5591
28m 26s (- 42m 39s) (30000 40%) 1.3824
33m 15s (- 38m 1s) (35000 46%) 1.2276
38m 3s (- 33m 18s) (40000 53%) 1.1112
42m 51s (- 28m 34s) (45000 60%) 0.9992
47m 40s (- 23m 50s) (50000 66%) 0.9228
52m 27s (- 19m 4s) (55000 73%) 0.8154
57m 16s (- 14m 19s) (60000 80%) 0.7489
62m 5s (- 9m 33s) (65000 86%) 0.7264
66m 59s (- 4m 47s) (70000 93%) 0.6505
71m 44s (- 0m 0s) (75000 100%) 0.5862

测试

测试过程和训练过程相同，但是没有真值，因此我们将解码器上一步的预测值作为它当前的输入。它每预测一个词，我们就把这个词加入输出的字符串中，如果它预测到了“” 符号，我们就停止RNN的循环。另外，我们还要保存解码器的注意力输出，之后用于画图。

def evaluate(encoder, decoder, sentence, max_length =MAX_LENGTH):
    with torch.no_grad():
        input_tensor = tensorFromSentence(input_lang,sentence)
        input_length = input_tensor.size()[0]
        encoder_hidden = encoder.initHidden()

        encoder_outputs = torch.zeros(max_length,encoder.hidden_size,device=device)

        for ei in range(input_length):
            encoder_output, encoder_hidden = encoder(input_tensor[ei],encoder_hidden)
            encoder_outputs[ei] += encoder_output[0,0]

        decoder_input = torch.tensor([[SOS_token]],device=device)

        decoder_hidden=encoder_hidden

        decoded_words = []
        decoder_attentions = torch.zeros(max_length, max_length)

        for di in range(max_length):
            decoder_output, decoder_hidden,decoder_attention = decoder(decoder_input,decoder_hidden,encoder_outputs)
            decoder_attentions[di] = decoder_attention.data
            topv, topi = decoder_output.data.topk(1)
            if topi.item() == EOS_token:
                decoded_words.append('')
                break
            else:
                decoded_words.append(output_lang.index2word[topi.item()])

            decoder_input = topi.squeeze().detach()

        return decoded_words, decoder_attentions[:di+1]

测试10个样例

def evaluateRandomly(encoder,decoder,n=10):
    for i in range(n):
        pair = random.choice(pairs)
        print('>', pair[0])
        print('=', pair[1])
        output_words, attentions = evaluate(encoder, decoder, pair[0])
        output_sentence = ' '.join(output_words)
        print('<', output_sentence)
        print('')
        
evaluateRandomly(encoder1, attn_decoder1)

Out：

> j ai faim et soif .
= i m hungry and thirsty .
< i m hungry and thirsty . 

> j ai les glandes .
= i m really angry .
< i m really angry . 

> je suis desolee si je vous ai effrayees .
= i m sorry if i frightened you .
< i m sorry if i frightened you . 

> vous n etes pas tres bons .
= you re not very good .
< you re not very good . 

> je ne suis pas quelqu un de patient .
= i m not a patient person .
< i m not a drunk person . 

> je te le demande en tant qu ami .
= i m asking you as a friend .
< i m asking you as a friend . 

> vous etes paranoiaques .
= you re being paranoid .
< you re clever . 

> vous etes plus intelligents que moi .
= you re smarter than me .
< you re smarter than me . 

> elle fait un regime pour perdre du poids .
= she is on a diet to lose weight .
< she s on weight for lose weight . 

> j ai la schcoumoune .
= i m unlucky .
< i m learning .

画图

我们画出在翻译某句句子时的注意力权重 attentions

output_words, attentions = evaluate(
    encoder1, attn_decoder1, "je suis trop froid .")
plt.matshow(attentions.cpu().numpy())

Out：

为了更直观，我们加上坐标轴和标签：

def showAttention(input_sentence, output_words, attentions):
    # Set up figure with colorbar
    fig = plt.figure()
    ax = fig.add_subplot(111)
    cax = ax.matshow(attentions.numpy(), cmap='bone')
    fig.colorbar(cax)

    # Set up axes
    ax.set_xticklabels([''] + input_sentence.split(' ') +
                      [''], rotation=90)
    ax.set_yticklabels([''] + output_words)

    # Show label at every tick
    ax.xaxis.set_major_locator(ticker.MultipleLocator(1))
    ax.yaxis.set_major_locator(ticker.MultipleLocator(1))

    plt.show()

def evaluateAndShowAttention(input_sentence):
    output_words, attentions = evaluate(
      encoder1, attn_decoder1, input_sentence)
    print('input = ',input_sentence)
    print('output = ',' '.join(output_words))
    showAttention(input_sentence, output_words, attentions)

evaluateAndShowAttention("elle a cinq ans de moins que moi .")

evaluateAndShowAttention("elle est trop petit .")

evaluateAndShowAttention("je ne crains pas de mourir .")

evaluateAndShowAttention("c est un jeune directeur plein de talent .")

Out：

input =  elle a cinq ans de moins que moi .
output =  she s five years younger than i am .

input =  elle est trop petit .
output =  she s too short .

input =  je ne crains pas de mourir .
output =  i m not scared of dying .

input =  c est un jeune directeur plein de talent .
output =  he s a very young .

至此，本教程已结束。你可以尝试更多练习：

尝试不同的训练集：
- 另一种语言对的翻译
- 人类语言 → 机器语言（比如 IOT 命令）
- 对话 → 回复
- 问题 → 答案
把词嵌入层换成预训练的词嵌入模型，比如 word2vec 或者 GloVe
用更多层、更多隐藏层单元、更多训练数据，比较训练时间和结果
如果你用的翻译数据集中有两个相同的短语，比如 I am test \t I am test，你可以尝试自编码器

参考资料

李飞飞 cs231n课程第10讲
真正的完全图解Seq2Seq Attention模型
Seq2Seq 编码器-解码器模型与注意力机制
Seq2Seq 模型详解
深度学习之seq2seq模型以及Attention机制
Tutorial #6: neural natural language generation - decoding algorithms

你可能感兴趣的:(❤️,机器学习)

kaggle上面有哪些适合机器学习新手的比赛和项目 xiamu_CDA 机器学习人工智能
Kaggle上面有哪些适合机器学习新手的比赛和项目？在当今数据驱动的时代，机器学习已经成为一门炙手可热的技能。Kaggle作为全球最大的数据科学竞赛平台，不仅汇聚了众多顶尖的数据科学家和机器学习工程师，也为初学者提供了丰富的学习资源和实战机会。对于机器学习新手来说，选择合适的比赛和项目是至关重要的第一步。本文将为你推荐一些适合新手的Kaggle比赛和项目，并提供一些实用的建议，帮助你在机器学习的道
python鸢尾花数据集knn_【python+机器学习1】python 实现 KNN weixin_39629269 python鸢尾花数据集knn
欢迎关注哈希大数据微信公众号【哈希大数据】1KNN算法基本介绍K-NearestNeighbor(k最邻近分类算法)，简称KNN，是最简单的一种有监督的机器学习算法。也是一种懒惰学习算法，即开始训练仅仅是保存所有样本集的信息，直到测试样本到达才开始进行分类决策。KNN算法的核心思想：要想确定测试样本属于哪一类，就先寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后判断这K个样本中大部分所
【机器学习】使用scikit-learn中的KNN包实现对鸢尾花数据集或者自定义数据集的的预测加德霍克机器学习人工智能 python 学习作业
一、KNN算法概念K最近邻(K-NearestNeighbor,KNN)分类算法是数据挖掘分类技术中最简单的方法之一，是著名的模式识别统计学方法，在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一，也是基于实例的学习方法中最基本的，又是最好的文本分类算法之一。二、对鸢尾花数据集进行预测1、代码示例：fromsklearn.datasetsimportl
Julia语言的计算机基础 Code侠客行包罗万象 golang 开发语言后端
Julia语言的计算机基础引言随着数据科学、机器学习和高性能计算的快速发展，对编程语言的需求也日益增加。在众多编程语言中，Julia语言因其独特的设计理念和高性能而迅速崛起。本文将详细探讨Julia语言的基础知识，包括其历史背景、安装与环境配置、基本语法、数据结构、函数与模块、以及性能优化等方面，旨在为对Julia感兴趣的读者提供一份全面的入门指南。一、Julia语言简介1.1历史背景Julia是
想转行到人工智能领域，我该学什么，怎么学？张登杰踩人工智能 python
转行到人工智能（AI）领域需要系统的学习和实践，以下是详细的路径建议，涵盖基础知识、技能学习、项目实践和求职准备：一、明确目标和领域方向人工智能领域广泛，建议先了解细分方向（如机器学习、深度学习、计算机视觉、自然语言处理、强化学习等），结合兴趣和职业规划选择切入点。二、构建基础知识1.数学基础线性代数：矩阵运算、特征值、向量空间。微积分：导数、梯度、优化理论。概率与统计：贝叶斯定理、分布、假设检验
机器学习问题：AttributeError: ‘NoneType‘ object has no attribute ‘split‘ 解决办法零零鲎机器学习人工智能
参考博客：本次博客参考http://t.csdnimg.cn/8E7eH。写下来主要是为了整理自己在学习过程中遇到的问题并把解决办法列出来。学习内容：如果运行出现：AttributeError:‘NoneType’objecthasnoattribute'split’这样的问题。网上有很多解决办法是降级numpy到1.21.4。然后上面博客给出的解决方案是升级threadpoolctl。可以使用命
AI Agent：一场智能革命的开始机器人openai区块链
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
【杂谈】-为什么Python是AI的首选语言视觉与物联智能杂谈 python 人工智能开发语言深度学习机器学习
为什么Python是AI的首选语言文章目录为什么Python是AI的首选语言1、为何Python引领人工智能发展1.1可用性和生态系统1.2用户群和用例1.3效率辅助2、AI项目对Python开发人员的要求3、如何开启你的AI学习之旅人工智能的广泛应用正在软件工程领域引发范式转变。Python凭借其易用性、成熟的生态系统以及满足人工智能和机器学习(ML)工作流数据驱动需求的能力，迅速成为人工智能开
新质生产力与核心竞争力提升 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
新质生产力、人工智能、机器学习、深度学习、算法优化、数据驱动、核心竞争力、数字化转型1.背景介绍在当今数字化时代，科技创新正以惊人的速度推动着社会发展。人工智能（AI）作为科技发展的重要驱动力，正在深刻地改变着生产方式和生活方式。从自动驾驶汽车到智能语音助手，从个性化推荐系统到医疗诊断辅助，AI技术的应用场景日益广泛，为人类社会带来了前所未有的机遇。然而，AI技术的应用并非一帆风顺。如何有效地利用
智能工单分配在技术支持中的应用 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
智能工单分配,技术支持,机器学习,算法优化,效率提升,客户满意度1.背景介绍在当今数字化时代，技术支持部门扮演着至关重要的角色，为用户提供及时有效的技术帮助，确保业务的正常运行。然而，随着用户数量和技术需求的不断增长，传统的人工工单分配方式面临着诸多挑战：分配效率低下:人工分配工单需要耗费大量时间和人力，且难以做到精准匹配，导致工单处理效率低下。资源分配不均衡:经验丰富的技术人员可能承担过多的工作
计算广告（一）爱学习的菜鸟罢了搜广推人工智能
计算广告学是一个十分庞大的学科，里面涵盖了自然语言处理、机器学习、推荐系统等众多研究方向。而且广告作为互联网行业的三大盈利模式（广告、电商、游戏）之一，也是这三大模式中最有技术含量的，计算广告学一直都吸引着无数学术界/工业界的精英投入其中（ps：计算广告学也是机器学习在商业界最成功的应用之一）。行业分类例子盈利搜索引擎Google百度广告社交网络腾讯facebook广告增值服务游戏电商网站亚马逊阿
如何从Oracle Autonomous Database加载文档 fGVBSAbe 数据库 oracle python
OracleAutonomousDatabase是一种云数据库，利用机器学习来自动化数据库调优、安全性、备份、更新以及其他传统由数据库管理员(DBAs)执行的例行管理任务。在本文中，我们将演示如何从OracleAutonomousDatabase加载文档。我们将使用连接字符串或TNS配置来进行连接。技术背景介绍OracleAutonomousDatabase通过自动化的方式极大地简化了数据库管理的
基于数据可视化+SpringBoot+Vue的医院综合管理平台设计和实现(源码+论文+部署讲解等) java李杨勇 Java精品毕设实战案例 Java毕业设计实战案例信息可视化 spring boot vue.js 医院综合管理平台 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
自动检测和机器审核系统实现 ╰つ゛木槿 java easyui javascript python java 自然语言处理
目录一、自动检测和机器审核实现步骤1.文本预处理步骤细节：2.关键词检测步骤细节：3.情感分析与情境理解步骤细节：4.机器学习模型训练步骤细节：5.深度学习模型步骤细节：6.多模态审查步骤细节：7.用户行为分析与违规预测步骤细节：总结二、常用的分词工具1.jieba2.THULAC3.HanLP4.SnowNLP5.LAC（LexicalAnalysisofChinese）6.PyLDAvis（结
【CV】25.1.7 arxiv更新速递 hinmer arxiv CV每日更新 python 人工智能计算机视觉 chatgpt 目标检测 ai AIGC
—第1篇----关键词:手势识别,计算机视觉,低光照条件,机器学习,RaspberryPi,OpenCV论文链接-摘要:手势识别是一种基于计算机视觉技术的感知用户界面，允许计算机将人类动作解释为命令，使用户无需使用手与计算机交流，从而使鼠标和键盘变得多余。手势识别的主要弱点是光线条件，因为手势控制依赖于摄像头。摄像头用于在2D和3D中解释手势，因此提取的信息可能因光源而异。系统的限制是无法在黑暗环
【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
基于遗传算法的城市旅行问题（TSP）求解 NovakG_ 深度学习 python 算法深度学习神经网络
1.遗传算法背景介绍遗传算法是一种基于生物进化论中的自然选择和遗传机制的优化算法，模拟了生物进化过程以搜索最优解。通过仿真染色体的交叉、变异等操作，遗传算法将求解过程转换为类似生物进化的迭代运算。该算法在解决复杂的组合优化问题时，通常比常规优化算法更高效，且具有广泛应用，包括组合优化、机器学习、信号处理、自适应控制和人工生命等领域2.遗传算法基本解题思路遗传算法的设计思路主要受到大自然中生物体进化
【2025 ODA teigha .NET系列开发教程第五章】给CAD实体添加附属数据XDATA，包括源码三好学生～张旺 ODA Teigha .NET开发教程 .net
系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档2025ODAteigha.NET系列开发教程系列文章目录AutoCADXData扩展数据开发指南什么是XData？XData的两种存储方式1.全局字典存储(XRecord)2.实体附加存储步骤1：注册应
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶网罗开发 AI 大模型人工智能机器学习
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Copilot 概述计算机萍萍学姐 copilot copilot 人工智能机器学习
Copilot是什么？它有什么用途？Copilot是由人工智能公司和GitHub合作开发的一个基于人工智能的代码提示工具，它可以利用机器学习技术和大量训练数据生成高质量的代码。Copilot的目标是在保持代码质量和可读性的前提下，提高开发者的编码效率，使得编码工作更为高效和便捷。Copilot的出现是解决编程过程中可能遇到的一些难点和瓶颈问题，特别是在快速迭代的敏捷开发场景中，提高编码效率和减少编
让旅游更智能：基于AR的旅游导览应用解析 Echo_Wish Python 笔记 Python算法旅游 ar restful
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶人工智能机器学习深度学习
摘要随着系统规模的扩大和复杂性增加，传统基于规则的日志分析方法难以识别隐藏的复杂异常模式。本文将介绍基于机器学习的日志异常检测技术，包括模型选择、特征工程及实现步骤。通过具体的代码示例与图表，展示如何高效检测异常日志，并提供应用场景与优化策略。引言日志是系统运行状态的关键数据来源，但面对海量日志数据，传统规则式分析显得力不从心。机器学习能够根据日志的历史数据和行为模式，通过训练模型检测异常情况，不
【Python】已完美解决：ERROR: Could not find a version that satisfies the requirement re 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
下载马斯克Grok-1模型的实战代码 herosunly 大模型 grok-1 下载模型实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了下载马斯克Grok-1模型的实战代码，希望能对学习大模型的同学们有所帮助
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
数据挖掘：定义、挑战与应用黑色叉腰丶大魔王数据挖掘人工智能
一、数据挖掘的定义（一）概念阐述数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它融合了数据库技术、统计学、机器学习、人工智能等多学科的理论和方法，旨在通过对数据的深入分析和处理，发现有价值的模式、关联、趋势等，从而为决策提供支持。（二）与相关概念的区别与联系数据库管理：数据库管理侧重于数据的存储、组织、检索和维护
使用Google Vertex AI Search进行企业级高级搜索 hgSdaegva 人工智能 python
技术背景介绍GoogleVertexAISearch（前称为EnterpriseSearchonGenerativeAIAppBuilder）是GoogleCloud提供的VertexAI机器学习平台的一部分。VertexAISearch允许组织快速建立由生成式AI驱动的搜索引擎，为客户和员工提供服务。它基于各种GoogleSearch技术，包括语义搜索，通过使用自然语言处理和机器学习技术来推断内
在EverlyAI上运行LLM模型——以LLAMA为例 HGWAcsdgvs llama python
在EverlyAI上运行LLM模型——以LLAMA为例技术背景介绍EverlyAI是一个强大的云平台，允许你在云中大规模运行机器学习模型。它还提供了对多种大型语言模型（LLM）的API访问。在这篇文章中，我们将展示如何使用EverlyAI的API来调用LLAMA模型。通过这种方式，你可以在云端轻松地运行和测试你的语言模型。核心原理解析LLAMA模型是一个强大的变压器模型，它具有数十亿个参数，能够处
自动化评估：利用机器学习算法评估 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1评估的意义评估在各个领域都扮演着至关重要的角色，例如教育、人力资源、医疗保健等。传统评估方式通常依赖人工，费时费力且容易受到主观因素的影响。随着机器学习技术的不断发展，自动化评估逐渐成为一种趋势，它能够提高评估效率、降低成本并减少人为偏差。1.2机器学习在评估中的优势机器学习算法能够从大量数据中学习规律，并根据这些规律对新的数据进行预测或分类。在评估领域，机器学习可以用于：自动评
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found