同学陈

基于Transformer实现英语--＞西班牙语的翻译任务

基于Transformer实现英语–>西班牙语的翻译任务

该项目基于PaddlePaddle框架完成，项目直达：基于Transformer实现英语–>西班牙语的翻译任务

作者信息:
- Github：2017040264
- AiStudio：月光下的独孤亮
更新日期：2022.10.31

1.项目背景

在本项目中，我们将构建一个Sequence-to-sequence的 Transformer 模型，并在英语到西班牙语的机器翻译任务中对其进行训练。

Sequence-to-sequence:
机器翻译是序列转换模型的一个核心问题，其输入和输出都是长度可变的序列。为了处理这种类型的输入和输出，研究人员设计出一个包含两个主要组件的架构：
- 第一个组件是一个编码器（encoder）：它接受一个长度可变的序列作为输入，并将其转换为具有固定形状的编码状态。
- 第二个组件是解码器（decoder）：它将固定形状的编码状态映射到长度可变的序列。

这种架构被称为编码器-解码器（encoder-decoder）架构，如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4e27Xy4r-1668437026856)(https://ai-studio-static-online.cdn.bcebos.com/a7cadcd296924fec8f50146faa7d0c1db5c39f0712474be6a3dfe1b44d3270c9)]

Transformer:
Transformer是Sequence-to-sequence架构的一种实例，其诞生于2017年的《Attention is all you need》,诞生之处该模型就展示出了强大的魅力，刷新了NLP领域的大部分SOTA。现如今在Transformer在CV领域应用也得到了十分广泛的应用。Transformer的框架图如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bAMPtLeB-1668437026858)(https://ai-studio-static-online.cdn.bcebos.com/ca0931928b4a41af97a318f66957767c9ffda9b248634f4182cfda80e6a3923a)]

机器翻译：
机器翻译（machine translation）指的是将序列从一种语言自动翻译成另一种语言。事实上，这个研究领域可以追溯到数字计算机发明后不久的20世纪40年代，特别是在第二次世界大战中使用计算机破解语言编码。几十年来，在使用神经网络进行端到端学习的兴起之前，统计学方法在这一领域一直占据主导地位。因为统计机器翻译（statisticalmachine translation）涉及了翻译模型和语言模型等组成部分的统计分析，因此基于神经网络的方法通常被称为 神经机器翻译（neuralmachine translation），用于将两种翻译模型区分开来。

2.环境设置

我们需要的依赖主要有：

paddle系列：组装数据集、搭建模型框架
padldenlp系列：数据处理
numpy: NumPy (Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库
collections: 主要使用Counter，快速构建语料库字典
string: 字符串库，我们要使用标点符号集合
functools：主要使用partial，用于数据集的构建工作
random: 随机函数库
matplotlib.pyplot：画图使用

import paddle
import paddlenlp
from paddle.io import Dataset
from paddlenlp.data import Vocab

import numpy as np
import string
import random
import matplotlib.pyplot as plt
from functools import partial
from collections import Counter

3.数据集

使用Anki提供的English-to-Spanish翻译数据集,下载地址为：English-to-Spanish数据集。该数据集总共包含118964条（English,Spanish）语句对。示例如下：

English	Spanish
Go on home.	Vete a casa.
I can jump.	Puedo saltar.

3.1 加载数据集

数据集的加载有两种方式：

通过链接下载，该方法可能存在下载速度慢等不便利的情况，不推荐。
我们已经下载好并上传至AiStudio平台，使用方便，强烈推荐。我们的数据集地址：【NLP】English-Spanish

# 下载数据集

# from paddle.utils.download import get_path_from_url
# URL = "http://storage.googleapis.com/download.tensorflow.org/data/spa-eng.zip"
# get_path_from_url(URL, "./data")
# text_file='data/spa-eng/spa.txt' # 数据集路径

# 使用我们提供的数据集

text_file='data/data173968/spa.txt' # 数据集路径

3.2 添加[start] token与 [end] token

为目标语言：西班牙语，添加[start] token与 [end] token

with open(text_file) as f:
    lines = f.read().split("\n")[:-1]
text_pairs = []
for line in lines:
    eng, spa = line.split("\t")
    spa = "[start] " + spa + " [end]"
    text_pairs.append((eng, spa))

for _ in range(5):
    print(random.choice(text_pairs))

('Are you seriously thinking about getting a divorce?', '[start] ¿Estás pensando seriamente en divorciarte? [end]')
('I bought it.', '[start] Lo he comprado. [end]')
('He was my student. Now he teaches my children.', '[start] Era alumno mío, ahora enseña a mis hijos. [end]')
('It seems Tom knows Mary.', '[start] Parece que Tom conoce a Mary. [end]')
('Tom has done a magnificent job.', '[start] Tom ha hecho un excelente trabajo. [end]')

3.3划分数据集

random.shuffle(text_pairs)
num_val_samples = int(0.15 * len(text_pairs))
num_train_samples = len(text_pairs) - 2 * num_val_samples
train_pairs = text_pairs[:num_train_samples]
val_pairs = text_pairs[num_train_samples : num_train_samples + num_val_samples]
test_pairs = text_pairs[num_train_samples + num_val_samples :]

print(f"{len(text_pairs)} total pairs")
print(f"{len(train_pairs)} training pairs")
print(f"{len(val_pairs)} validation pairs")
print(f"{len(test_pairs)} test pairs")

118964 total pairs
83276 training pairs
17844 validation pairs
17844 test pairs

train_eng_texts = [pair[0] for pair in train_pairs]
train_spa_texts = [pair[1] for pair in train_pairs]

val_eng_texts = [pair[0] for pair in val_pairs]
val_spa_texts = [pair[1] for pair in val_pairs]

test_eng_texts = [pair[0] for pair in test_pairs]
test_spa_texts = [pair[1] for pair in test_pairs]

3.4 数据集预处理

save_punctuation=True: 保留标点符号，在标点之前（之后）加空格；
save_punctuation=False: 删除所有的标点

def pre_process(datas,save_punctuation=False):
    dataset=[]
    # 定义标点符号集合
    
    strip_chars = string.punctuation + "¿¡" 
    strip_chars = strip_chars.replace("[", "")
    strip_chars = strip_chars.replace("]", "")

    for i in range(len(datas)):
        lowercase=datas[i].lower() # 全部转为小写

        out=""
        if save_punctuation:
            # 在标点符号之前加空格，需注意有特殊情况
            for low in lowercase:
                if low in strip_chars:
                    if low=="¿"or low=="¡": # 西班牙语的【反问号、反叹号】...百度一下，你就知道
                        out+=low+" "
                    else:
                        out+=" "+low
                else:
                    out+=low
        else:
            # 也可以选择删除除所有的标点
            for low in lowercase:
                if low not in strip_chars:
                    out+=low
                    
        dataset.append(out)
    return dataset

train_eng_texts_pre=pre_process(train_eng_texts)
train_spa_texts_pre=pre_process(train_spa_texts)

val_eng_texts_pre=pre_process(val_eng_texts)
val_spa_texts_pre=pre_process(val_spa_texts)

test_eng_texts_pre=pre_process(test_eng_texts)
test_spa_texts_pre=pre_process(test_spa_texts)

print("预处理结果展示：")
print("英语：标准化处理之前：",train_eng_texts[0])
print("英语：标准化处理之后：",train_eng_texts_pre[0])

print("西班牙语：标准化处理之前：",train_spa_texts[0])
print("西班牙语：标准化处理之后：",train_spa_texts_pre[0])

预处理结果展示：
英语：标准化处理之前： Tom wants to stay single.
英语：标准化处理之后： tom wants to stay single
西班牙语：标准化处理之前： [start] Tom quiere seguir soltero. [end]
西班牙语：标准化处理之后： [start] tom quiere seguir soltero [end]

3.5 统计句子长度

通过统计句子长度进而合理的网络的输入向量的长度
从统计信息可以看出，英语和西班牙语的句子长度大部分都在20以下

3.5.1 英语句子长度

dicta=dict()
for text in train_eng_texts_pre:
    lent=len(text.split())
    if lent in dicta.keys():
        dicta[lent]+=1
    else:
        dicta[lent]=1
lita=sorted(dicta.items(),key=lambda x:x[0],reverse=True)

x=[l[0] for l in lita]
y=[l[1] for l in lita]
plt.bar(x, y)  
plt.xlabel('English sentences length')
plt.ylabel('nums')
plt.title('Information on the length of English sentences')
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oWwjfxSr-1668437026859)(main_files/main_20_0.png)]

3.5.2 西班牙语句子长度

dicta=dict()
for text in train_spa_texts_pre:
    lent=len(text.split())
    if lent in dicta.keys():
        dicta[lent]+=1
    else:
        dicta[lent]=1
lita=sorted(dicta.items(),key=lambda x:x[0],reverse=True)

x=[l[0] for l in lita]
y=[l[1] for l in lita]
plt.bar(x, y)  
plt.xlabel('Spanish sentences length')
plt.ylabel('nums')
plt.title('Information on the length of Spanish sentences')
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JG8W7Dc9-1668437026860)(main_files/main_22_0.png)]

3.6 用训练集分别构造英语和西班牙语的语料库

def build_cropus(data):
    crpous=[]
    for i in range(len(data)):
        cr=data[i].strip().lower()
        cr=cr.split()
        crpous.extend(cr)
    return crpous

eng_crpous=build_cropus(train_eng_texts_pre)
spa_crpous=build_cropus(train_spa_texts_pre)

print(eng_crpous[:3])
print(spa_crpous[:3])

['tom', 'wants', 'to']
['[start]', 'tom', 'quiere']

# 根据给定的词汇量,按照词汇出现的频率构造词典，
def build_dict(corpus,vocab_size):
    # 首先统计每个不同词的频率（出现的次数），使用一个词典记录
    word_freq_dict = dict()
    for word in corpus:
        if word not in word_freq_dict:
            word_freq_dict[word] = 0
        word_freq_dict[word] += 1

    # 将词典中的词，按照出现次数排序，出现次数越高，排序越靠前
    word_freq_dict = sorted(word_freq_dict.items(), key = lambda x:x[1], reverse = True)


    # 构造2个不同的词典
    # 每个词到id的映射关系：word2id_dict
    # 每个id到词的映射关系：id2word_dict
    word2id_dict = {'':0,'':1}
    id2word_dict = {0:'',1:''}

    # 按照频率，从高到低，开始遍历每个单词，并为这个单词构造一个独一无二的id
    i=2
    for word, freq in word_freq_dict:
        if i<vocab_size:
            # curr_id = len(word2id_dict)
            word2id_dict[word] = i
            id2word_dict[i] = word
            i+=1
        else: # 超过指定的词汇量，指向
            word2id_dict[word]=1
    return word2id_dict, id2word_dict

vocab_size = 15000 #设置词汇量，英语和西班牙语可分开设置；但为减少参数，我们在这里设置一个统一词汇量
eng2id_dict,id2eng_dict=build_dict(eng_crpous,vocab_size)
spa2id_dict,id2spa_dict=build_dict(spa_crpous,vocab_size)

print("我们设置的英语总词汇为：",vocab_size,'\t我们设置的英语总词汇为：',vocab_size)
print("总的英语词汇量为：",len(eng2id_dict),"\t\t我们实际使用的英语词汇量为",len(id2eng_dict))
print("总的西班牙语词汇量为：",len(spa2id_dict),"\t我们实际使用的西班牙语词汇量为",len(id2spa_dict))

我们设置的英语总词汇为： 15000 	我们设置的英语总词汇为： 15000
总的英语词汇量为： 12092 		我们实际使用的英语词汇量为 12092
总的西班牙语词汇量为： 22445 	我们实际使用的西班牙语词汇量为 15000

3.7 输入向量化


def build_tensor(data,dicta,maxlen):
    tensor=[]
    for i in range(len(data)):
        subtensor=[]
        lista=data[i].split()
        for j in range(len(lista)):
            index=dicta.get(lista[j])
            # 对于训练解和测试集，可能会出现未在词表中的词汇，此时index会返回None
            if index==None:
                index=1
            subtensor.append(index)
    
        if len(subtensor) < maxlen:
            subtensor+=[0]*(maxlen-len(subtensor))
        else:
            subtensor=subtensor[:maxlen]

        tensor.append(subtensor)
    return np.array(tensor)

sequence_length = 20 # 语句长度我们统一设置为20，可以依据3.5小结的统计信息分开设置

train_eng_tensor=build_tensor(train_eng_texts_pre,eng2id_dict,sequence_length)
val_eng_tensor=build_tensor(val_eng_texts_pre,eng2id_dict,sequence_length)
test_eng_tensor=build_tensor(test_eng_texts_pre,eng2id_dict,sequence_length)

train_spa_tensor=build_tensor(train_spa_texts_pre,spa2id_dict,sequence_length+1)
val_spa_tensor=build_tensor(val_spa_texts_pre,spa2id_dict,sequence_length+1)
test_spa_tensor=build_tensor(test_spa_texts_pre,spa2id_dict,sequence_length+1)

print(val_eng_texts_pre[0])
print(val_eng_tensor[0])

print(val_spa_texts_pre[0])
print(val_spa_tensor[0])

tom is an intelligent person
[   6    8   67 1244  285    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0]
[start] tom es una persona inteligente [end]
[  2   8  12  19 243 676   3   0   0   0   0   0   0   0   0   0   0   0
   0   0   0]

3.8 封装数据集

class MyDataset(Dataset):
    """
    步骤一：继承paddle.io.Dataset类
    """
    def __init__(self, eng,spa):
        """
        步骤二：实现构造函数，定义数据集大小
        """
        super(MyDataset, self).__init__()
        self.eng = eng
        self.spa=spa

    def __getitem__(self, index):
        """
        步骤三：实现__getitem__方法，定义指定index时如何获取数据，并返回单条数据（训练数据，对应的标签）
        """
        return self.eng[index], self.spa[index]

    def __len__(self):
        """
        步骤四：实现__len__方法，返回数据集总数目
        """
        return self.eng.shape[0]

def prepare_input(inputs,padid=0):

    src=np.array([inputsub[0] for inputsub in inputs])
    trg=np.array([inputsub[1] for inputsub in inputs])
    trg_mask =(trg[:,:-1]!=padid).astype(paddle.get_default_dtype())
    return src,trg[:,:-1],trg[:,1:,np.newaxis],trg_mask

# 封装数据集

BATCH_SIZE=64 

train_dataset = MyDataset(train_eng_tensor,train_spa_tensor)
train_loader = paddle.io.DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True,drop_last=True,collate_fn=partial(prepare_input))

val_dataset=MyDataset(val_eng_tensor,val_spa_tensor)
val_loader=paddle.io.DataLoader(val_dataset,batch_size=BATCH_SIZE,shuffle=True,drop_last=True,collate_fn=partial(prepare_input))

for i,data in enumerate(val_loader):
    for d in data:
        print(d.shape)
    break

[64, 20]
[64, 20]
[64, 20, 1]
[64, 20]

4.模型组网

# 为方便调试网络，我们提前定义一些参数
embed_dim=256 # 词嵌入embedding的维度
latent_dim=2048 # feed forward 前馈神经网络的相关参数
num_heads=8 # 多头注意力机制的‘头’数

4.1 Encoder

Encoder部分主要包含了多头注意力机制、层归一化层以及前馈神经网络序列。

MultiHeadAttention ：使用paddle.nn.MultiHeadAttention实现多头注意力机制，需要注意其掩码attn_mask需要的shape是[batch_szie,num_heads,sequence_legth,sequence_legth]
Feed Forward：点式前馈网络由两层全联接层组成，两层之间有一个 ReLU 激活函数。
LayerNorm：归一化层

class TransformerEncoder(paddle.nn.Layer):
    def __init__(self, embed_dim, dense_dim, num_heads):
        super(TransformerEncoder, self).__init__()
        self.embed_dim = embed_dim
        self.dense_dim = dense_dim
        self.num_heads = num_heads
        self.attention = paddle.nn.MultiHeadAttention(num_heads=num_heads, embed_dim=embed_dim, dropout =0.1)

        
        self.dense_proj =paddle.nn.Sequential(
            paddle.nn.Linear(embed_dim, dense_dim), 
            paddle.nn.ReLU(),
            paddle.nn.Linear(dense_dim, embed_dim) )

        self.layernorm_1 = paddle.nn.LayerNorm(embed_dim)
        self.layernorm_2 = paddle.nn.LayerNorm(embed_dim)
        self.supports_masking = True

    def forward(self, inputs, mask=None):
        padding_mask=None
        if mask is not None:
            padding_mask = paddle.cast(mask[:, np.newaxis, np.newaxis, :], dtype="int32")
        #print("inputs.shape",inputs.shape)

        attention_output = self.attention(query=inputs, value=inputs, key=inputs, attn_mask=padding_mask)
        #print("attention_output.shape",attention_output.shape)

        proj_input = self.layernorm_1(inputs + attention_output)
        proj_output = self.dense_proj(proj_input)
        return self.layernorm_2(proj_input + proj_output)

# pencoder=TransformerEncoder(embed_dim, latent_dim, num_heads)
# print(pencoder)
# inputs=paddle.rand([64,20,256])
# print("inputs.shape:",inputs.shape)
# out=pencoder(inputs)
# print("out.shape:",out.shape)

4.2 位置编码

Transformer模型并不包括任何的循环或卷积网络，所以模型添加了位置编码，为模型提供一些关于单词在句子中相对位置的信息。我们用paddle.nn.Embedding实现位置编码，其中num_embeddings=sequence_length。

class PositionalEmbedding(paddle.nn.Layer):
    def __init__(self, sequence_length, vocab_size, embed_dim):
        super(PositionalEmbedding, self).__init__()
        self.token_embeddings = paddle.nn.Embedding(num_embeddings =vocab_size, embedding_dim =embed_dim)
        self.position_embeddings = paddle.nn.Embedding(num_embeddings =sequence_length, embedding_dim =embed_dim)

        self.sequence_length = sequence_length
        self.vocab_size = vocab_size
        self.embed_dim = embed_dim

    def forward(self, inputs):
        length = inputs.shape[-1]
        positions = paddle.arange(start=0, end=length, step=1)
        embedded_tokens = self.token_embeddings(inputs)
        embedded_positions = self.position_embeddings(positions)
        return embedded_tokens + embedded_positions

    def compute_mask(self, inputs, mask=None):
        return paddle.not_equal(inputs, 0)

# ps=PositionalEmbedding(20,15000,256)
# print(ps)
# inputs=paddle.randint(0,15000,[64,20])
# print("inputs.shape:",inputs.shape)
# out=ps(inputs)
# print("out.shape:",out.shape)

4.3 Decoder

编码器含有两个多头注意力组件，一个用于处理西班牙语的输入，另一个用于处理编码器的输出和前一个多头注意力机制的输出。

class TransformerDecoder(paddle.nn.Layer):
    def __init__(self, embed_dim, latent_dim, num_heads):
        super(TransformerDecoder, self).__init__()
        self.embed_dim = embed_dim
        self.latent_dim = latent_dim
        self.num_heads = num_heads
        self.attention_1 = paddle.nn.MultiHeadAttention(num_heads=num_heads, embed_dim=embed_dim)

        self.attention_2 = paddle.nn.MultiHeadAttention(num_heads=num_heads, embed_dim=embed_dim)

        self.dense_proj = paddle.nn.Sequential(
            paddle.nn.Linear(embed_dim, latent_dim), 
            paddle.nn.ReLU(),
            paddle.nn.Linear(latent_dim, embed_dim) )

        self.layernorm_1 = paddle.nn.LayerNorm(embed_dim)
        self.layernorm_2 = paddle.nn.LayerNorm(embed_dim)
        self.layernorm_3 = paddle.nn.LayerNorm(embed_dim)
        self.supports_masking = True

    def forward(self, inputs, encoder_outputs, mask=None):
        causal_mask = self.get_causal_attention_mask(inputs) #[batch_size, equence_length, sequence_length]
        padding_mask=None
        if mask is not None:
            padding_mask = paddle.cast(mask[:, np.newaxis, :], dtype="int32")
            padding_mask = paddle.minimum(padding_mask, causal_mask)

        # attn_mask: [batch_size, n_head, sequence_length, sequence_length]
        attention_output_1 = self.attention_1(query=inputs, value=inputs, key=inputs, attn_mask=causal_mask)
        out_1 = self.layernorm_1(inputs + attention_output_1)

        attention_output_2 = self.attention_2(
            query=out_1,
            value=encoder_outputs,
            key=encoder_outputs,
            attn_mask=padding_mask,
        )

        out_2 = self.layernorm_2(out_1 + attention_output_2)

        proj_output = self.dense_proj(out_2)
        return self.layernorm_3(out_2 + proj_output)

    def get_causal_attention_mask(self, inputs):
        input_shape = inputs.shape
        batch_size, sequence_length = input_shape[0], input_shape[1]
        i = paddle.arange(sequence_length)[:, np.newaxis]
        j = paddle.arange(sequence_length)
        mask = paddle.cast(i >= j, dtype="int32") #[sequence_length, sequence_length]
        mask = paddle.reshape(mask, (1,1, input_shape[1], input_shape[1])) #[1, equence_length, sequence_length]
        mult = paddle.concat(
            [paddle.to_tensor(64,dtype='int32'), paddle.to_tensor([1,1, 1], dtype="int32")],
            axis=0,) #[batch_size,1,1]
        return paddle.tile(mask, mult) #[batch_size, equence_length, sequence_length]

# decoder=TransformerDecoder(embed_dim, latent_dim, num_heads)
# print(decoder)

# inputs=paddle.rand([64,20,256])
# enout=paddle.rand([64,20,256])

# out=decoder(inputs,enout)
# print("out.shape:",out.shape)

4.4 搭建Transformer模型


class Transformer(paddle.nn.Layer):
    def __init__(self, embed_dim, latent_dim, num_heads,sequence_length, vocab_size):
        super(Transformer, self).__init__()

        self.ps1=PositionalEmbedding(sequence_length, vocab_size, embed_dim)
        self.encoder=TransformerEncoder(embed_dim, latent_dim, num_heads)

        self.ps2=PositionalEmbedding(sequence_length, vocab_size, embed_dim)
        self.decoder=TransformerDecoder(embed_dim, latent_dim, num_heads) 

        self.drop=paddle.nn.Dropout(p=0.5)

        self.lastLinear=paddle.nn.Linear(embed_dim,vocab_size)

        self.softmax=paddle.nn.Softmax()

    def forward(self,encoder_inputs,decoder_inputs):

        # 编码器
        encoder_emb=self.ps1(encoder_inputs)
        encoder_outputs=self.encoder(encoder_emb)

        # 解码器
        deocder_emb=self.ps2(decoder_inputs)
        decoder_outputs=self.decoder(deocder_emb,encoder_outputs)

        # dropout
        out=self.drop(decoder_outputs)

        #最后输出
        out=self.lastLinear(out)
        #out=self.softmax(self.lastLinear(out))

        return out

trans=Transformer(embed_dim, latent_dim, num_heads,sequence_length, vocab_size)
encoder_inputs=paddle.randint(0,15000,[64,20])
decoder_inputs=paddle.randint(0,15000,[64,20])
out=trans(encoder_inputs,decoder_inputs)
print("out.shape:",out.shape)

paddle.summary(trans,input_size=[(64,20),(64,20)],dtypes='int32')

W1031 20:31:59.264416 14770 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 11.2
W1031 20:31:59.268676 14770 gpu_resources.cc:91] device: 0, cuDNN Version: 8.2.


out.shape: [64, 20, 15000]
-------------------------------------------------------------------------------------------
    Layer (type)               Input Shape               Output Shape         Param #    
===========================================================================================
     Embedding-1                [[64, 20]]              [64, 20, 256]        3,840,000   
     Embedding-2                  [[20]]                  [20, 256]            5,120     
PositionalEmbedding-1           [[64, 20]]              [64, 20, 256]            0       
      Linear-1               [[64, 20, 256]]            [64, 20, 256]         65,792     
      Linear-2               [[64, 20, 256]]            [64, 20, 256]         65,792     
      Linear-3               [[64, 20, 256]]            [64, 20, 256]         65,792     
      Linear-4               [[64, 20, 256]]            [64, 20, 256]         65,792     
MultiHeadAttention-1                []                  [64, 20, 256]            0       
     LayerNorm-1             [[64, 20, 256]]            [64, 20, 256]           512      
      Linear-5               [[64, 20, 256]]            [64, 20, 2048]        526,336    
       ReLU-1                [[64, 20, 2048]]           [64, 20, 2048]           0       
      Linear-6               [[64, 20, 2048]]           [64, 20, 256]         524,544    
     LayerNorm-2             [[64, 20, 256]]            [64, 20, 256]           512      
TransformerEncoder-1         [[64, 20, 256]]            [64, 20, 256]            0       
     Embedding-3                [[64, 20]]              [64, 20, 256]        3,840,000   
     Embedding-4                  [[20]]                  [20, 256]            5,120     
PositionalEmbedding-2           [[64, 20]]              [64, 20, 256]            0       
      Linear-7               [[64, 20, 256]]            [64, 20, 256]         65,792     
      Linear-8               [[64, 20, 256]]            [64, 20, 256]         65,792     
      Linear-9               [[64, 20, 256]]            [64, 20, 256]         65,792     
      Linear-10              [[64, 20, 256]]            [64, 20, 256]         65,792     
MultiHeadAttention-2                []                  [64, 20, 256]            0       
     LayerNorm-3             [[64, 20, 256]]            [64, 20, 256]           512      
      Linear-11              [[64, 20, 256]]            [64, 20, 256]         65,792     
      Linear-12              [[64, 20, 256]]            [64, 20, 256]         65,792     
      Linear-13              [[64, 20, 256]]            [64, 20, 256]         65,792     
      Linear-14              [[64, 20, 256]]            [64, 20, 256]         65,792     
MultiHeadAttention-3                []                  [64, 20, 256]            0       
     LayerNorm-4             [[64, 20, 256]]            [64, 20, 256]           512      
      Linear-15              [[64, 20, 256]]            [64, 20, 2048]        526,336    
       ReLU-2                [[64, 20, 2048]]           [64, 20, 2048]           0       
      Linear-16              [[64, 20, 2048]]           [64, 20, 256]         524,544    
     LayerNorm-5             [[64, 20, 256]]            [64, 20, 256]           512      
TransformerDecoder-1  [[64, 20, 256], [64, 20, 256]]    [64, 20, 256]            0       
      Dropout-1              [[64, 20, 256]]            [64, 20, 256]            0       
      Linear-17              [[64, 20, 256]]           [64, 20, 15000]       3,855,000   
===========================================================================================
Total params: 14,439,064
Trainable params: 14,439,064
Non-trainable params: 0
-------------------------------------------------------------------------------------------
Input size (MB): 0.01
Forward/backward pass size (MB): 299.06
Params size (MB): 55.08
Estimated Total Size (MB): 354.15
-------------------------------------------------------------------------------------------






{'total_params': 14439064, 'trainable_params': 14439064}

5.模型训练与评估

5.1 自定义loss函数

class CrossEntropy(paddle.nn.Layer):
    def __init__(self):
        super(CrossEntropy,self).__init__()

    def forward(self,pre,real,trg_mask):

        # 返回的数据类型与pre一致，除了axis维度(未指定则为-1)，其他维度也与pre一致
        # logits=pre,[batch_size,sequence_len,word_size],猜测会进行argmax操作，[batch_size,sequence_len,1]
        # 默认的soft_label为False，lable=real,[bacth_size,sequence_len,1]
        cost=paddle.nn.functional.softmax_with_cross_entropy(logits=pre,label=real)
        
        # 删除axis=2 shape上为1的维度
        # 返回结果的形状应为 [batch_size,sequence_len]
        cost=paddle.squeeze(cost,axis=[2])

        # trg_mask 的形状[batch_size,suqence_len]
        # * 这个星号应该是对应位置相乘，返回结果的形状 [bathc_szie,sequence_len]
        masked_cost=cost*trg_mask

        # paddle.mean 对应轴的对应位置求平均， 在这里返回结果为 [sequence_len]
        # paddle.sum 求解方法与paddle.mean一致，最终返回的结果应为[1]
        return paddle.sum(paddle.mean(masked_cost,axis=[0]))

5.2 训练与验证

epochs = 10   
trans=Transformer(embed_dim, latent_dim, num_heads,sequence_length, vocab_size)
model=paddle.Model(trans)


model.prepare(optimizer=paddle.optimizer.Adam(learning_rate=0.001,parameters=model.parameters()),
                loss=CrossEntropy(), 
                metrics=paddle.metric.Accuracy())

model.fit(train_data=train_loader, 
            epochs=epochs,
             eval_data= val_loader,
             verbose =2,
             log_freq =100,
             callbacks=[paddle.callbacks.VisualDL('./log')])

10个epoch下验证集的loss与Accuracy曲线图：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7tfHNAEV-1668437026861)(https://ai-studio-static-online.cdn.bcebos.com/2d3e2fb0fb0c46c7999da12ca96af25e55d5ddad045b4f85b3419dad0774af87)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7tYCi8DG-1668437026862)(https://ai-studio-static-online.cdn.bcebos.com/4b9492bedc8b47a58af3474236f2c70d96e6a7e219774e53aeae719759efa559)]

6. 结果预测

def evalute(eng):
    
    encoder_input=paddle.unsqueeze(eng,axis=0)
    decoded_sentence = "[start]"
        
    for i in range(sequence_length):
        decoder_input=paddle.to_tensor(build_tensor([decoded_sentence],spa2id_dict,sequence_length))
        pre=trans(encoder_input,decoder_input)
        sampled_token_index = np.argmax(pre[0, i, :])
        sampled_token = id2spa_dict.get(sampled_token_index)
        decoded_sentence += " " + sampled_token

        if sampled_token == "[end]":
            break

    return decoded_sentence

def translate():
    with open('result.txt','w+') as re:
        #for i in tqdm(range(len(test_eng_tensor))):
        for i in range(5):    
            result=evalute(paddle.to_tensor(test_eng_tensor[i]))
            re.write(result+'\n')
            #print(result)
translate()

with open('result.txt','r') as re:
    pre=re.readlines()

for i in range(5):
    print('英语: ',test_eng_texts[i])
    print('真实的西班牙语：',test_spa_texts_pre[i])
    print('预测的西班牙语：',pre[i])

英语:  It's been more than a month.
真实的西班牙语： [start] ha pasado más de un mes [end]
预测的西班牙语： [start] ha sido más de un mes [end]

英语:  My parents picked me up from school.
真实的西班牙语： [start] mis padres me recogieron de la escuela [end]
预测的西班牙语： [start] mis padres me  del colegio [end]

英语:  If I don't fail, I will get my driving license before New Year.
真实的西班牙语： [start] si no suspendo conseguiré mi carné de conducir antes de año nuevo [end]
预测的西班牙语： [start] si no   mi licencia de conducir hasta mi nuevo año [end]

英语:  Tom said he's Canadian.
真实的西班牙语： [start] tom dijo que es canadiense [end]
预测的西班牙语： [start] tom dijo que es canadiense [end]

英语:  They had fun with us.
真实的西班牙语： [start] ellas se entretuvieron con nosotras [end]
预测的西班牙语： [start] ellos se  con nosotros [end]

been more than a month.
真实的西班牙语： [start] ha pasado más de un mes [end]
预测的西班牙语： [start] ha sido más de un mes [end]

英语:  My parents picked me up from school.
真实的西班牙语： [start] mis padres me recogieron de la escuela [end]
预测的西班牙语： [start] mis padres me  del colegio [end]

英语:  If I don't fail, I will get my driving license before New Year.
真实的西班牙语： [start] si no suspendo conseguiré mi carné de conducir antes de año nuevo [end]
预测的西班牙语： [start] si no   mi licencia de conducir hasta mi nuevo año [end]

英语:  Tom said he's Canadian.
真实的西班牙语： [start] tom dijo que es canadiense [end]
预测的西班牙语： [start] tom dijo que es canadiense [end]

英语:  They had fun with us.
真实的西班牙语： [start] ellas se entretuvieron con nosotras [end]
预测的西班牙语： [start] ellos se  con nosotros [end]

你可能感兴趣的:(深度学习,transformer,深度学习,自然语言处理)

CCF CSP 第30次（2023.05）（2_矩阵运算_C++）（暴力破解）(矩阵相乘) Dream it possible！ CCF CSP认证矩阵 c++算法
CCFCSP第30次（2023.05）（2_矩阵运算_C++）题目背景：题目描述：输入格式：输出格式：样例输入样例输出：样例解释：子任务：提示：解题思路：思路一（暴力破解）：代码实现代码实现：部分代码解读时间限制：5.0s空间限制：512.0MB题目背景：Softmax(Q×KT/√d)×V是Transformer中注意力模块的核心算式，其中Q、K和V均是n行d列的矩阵，KT表示矩阵K的转置，×表
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
自然语言处理（NLP）技术介绍风吹晚风悠 gpt 人工智能 nlp 自然语言处理
自然语言处理（NLP）是一种涉及计算机和人类语言之间交流的技术。NLP技术可以应用于多个领域，例如机器翻译、情感分析、文本分类、问答系统等。以下是一些NLP技术的示例：机器翻译：NLP技术可用于将一个语言的文本自动翻译成另一个语言。例如，GoogleTranslate和百度翻译等在线翻译工具就使用了NLP技术。情感分析：NLP技术可用于分析文本中的情感和情感倾向。这可以帮助企业了解公众对其产品或服
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
基于Transformer的医学文本分类：从BERT到BioBERT Evaporator Core 人工智能 #深度学习 #DeepSeek快速入门 transformer 分类 bert
随着自然语言处理（NLP）技术的快速发展，Transformer模型在文本分类、情感分析、机器翻译等任务中取得了显著成果。在医学领域，文本数据（如电子病历、医学文献、临床报告）具有高度的专业性和复杂性，传统的NLP方法往往难以处理。Transformer模型，尤其是BERT及其变体，通过预训练和微调的方式，能够有效捕捉医学文本中的语义信息，为医学文本分类提供了强大的工具。本文将探讨Transfor
TF-IDF：文本挖掘中的关键词提取利器巷955 tf-idf
引言在自然语言处理（NLP）和文本挖掘中，TF-IDF是一种常用的技术，用于评估一个词在文档中的重要性。它不仅在信息检索领域广泛应用，还在文本分类、关键词提取等任务中发挥着重要作用。本文将详细介绍TF-IDF的原理，并通过一个实际的代码示例来展示如何使用TF-IDF从《红楼梦》中提取核心关键词。1.什么是TF-IDF？TF-IDF是一种统计方法，用于评估一个词在文档中的重要性。它由两部分组成：-T
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
从零到一：Transformer模型的原理与实战之旅樽酒ﻬق AI transformer 深度学习人工智能
目录从零到一：Transformer模型的原理与实战之旅1.Transformer原理简介1.1什么是Transformer？1.2自注意力机制的核心1.3Transformer的结构2.实战：构建Transformer模型2.1任务目标2.2环境准备2.3数据准备2.4模型构建2.5模型训练3.推理实战：完整示例与输出结果3.1完整推理代码3.2代码解析4.原理与代码的结合4.1自注意力机制的实
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、 *Major* 机器视觉
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、这么里面的AI原理没什么，还是这些公司把AI技术层面用出花了，一是他们有公司可能比较成立时间长，数据丰富。二是像AI深度学习网络冻结，或者自适应调参，都是一些AI技巧，他们用的比较好。三什么跨层特征解耦，实现的基础是他们对半导体理解比较深刻KLA和Ca
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
再添殊荣！移远通信工业智能品牌宝维塔™斩获AI创新应用奖移远通信算力人工智能工业智能
12月24日，2024中国物联网产业大会暨第21届慧聪品牌盛会在深圳圆满落幕。会上，移远通信凭借其工业智能品牌宝维塔™在推动AI技术落地与应用创新方面的卓越贡献，获颁“AI创新应用奖”。作为科技发展的前沿力量，AI技术正深刻改变着各行各业的生产模式和效率，尤其在工业领域，展现出了巨大潜力。宝维塔™是移远通信精心打造的工业智能品牌，专注于将人工智能、边缘计算、机器视觉、深度学习、软件算法平台等前沿技
AI大模型推理加速：技术与实践详解 AI大模型学习者人工智能
近年来，AI大模型在自然语言处理、计算机视觉等领域取得了突破性进展。然而，大模型的推理速度却成为其落地应用的瓶颈。本文将详细探讨AI大模型推理加速的技术手段和实践经验，并结合具体案例进行分析。一、挑战与机遇1.1挑战庞大的参数量:大模型通常拥有数十亿甚至数千亿个参数，例如GPT-3拥有1750亿个参数。如此庞大的参数量导致模型文件体积巨大，加载和推理都需要消耗大量的内存和计算资源。复杂的计算图:大
验证码识别：使用OCR技术识别图形验证码详解数据知道 2025年爬虫和逆向教程 ocr python 爬虫 OCR识别验证码识别图片验证码
文章目录一、基本原理二、所需工具2.1Python环境2.2图像处理库2.3OCR引擎2.4Python接口三、实现步骤3.1获取验证码图像3.2图像预处理3.3使用OCR进行字符识别3.4基本OCR识别样例四、提高识别准确率的方法4.1字符分割4.2使用深度学习模型4.3数据增强4.4集成多个OCR引擎五、实际应用中的注意事项六、总结验证码（CAPTCHA）是一种用于区分人类用户和自动化程序的安
从LayerNorm到RMSNorm：深度学习归一化技术的进化！qwen2.5的技术。 KangkangLoveNLP qwen2.5 深度学习人工智能 transformer pytorch 自然语言处理 python 神经网络
RMSNorm（RootMeanSquareNormalization，均方根归一化）是一种用于深度学习的归一化技术，是LayerNorm（层归一化）的一种改进。它通过计算输入数据的均方根（RootMeanSquare,RMS）来进行归一化，避免了传统归一化方法中均值和方差的计算1.LayerNorm（层归一化）LayerNorm（层归一化）是一种用于深度学习的归一化技术，主要用于稳定训练过程、加
普通人如何利用GPT赚钱之开发虚拟助手贫苦游商普通人利用AI搞钱系列 gpt 人工智能深度学习机器人 AIGC
普通人如何利用GPT赚钱之开发虚拟助手随着人工智能技术的迅猛发展，GPT（GenerativePre-trainedTransformer）作为一种强大的语言模型，正在改变我们的生活和工作方式。普通人如何利用GPT赚钱？开发虚拟助手是一个极具潜力的方向。本文将探讨如何开发虚拟助手，以及如何通过这一技术实现经济收益。什么是虚拟助手虚拟助手是一种基于人工智能的技术，能够理解自然语言并执行特定任务。它们
【漫话机器学习系列】137.随机搜索（Randomized Search） IT古董漫话机器学习系列专辑机器学习人工智能
随机搜索（RandomizedSearch）详解在机器学习和深度学习的模型训练过程中，超参数调优（HyperparameterTuning）是至关重要的一环。随机搜索（RandomizedSearch）是一种高效的超参数优化方法，它通过在候选超参数的数值分布（如正态分布、均匀分布等）中随机选择超参数组合，从而找到最优的超参数配置。1.超参数调优的必要性超参数是模型在训练之前需要人为设定的参数，例如
大模型（DeepSeek等）是否会动摇AI工程师的工作？点我头像干啥 Ai 深度学习人工智能 AI编程计算机视觉
引言近年来，人工智能（AI）领域取得了突飞猛进的发展，尤其是大模型（如GPT-3、BERT、DeepSeek等）的出现，极大地推动了自然语言处理（NLP）、计算机视觉（CV）等领域的进步。大模型凭借其强大的泛化能力和广泛的应用场景，逐渐成为AI领域的核心技术之一。然而，随着大模型的普及，一个备受关注的问题浮出水面：大模型是否会动摇AI工程师的工作？本文将从多个角度探讨这一问题，分析大模型对AI工程
医学人工智能影像诊断数据收集与整理 V搜xhliang0246 人工智能健康医疗算法
在医学领域中，人工智能（AI）尤其是深度学习技术，已经被广泛应用于医学影像的分析和诊断。为了训练这些模型，需要大量的高质量标注数据。下面我会给出一个简单的示例流程，介绍如何收集、整理和准备医学影像数据集，并提供一些基础的Python代码示例。数据收集首先，你需要收集包含医学影像的数据集。这些数据通常来自医院或研究机构，并且需要经过伦理审查和患者同意。示例数据集假设我们有一个包含肺部X光片的数据集，
【大模型学习】第十五章 Transformer技术看这一篇就足够了好多渔鱼好多 AI大模型 transformer 深度学习 AI 人工智能大模型
目录一、引言二、Transformer起源背景1.从"健忘症"到"过目不忘"的进化之路三、一个简单的例子让你理解什么是Transformer四、技术要点与底层原理1.自注意力机制（Self-Attention）1.1什么是自注意力？1.1.1如何计算查询（Query）、键（Key）和值（Value）：1.1.2缩放点积注意力（ScaledDot-ProductAttention）1.1.3两个生活
深度学习模块缝合教程：从理论到实践 RockLiu@805 深度学习模块机器视觉深度学习人工智能
深度学习模块缝合教程：从理论到实践引言随着深度学习的不断发展，模型的设计与优化成为研究者关注的核心问题之一。如何有效地“缝合”不同模块，以实现更高效的计算和更强大的功能，是当前深度学习研究中的一个重要课题。在本文中，我们将从基础概念出发，详细探讨深度学习模块缝合的方法、技巧及其应用场景。无论是理论深厚的研究者还是实验导向的实践者，都可以从中获得启发。一、深度学习基础知识详解深度学习是人工智能领域的
大模型开发教程：从零开始的入门指南！程序员二飞人工智能 java 数据库职场和发展深度学习
概述大模型开发教程引领人工智能领域前沿，从基础概念至实战项目，全面覆盖Python与深度学习框架使用，指导初学者构建线性回归、逻辑回归、神经网络等模型，深入探索图像分类、情感分析等复杂应用，为探索未来智能世界提供坚实基石。前排提示，文末有大模型AGI-CSDN独家资料包哦！二、基础知识2.1人工智能与深度学习的概念人工智能(AI)是计算机科学的一个分支，旨在使计算机能够执行通常需要人类智能的任务。
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多