vector<>

【一起入门NLP】中科院自然语言处理作业四：RNN+Attention实现Seq2Seq中英文机器翻译（Pytorch）【代码+报告】

这里是国科大自然语言处理的第四次作业，同样也是从小白的视角解读程序和代码，现在我们开始吧_{（今天也是花里胡哨的一天呢}）

目录

1.程序与实验说明

实验要求

程序说明

2.知识概述

2.1 序列生成问题Seq2Seq

2.2 RNN+Attention 架构生成模型

2.3 机器翻译

2.4 GRU

2.5 注意力机制

3.数据

数据来源

数据处理

4. 模型

Encoder

Attention

Decoder

Seq2Seq

5.训练

6.测试

测试效果

为什么效果差

demo展示

7.疑问与思考

序列生成模型评价指标

BLEU-精度

ROUGE-召回率

Pytorch中的pack和pad操作

信息融合

❤️mask机制

Padding Mask

Sequence Mask

beam search

1.程序与实验说明

实验要求

任选一个深度学习框架建立一个机器翻译模型，实现在IWSLT14 En-Zh数据集上进行的机器翻译
序列生成任务需要大量的计算资源，公平起见，本作业会按照提交的代码判定成绩而不是模型的训练效果

事实证明老师的考虑是很周到的，我虽然完成了实验内容，但是模型的准确率实在是上不了台面☹️，这一点也会在后面进行说明

程序说明

代码：https://download.csdn.net/download/qq_39328436/69026304
程序目录：

corpus中是IWSLT14 En-Zh数据集的原始语料以及经过预处理后的文件
data中存储的是最终参与训练和测试的数据
runs文件夹保存每次训练记录
model.py中描述模型代码，比如encoder,decoder等
translate-best.th：do_train为训练模块，do_test为测试模块，do_translate是一个小demo,输入英文句子会打印出损失最低的5个翻译结果。
translate.py中
translation_model.log记录训练过程中的损失

2.知识概述

2.1 序列生成问题Seq2Seq

深度学习中建模序列生成问题方法：构建一个联合的神经网络，以端到端的方式将一个序列化数据映射成另一个序列化数据。简称 Sequence-to-Sequence Generation （Seq2Seq）模型。主流的Seq2Seq模型通常基于Encoder-Decoder框架实现。
Seq2Seq模型：
- Encoder：将输入序列进行编码形成后继处理需要的输入表示形式
- 生成式模型Decoder：根据编码端形成的输入表示和先前时刻产生成的输出tokens，生成当前输出token （编码端和解码端有各自词表，二者可相同或不同 。解码端需处理集外词OOV，一般用UNK 代替）
- 选择式模型Decoder：根据编码端形成的输入表示和先前时刻产生成的输出tokens，从输入端选择一个token作为输出 token （解码端和编码端词表相同）
- 选择-生成式模型Decoder：根据编码端形成的输入表示和先前时刻产生成的输出tokens，生成或从输入端选择当前输出token （编码端和解码端有各自词表，二者可相同或不同 。解码端需处理集外词OOV，一般用UNK 代替，该方法可有效的处理输出端的OOV 问题）

Encoder和Decoder具体使用什么模型都是由研究者自己确定。比如：CNN/RNN/BiRNN/GRU/LSTM/transformer等。很明显本次实验机器翻译任务是生成式decoder。

2.2 RNN+Attention 架构生成模型

纯RNN的生成模型会有什么问题？

输入序列（x1,x2,x3）经过模型得到生成序列（y1,y2,y3），当模型翻译任意一个yi时，所用到的中间语义C都是同一个。而事实上，当我们翻译“杰瑞”时，英文单词“Jerry”应该比其他单词有更重要的影响，比如（Tom,0.3）(Chase,0.2)（Jerry,0.5）。

在RNN模型基础上加入Attention机制就能解决上面提到的这个问题了。

2.3 机器翻译

任务描述：
机器翻译是利用计算机把一种语言(源语言, source language) 翻译成另一种语言(目标语言, target language)的技术。神经机器翻译是序列生成问题，主流神经机器翻译模型有基于RNN的，基于CNN的和基于自注意力机制的。

神经机器翻译系统需要考虑的问题：

词汇表受限问题：考虑到计算的复杂度问题，在神经机器翻译模型中会使用一个受限词表，这样会导致很多单词成了词表外的OOV词。而这种OOV词在翻译时很难处理并且打破了句子结构，增加了语句的歧义性，因此，如何处理罕见词成为NMT领域非常必要的研究问题。
翻译覆盖率问题：在**“seq2seq+attention”**框架下机器翻译过程中，翻译当前词汇的“注意力”与翻译在此之前的词汇的“注意力”是独立的，当前的操作不能从之前的翻译中获取alignment相关的信息，这样就导致了“过翻译” （Over-Translation：源端某些词被重复翻译若干次）和“欠翻译” （Under-Translation：源端某些词未被翻译）的问题，coverage机制通过在解码的过程中，保持对attention信号持续关注（利用），可以缓解过翻译和欠翻译问题。
系统鲁棒性问题：神经网络能够对全局上下文进行建模，但对于局部变化过于敏感如，提升系统的容错性，一致性（鲁棒性）对用户体验十分重要。可采用对抗学习等训练方法提升系统的鲁棒性。

2.4 GRU

GRU（Gate Recurrent Unit）是循环神经网络（Recurrent Neural Network, RNN）的一种。和LSTM（Long-Short Term Memory）一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。

GRU与LSTM的区别如下：

2.5 注意力机制

注意力机制是神经网络中的一个加权求和的组件。输入是Q，K，输出是Att-V。Attention要回答的问题是：对于Q来说K有多重要？，重要性由输出V描述。Attention机制主要分为三个步骤，对应下图中的三个阶段。

计算F(Q,Ki)：F为注意力打分函数，本质上该打分函数描述Q和K之间的关系，它可以是一个小型的神经网络。常见的打分函数有点积模型，缩放点积模型，双线性模型等
softmax（f(Q,Ki)）：经过softmax之后会形成一个概率分布，也就是得到了权重
加权求和：Att-V = 1ⅹK1+2ⅹK2+3ⅹK3+4ⅹK4+5ⅹK5

3.数据

数据来源

数据来源于小规模数据集：IWSLT14 En-Zh，包含了143920个训练样本，19989个验证样例和15992个测试样例。其中，训练集数据在train_zh.txt/train_en.txt中，验证数据在valid_zh.txt/valid_en.txt中，测试集数据在test_zh.txt/test_en.txt中。X_zh.txt与X_en.txt中的数据每一行是对齐的.

数据处理

在数据处理这一部分，需要将中英文语料按行合并到一起，每一行前部分是英文，通过一个制表符连接英文句子对应的中文。

按行合并两个txt文件本不是一件难事，但是简单的合并会导致出现大量下图中的数据：

这是因为这个数据集IWSLT14 En-Zh是一个人的现场演讲，其中会出现“（众人鼓掌）” 这样的话外音，为保证这些话外音不会影响数据导入需要将他们删除。

with open('train_en.txt', 'r') as fa:  # 读取需要拼接的前面那个TXT
    with open('train_zh.txt', 'r') as fb:  # 读取需要拼接的后面那个TXT
        with open('train.txt', 'w') as fc:  # 写入新的TXT
            for line in fa:
                fc.write(line.strip('\r\n'))  # 用于移除字符串头尾指定的字符
                fc.write('\t')
                temp=fb.readline().replace('（鼓掌）', '')
                temp=temp.replace('（鼓掌声）', '')
                temp=temp.replace('（众人鼓掌）', '')
                temp=temp.replace('（热烈鼓掌）', '')
                temp=temp.replace('（观众鼓掌）', '')
                temp = temp.replace('（观众掌声）', '')
                fc.write(temp)

考虑到只能用笔记本cpu来跑代码，最后选取了其中15000条数据来训练。测试数据和验证数据都分别是2000条。

4. 模型

整个模型由Encoder、Attention及Decoder组成，外层用Seq2Seq统一包装。模型结构如下图所示：

编码器采用双向RNN，解码器采用单向RNN，Attention采用双线性Att。

Encoder

Encoder采用BiGRU结构

nn.embedding :将输入的句子映射为词向量。
nn.GRU: bidirectional =true表示设置为双向GRU,输入输出需要pack、pad。
nn.Dropout：讲输入张量部分元素设置为0，防止模型过拟合
nn.Linear：线性Linear层，将GRU最后一个hidden state变换为decoder的初始hidden state输入
nn.pad_packed_sequenceh，nn.pack_padded_sequence：实现对文本的填充和相互转化。在RNN网络中，文本的pad操作用于各文本长度的对齐；而pack操作用于实现文本序列数据的压缩。

class Encoder(nn.Module):
    def __init__(self,vocab_size,embed_size,enc_hidden_size,dec_hidden_size,dropout=0.2):
        super(Encoder,self).__init__()
        self.embed = nn.Embedding(vocab_size,embed_size)
        self.rnn = nn.GRU(embed_size,enc_hidden_size,batch_first=True,bidirectional=True)
        self.dropout = nn.Dropout(dropout)
        self.fc = nn.Linear(enc_hidden_size*2, dec_hidden_size)

    def forward(self,x,lengths):
        embedded = self.dropout(self.embed(x))     
        packed_embedded = nn.utils.rnn.pack_padded_sequence(embedded,lengths,batch_first=True) 
        packed_out, hid = self.rnn(packed_embedded)           
        out,_ = nn.utils.rnn.pad_packed_sequence(packed_out,batch_first=True,total_length=max(lengths))        
        hid = torch.cat([hid[-2],hid[-1]],dim=1)# 将hid双向叠加 【batch, 2*enc_hidden_size】
        hid = torch.tanh(self.fc(hid)).unsqueeze(0)        # 转为decoder输入hidden state 【1,batch,dec_hidden_size】

        return out,hid

Attention

步骤一：计算F(Q,Ki)
- 打分函数由nn.Linear双线性模型实现（双线性Attention）
步骤二：softmax
- F.softmax(atten,dim=2) 得到概率
步骤三：加权求和
- torch.bmm(atten,context)
masked_fill(mask,-1e6)：atten做mask，对于source中pad的部分以及target的pad部分用很小的负数代替，以消除后面对softmax的概率影响
torch.cat((context,output),dim=2)：注意力输出和source state做信息融合concate
context：encoder的gru hidden state
output：decoder的gru hidden state
mask：在decoder中创建

class Attention(nn.Module):
    """  """
    def __init__(self,enc_hidden_size,dec_hidden_size):
        super(Attention,self).__init__()
        self.enc_hidden_size = enc_hidden_size
        self.dec_hidden_size = dec_hidden_size
        self.liner_in = nn.Linear(2*enc_hidden_size,dec_hidden_size)
        self.liner_out = nn.Linear(2*enc_hidden_size+dec_hidden_size,dec_hidden_size)

    def forward(self,output,context,mask):
        batch_size = context.shape[0]
        enc_seq = context.shape[1]
        dec_seq = output.shape[1]

        # score计算公式使用双线性模型 h*w*s
        context_in = self.liner_in(context.reshape(batch_size*enc_seq,-1).contiguous())
        context_in = context_in.view(batch_size,enc_seq,-1).contiguous()
        atten = torch.bmm(output,context_in.transpose(1,2))
        atten.data.masked_fill(mask,-1e6)  # mask置零
        atten = F.softmax(atten,dim=2)       
        context = torch.bmm(atten,context)  # 将atten与source的hidden state输出做加权求和
        output = torch.cat((context,output),dim=2) # 将attention + output 堆叠获取融合信息
        output = torch.tanh(self.liner_out(output.view(batch_size*dec_seq,-1))).view(batch_size,dec_seq,-1) #Linear转换为target的hidden维度，再经tanh激活

        return output,atten

Decoder

decoder的结构为单向GRU。

nn.Embedding：Embedding层，将target输入查找词向量
nn.GRU：单向GRU层，输入输出需要pack、pad，为了保证和source句子对对齐，我们没法保证按句子长度排序，pack_padded_sequence时需要将enforce_sorted置为False。
self.atten：进行Attention操作
self.create_mask：在Attention之前需要创建mask，具体而言是创建Padding Mask。
log_softmax：将输出转为vocab_size的softmax概率分布并取对数

 def __init__(self,vocab_size,embedded_size,enc_hidden_size,dec_hidden_size,dropout=0.2):
        super(Decoder,self).__init__()
        self.embed = nn.Embedding(vocab_size,embedded_size)
        self.atten = Attention(enc_hidden_size,dec_hidden_size)
        self.rnn = nn.GRU(embedded_size,dec_hidden_size,batch_first=True)
        self.out = nn.Linear(dec_hidden_size,vocab_size)
        self.dropout = nn.Dropout(dropout)
  def create_mask(self,x_len,y_len):
        # 最长句子的长度
        max_x_len = x_len.max()
        max_y_len = y_len.max()
        # 句子batch
        batch_size = len(x_len)
        # 将超出自身序列长度的元素设为False
        x_mask = (torch.arange(max_x_len.item())[None, :] < x_len[:, None]).float() 
        y_mask = (torch.arange(max_y_len.item())[None, :] < y_len[:, None]).float()  
        # 需要mask的地方设置为true
        mask = (1 - y_mask[:, :, None] * x_mask[:, None, :]) != 0
        return mask

    def forward(self,ctx,ctx_lengths,y,y_lengths,hid):
        y_embed = self.dropout(self.embed(y))
        y_packed = nn.utils.rnn.pack_padded_sequence(y_embed,y_lengths,batch_first=True,enforce_sorted=False)
        pack_output, hid = self.rnn(y_packed,hid)
        output_seq,_ = nn.utils.rnn.pad_packed_sequence(pack_output,batch_first=True,total_length=max(y_lengths))

        mask = self.create_mask(ctx_lengths,y_lengths)
        # annention处理
        output,atten = self.atten(output_seq,ctx,mask)
        output = F.log_softmax(self.out(output),dim=-1)

        return output,atten,hid

Seq2Seq

将模型整合后，整个完整的模型计算图：

src输入Embedding层src_embed
src_embed经过双向GRU层，得到src_hidden，src_last_h
src_last_h经过线性层、tanh激活得到decoder的初始hidden输入tgt_init_h
tgt输入Embedding层tgt_embed
tgt_embed及tgt_init_h经过单向GRU层，得到tgt_hidden
根据src及tgt句子batch中的长度，创建mask
src_hidden和tgt_hidden做双线性attention得到输出a_tt
a_tt做mask后softmax归一化为概率分布
src_hidden与a_tt加权求和输出att_value
att_value与tgt_hidden信息融合concate后输入线性层、tanh激活输出为tgt_output
tgt_output输入线性层、softmax后取对数，得到最终的target vocab size上的对数概率分布。模型的解码过程使用beam search，最大解码长度默认取100，主要是我们的语料数据较少且语句较短。

5.训练

在最开始尝试以10epoch训练15万条数据，一个epoch跑完已经耗时10个小时，无奈最后将数据量减少到1.5万，epoch减少到5，耗时8个小时完成了训练。

即使如此，看上图中的loss也能知道，训练效果很糟糕。

相关参数：

batch_size=16
learnning_rate=5e-4
dropout=0.2
epoch=5
optimizer:AdamW

6.测试

测试效果

2000条测试数据最后计算出来的bleu值为2.71，可以说是非常低了（对bleu值的说明见最后一小节）

为什么效果差

我认为训练效果差与数据处理有很大的关系，IWSLT14 En-Zh这个数据集有太多的口语内容，比如说：

Ugh. Mini-Me.	呃。我太小了--

同时也有太多的话外音，比如说：

1.76 times 0.2 over here is 352 meters per second.	（众笑+鼓掌） 1.76乘以0.2得到的是每秒352米。

关于话外音的问题在数据预处理阶段已经尽可能删除了，但是仍然存在一部分嵌入在句子内部的话外音无法删除干净。此外，语料中各个句子的长短很不一致，长的句子将近有100个单词，短的句子就一两个单词，这也会影响训练效果。当然最重要的原因是计算资源不够，有服务器的同学会相对好一点，直接用cpu跑的话根本跑不完所有的语料。在这里我贴一个用其他语料训练完成的模型，准确率会比我训的这个高很多：【审核中…】

demo展示

运行do_translate模块，允许输入任意一个句子，控制台会打印出最优的五个翻译结果：

上图贴出来的都是正确翻译的结果，对于bleu值只有2.71的模型，不出所料绝大部分都是翻译都是错误的

7.疑问与思考

序列生成模型评价指标

BLEU-精度

bilingual evaluation understudy ：衡量模型生成序列与参考序列之间的N元词组的重合度，最早用来评价机器翻译模的质量，目前也广泛应用在各种序列生成任务中。
实现方法：统计同时出现在生成序列和参考序列中的 n 元词的个数，最后把匹配到的n 元词的数目除以生成序列单词数目，得到评测结果（元组集合的精度）
Bleu值只计算精度，不关心召回率（即参考序列中的n元组合是否在生成序列中出现）

ROUGE-召回率

recall-oriented understudy for gisting evaluation ：最早应用于文本摘要领域，和bleu值相似，但是rouge计算的是召回率

Pytorch中的pack和pad操作

参考：https://blog.csdn.net/guofei_fly/article/details/104053532
在RNN网络中，文本的pad操作用于各文本长度的对齐；而pack操作用于实现文本序列数据的压缩。

信息融合

参考：https://blog.csdn.net/weixin_38646522/article/details/116764227
特征融合目前有两种常用的方式，一种是add操作，一种是Concat操作。
区别：

对于Concat操作而言，通道数的合并，也就是说描述图像本身的特征增加了，而每一特征下的信息是没有增加。
对于add层更像是信息之间的叠加。add前后的tensor语义是相似的。

需要将A与B的Tensor进行融合：

如果它们语义不同，则我们可以使用Concat的形式。
如果A 与B是相同语义，如A与B是不同分辨率的特征，其语义是相同的，我们可以使用add来进行融合

❤️mask机制

Padding Mask

在训练中每个样本的原始句子的长度是不一样的，在进行 batch训练之前，要先进行长度的统一，过长的句子可以通过truncating 截断到固定的长度，过短的句子可以通过 padding 增加到固定的长度，但是 padding 对应的字符只是为了统一长度，并没有实际的价值，因此希望在之后的计算中屏蔽它们，这时候就需要 Mask。

对于那些补零的数据，为了让attention机制不把注意力放在这些位置上，把这些位置的值加上一个非常大的负数(负无穷)，经过softmax后，这些位置的权重就会接近0。Transformer的padding mask实际上是一个张量，每个值都是一个Boolean，值为false的地方就是要遮挡的地方。

Sequence Mask

将输入组成输入矩阵，乘以一个 mask矩阵，屏蔽当前词到最后的词，使当前词只能看到它前面的词。用在decoder端。

beam search

参考：https://zhuanlan.zhihu.com/p/36029811?group_id=972420376412762112
在Beam Search中只有一个参数B，叫做beam width(集束宽)，用来表示在每一次挑选top B的结果。在集束宽为3时，集束搜索一次只考虑3个可能结果。注意如果集束宽等于1，只考虑1种可能结果，这实际上就变成了贪婪搜索算法，但是如果同时考虑多个，可能的结果比如3个，10个或者其他的个数，集束搜索通常会找到比贪婪搜索更好的输出结果。

好啦，这次的作业也算是勉强顺利完成啦

Multi-Head Latent Attention: Boosting Inference Efficiency 连理o LLM
ContentsIntroductionMethodLow-RankKey-ValueJointCompressionDecoupledRotaryPositionEmbeddingReferencesIntroduction作者提出Multi-headLatentAttention(MLA)，通过将KV压缩为CompressedLatentKV，在减小KVcache的同时保持模型精度Method
多头潜在注意力（MLA）是怎么来的，什么原理，能用简单的示例解释么百态老人学习
多头潜在注意力（Multi-HeadLatentAttention，简称MLA）是一种改进的注意力机制，旨在提高自然语言处理（NLP）模型的推理效率和性能。其核心思想是通过低秩联合压缩键（Key）和值（Value），减少推理过程中所需的内存和计算资源，从而实现更高效的处理。MLA的原理在传统的多头注意力机制（MHA）中，每个输入token的键和值需要被缓存，这导致了巨大的内存开销。具体来说，对于每
AI人工智能深度学习算法：高并发场景下深度学习代理的性能调优 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度学习代理的兴起近年来，随着人工智能技术的飞速发展，深度学习在各个领域都取得了显著的成果。特别是在自然语言处理、图像识别、语音识别等领域，深度学习模型的性能已经超越了传统方法。为了更好地将深度学习技术应用于实际场景，深度学习代理应运而生。深度学习代理是一种将深度学习模型封装起来，并提供对外接口的服务。它可以接收来自客户端的请求，将请求数据输入到深度学习模型中进行推理，并将推理结
Transformer中的注意力机制：从基础概念到高级变体的全面解析 XianxinMao transformer 深度学习人工智能
注意力机制的基础概念核心组件(Query、Key、Value)的详细解释主要的注意力机制变体：自注意力(Self-Attention)多头注意力(Multi-HeadAttention)掩码注意力(MaskedAttention)注意力评分函数的类型和特点多头注意力的现代变体：MHA(Multi-HeadAttention)MQA(Multi-QueryAttention)GQA(Grouped-
【深度学习基础】线性神经网络 | softmax回归的简洁实现 Francek Chen PyTorch深度学习深度学习神经网络回归 softmax 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈PyTorch深度学习⌋⌋⌋深度学习(DL,DeepLearning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据
深度学习从入门到精通：全面指南 AI天才研究院计算大数据AI人工智能 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《深度学习从入门到精通：全面指南》文章目录《深度学习从入门到精通：全面指南》文章关键词文章摘要引言第一部分：深度学习基础入门第1章：深度学习概述1.1深度学习的基本概念1.2深度学习的发展历程1.3深度学习的基本原理神经网络前向传播反向传播第2章：深度学习框架入门2.1TensorFlow入门TensorFlow环境搭建TensorFlow基本数据结构2.2PyTorch入门PyTorch环境搭建
ECCV 2024 | CC-SAM：用于超声图像分割的跨特征注意力和上下文的SAM 小白学视觉计算机顶会论文解读人工智能 ccf-a ECCV 计算机顶会深度学习
论文信息题目：CC-SAM:SAMwithCross-featureAttentionandContextforUltrasoundImageSegmentationCC-SAM：用于超声图像分割的跨特征注意力和上下文的SAM作者：ShreyankNGowda和DavidA.Clifton论文创新点变分注意力融合模块（VariationalAttentionFusionModule）：作者提出了一
如何在Python中安装GDAL库（gdal）研仔mm python 开发语言
具体安装步骤：1、下载与Python版本相匹配的.whl文件：（如：GDAL-3.4.3-cp38-cp38-win_amd64.whl）cp38代表python3.8版本，win_amd64代表你的电脑是64位的2、安装GDAL：安装到python软件安装目录下的scripts文件夹里：D:\app\Anaconda\envs\pytorch\Scripts（pytorch为我自己创建的虚拟环境
深度学习Transformer框架 Clown爱电脑深度学习 transformer 人工智能自然语言处理机器学习
Transformer是一种深度学习框架，专门用于处理序列数据。它是2017年由Vaswani等人提出的，在NLP领域取得了很大的成功。Transformer的主要优势在于它可以并行地处理输入序列中的所有元素，并且不依赖于序列长度。它使用了self-attention机制，可以在序列中不同位置的元素之间建立联系。这使得Transformer在许多NLP任务中取得了最先进的性能。此外，Transfo
Transformer模型全面解析：工作原理、应用与未来展望* 泰山AI AI大模型应用开发 transformer
概述：深入探讨Transformer模型的工作原理，分析其在NLP领域的应用场景，并展望其未来发展趋势。本文为您提供关于Transformer模型的全面指南。正文Transformer模型全面解析：工作原理、应用与未来展望在人工智能的浪潮中，Transformer模型以其强大的性能和广泛的应用场景，成为了自然语言处理（NLP）领域的一颗璀璨明星。本文将对Transformer模型进行深入剖析，从工
一切皆是映射：Transformer架构全面解析 AI天才研究院计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
背景介绍自2017年，Transformer（自注意力机制）架构的问世以来，它已经成为自然语言处理（NLP）领域的主流技术之一。Transformer架构的出现，使得自然语言处理的任务变得更加简单、高效，同时也为许多其他领域提供了灵感。通过深入剖析Transformer，我们可以更好地理解其核心概念、原理和实际应用场景。这篇文章将全面解析Transformer架构，从核心概念到实际应用，帮助读者深
安装CUDA Cudnn Pytorch(GPU版本）步骤学乐乐 pytorch 人工智能 python
一.先看自己的电脑NVIDIA支持CUDA版本是多少？1.打开NVIDIA控制面板2.点击帮助---系统信息--组件我的支持CUDA11.6二.再看支持Pytorch的CUDA版本三.打开CUDA官网下载CUDA11.6下载好后，安装选择自定义然后安装位置（先去F盘建个CUDA-manger文件夹然后在里面建个CUDA11.6文件夹再在里面建立CUDA1CUDA2这两个文件夹前两个位置选到CUDA
大语言模型原理基础与前沿指令生成 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
大语言模型、指令生成、Transformer、BERT、GPT、LLaMA、Fine-tuning、PromptEngineering1.背景介绍近年来，大语言模型（LargeLanguageModels，LLMs）在自然语言处理领域取得了令人瞩目的成就。从文本生成、翻译到问答和代码编写，LLMs展现出强大的能力，深刻地改变了我们与语言交互的方式。指令生成作为LLMs应用的重要方向之一，旨在通过明
【深度学习】Pytorch：在 ResNet 中加入注意力机制 T0uken 深度学习 pytorch 人工智能
在这篇教程中，我们将介绍如何在ResNet网络中加入注意力机制模块。我们将通过对标准ResNet50进行改进，向网络中添加两个自定义的注意力模块，并展示如何实现这一过程。为什么要加入注意力机制注意力机制可以帮助神经网络专注于图像中重要的特征区域，从而提高模型的性能。在卷积神经网络中，加入注意力机制能够有效增强特征提取能力，减少冗余信息的干扰，尤其在处理复杂图像时，能够提升网络的表现。在本教程中，我
使用ChatLlamaCpp和Llama CPP Python进行聊天模型集成 AWsggdrg llama python 开发语言
在这篇文章中，我们将探讨如何使用ChatLlamaCpp和LlamaCPPPython库来搭建一个强大的聊天模型。我们将详细讲解如何进行模型集成，并提供完整的代码示例以帮助您快速上手。技术背景介绍随着自然语言处理技术的不断发展，越来越多的应用需要集成复杂的聊天模型以提高交互能力。ChatLlamaCpp是一个基于LlamaCPPPython库构建的聊天模型，支持多种功能调用和结构化输出，非常适合用
时间序列预测综述 Super_Whw 时序预测
文章目录非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2seq(attention_based_model)2.Facebook-prophet，类似于STL分解思路3.深度学习网络，结合CNN+RNN+Attention，作用各不相同互相配合参考：非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2s
IGModel——提高基于 GNN与Attention 机制的方法在药物发现中的实用性 Jackie_AI 计算机视觉 stable diffusion 自然语言处理语言模型 Imagen
IGModel——提高基于GNN与Attention机制的方法在药物发现中的实用性导言深度学习在药物发现（发现治疗药物）领域的应用以及传统方法面临的挑战。药物（尤其是我们将在本文中讨论的被称为抑制剂的药物）通过与在人体中发挥不良功能的蛋白质结合并改变这些蛋白质的功能来发挥治疗效果。因此，在设计药物时，必须优化这些结合的亲和力和药理特性，并准确预测蛋白质与药物之间的相互作用。近年来，人们尤其提倡使用
Pytorch 自学笔记（三）：利用自定义文本数据集构建Dataset和DataLoader JimmyTotoro Pytorch 自学笔记 pytorch 笔记人工智能
Pytorch自学笔记（三）1.Dataset与DataLoader1.1torch.utils.data.Dataset1.2torch.utils.data.DataLoaderPytorch自学笔记系列的第三篇。针对Pytorch的Dataset和DataLoader进行简单的介绍，同时，介绍如何使用自定义文本数据集构建Dataset和DataLoader，以实现数据集的随机采样与batch
2.6 聚焦：Word Embedding 少林码僧 AI大模型应用实战专栏 word embedding
聚焦：WordEmbeddingWordEmbedding（词嵌入）是一种将词语转化为低维向量表示的技术，使得词语在数学空间中具有语义上的相似性。它是自然语言处理（NLP）中不可或缺的一部分，为文本数据提供了强大的表示能力。与传统的基于词频的词袋模型（Bag-of-Words）相比，WordEmbedding能够捕捉到词语之间更深层的语义和上下文信息。1.词嵌入的定义与作用WordEmbeddin
Docker部署nnunetv2简洁教程 Tiandaren 模型部署 docker 容器运维 pytorch 人工智能深度学习 python
前言：感觉一些教程没必要说那么多，直接贴出重点的配置文件。如果有不懂的，可以把此文档丢给gpt，配合自己的环境一同服用。首先，在nnunet路径下创建一个Dockerfile。由于我已经完成了nnUNet的训练，所以不需要将相关数据全部上传到容器中，而是只保留源码。#使用适当的基础镜像（如pytorch官方镜像）FROMpytorch/pytorch:latest#更新apt-get并安装必要的工
Pytorch: torch.diag()创建对角线张量湫兮之风 pytorch pytorch 人工智能 python
torch.diag()torch.diag是PyTorch中的一个函数，用于从给定的矩阵中提取对角线元素，或者构造一个以给定对角线元素为值的对角矩阵。这个函数对于矩阵分解和转换等操作非常重要。如果输入是一个向量（1D张量），torch.diag会返回一个以该向量为对角线元素的2D方阵。如果输入是一个矩阵（2D张量），则返回一个包含输入矩阵对角线元素的1D张量。torch.diag还允许你指定对角
Transformer入门（1）transformer及其编码器-解码器通信仿真实验室 Google BERT 构建和训练NLP模型 bert transformer 人工智能 NLP 自然语言处理
文章目录1.Transformer简介2.Transformer的编码器-解码器架构3.transformer的编码器1.Transformer简介Transformer模型是一种用于自然语言处理的机器学习模型，它在2017年由Google的研究者提出，并在论文《AttentionisAllYouNeed》中详细描述。Transformer模型的核心创新在于其采用了自注意力（self-attent
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解随着深度学习的发展，不同的深度学习框架如TensorFlow、PyTorch、ONNX等在AI开发者社区中占据了重要地位。然而，针对某些硬件平台（如华为昇腾AI处理器），算子库中的算子并非都已经适配了所有主流框架。为了解决这一问题，框架适配开发应运而生，它允许开发者将已存在于算子库中的算子适配到其他未支持的第三方框架上
【Python】成功解决ValueError: zero-size array to reduction operation minimum which has no identity 高斯小哥 BUG解决方案合集 python 新手入门学习 debug
【Python】成功解决ValueError:zero-sizearraytoreductionoperationminimumwhichhasnoidentity个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、
【深度学习】CrossEntropyLoss需要手动softmax吗？ zz的学习笔记本深度学习深度学习人工智能
【深度学习】CrossEntropyLoss需要手动softmax吗？问题：CrossEntropyLoss需要手动softmax吗？答案：不需要官方文档代码解释问题：CrossEntropyLoss需要手动softmax吗？之前用pytorch实现自己的网络时，使用CrossEntropyLoss的时候将网路输出经softmax激活层后再计算CrossEntropyLoss。答案：不需要调用了损
使用Amazon Bedrock API调用Anthropic的Claude模型 dwa46a56w4d easyui 前端 javascript python
在AI模型应用领域，亚马逊的BedrockAPI提供了便捷的方式来访问诸如Anthropic的Claude这样强大的模型。通过AmazonBedrock，开发者可以在云端直接调用Claude进行各种自然语言处理任务。本指南将引导您如何在Python中通过Bedrock来使用Claude模型。技术背景介绍Claude是由Anthropic开发的AI模型，提供强大的自然语言处理能力。通过AmazonB
PyTorch 基础数据集：从理论到实践的深度学习基石那年一路北 Pytorch理论+实践深度学习 pytorch 人工智能
一、引言深度学习作为当今人工智能领域的核心技术，在图像识别、自然语言处理、语音识别等众多领域取得了令人瞩目的成果。而在深度学习的体系中，数据扮演着举足轻重的角色，它是模型训练的基础，如同建筑的基石，决定了模型的性能和泛化能力。PyTorch作为当下最流行的深度学习框架之一，为开发者提供了丰富且强大的工具来处理数据集。本文将深入探讨PyTorch中的基础数据集，从深度学习中数据的重要性出发，详细介绍
【深度学习】Pytorch：导入导出模型参数 T0uken 深度学习 pytorch 人工智能
PyTorch是深度学习领域中广泛使用的框架，熟练掌握其模型参数的管理对于模型训练、推理以及部署非常重要。本文将全面讲解PyTorch中关于模型参数的操作，包括如何导出、导入以及如何下载模型参数。什么是模型参数模型参数是指深度学习模型中需要通过训练来优化的变量，如神经网络中的权重和偏置。这些参数存储在PyTorch的torch.nn.Module对象中，通过以下方式访问：importtorchim
使用 LangChain 构建多PDF文档聊天应用 jkgSFS langchain pdf easyui python
随着大型语言模型（LLMs）的普及，如何将它们应用于文档处理成为了热门话题之一。本文将通过一个教程，展示如何使用LangChain构建一个能够处理多个PDF文档并与之对话的应用。技术背景介绍LangChain是一个广受欢迎的库，能够帮助开发者轻松地与LLMs和不同的嵌入技术进行整合。它提供了方便的接口和工具，使得复杂的自然语言处理任务变得简单高效。核心原理解析我们将利用LangChain来读取多个
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><