The Annotated Transformer（一）

原文链接： http://nlp.seas.harvard.edu/2018/04/03/attention.html

原文地址：http://nlp.seas.harvard.edu/2018/04/03/attention.html
摘要：基于复杂循环卷积神经网络的主要序列转换模型包含了编码器（Encoder）和解码器。表现最好的模型在解码器和编码器之间通过注意力机制进行连接。我们提出了一个新的简单网络结构，Transformer，其仅基于注意力机制，完全和循环卷积分开。两种机器翻译的实验表明这些模型不仅翻译质量更高，而且平行计算能力更好，需要的训练时间显著减少。我们的模型在VMT2014 English-to-German翻译任务上达到了28.4BLEU，超过包括集成学习的已知的最好成绩，提高了超过2BLEU。在VMT2014 English-to-German翻译任务上，我们的模型建立的简单的模型在8个GPU上训练3.5天后，得到了最高BLEU得分41.8。从文献上看训练成本是非常小的。我们将Transformer应用在大训练集以及小训练集的英语成分句法分析（Constituency parsing）上表明Transformer可以很好概括其他的任务。

Prelims

# !pip install http://download.pytorch.org/whl/cu80/torch-0.3.0.post4-cp36-cp36m-linux_x86_64.whl numpy matplotlib spacy torchtext seaborn

import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
import math, copy, time
from torch.autograd import Variable
import matplotlib.pyplot as plt
import seaborn
seaborn.set_context(context="talk")
%matplotlib inline

Background

模型结构：减少序列计算的目标也构成了扩展神经 GPU, ByteNet 及 ConvS2S的基础，这些模型也是采用卷积神经网络作为基本构建块，并行计算所有输入输出位置的隐藏表示。在这些模型中，将两个任意输入或输出位置的信号关联起来的所需计算量随着位置的距离增长，在ConvS2S中呈线性增长，在ByteNet中呈对数增长。在Transformer中，这被减少到常数值，尽管采用平均注意力加权位置而导致有效分辨率降低，这是我们与多头注意力相抵消的效果。

自注意力，有时称为内部注意力，是将单个序列的不同位置关联起来计算出一个序列的表示。自注意力已经成功用于各种任务，包括阅读理解，抽象概括，文本蕴涵和学习任务独立的句子表示。端到端存储器网络是基于循环注意机制而不是序列对齐重复，并且已经证明在简单语言问答和语言建模任务上表现良好。

然而，据我们所知，Transformer是第一个完全依靠自注意力而不使用序列对齐的RNN或卷积的转换模型来计算其输入和输出的表征。

Model Architecture

大多数有竞争力神经序列转换模型具有编码器 - 解码器框架。编码器将输入信号序列（x1，…，xn）映射到连续序列z=(z1,…,zn)。输入Z，解码器一次一个元素生成输出序列 (y1,…,ym)。在每个步骤中，模型都是自回归的，在生成下一个元素时，之前生成的元素作为附加输入被消耗掉。

class EncoderDecoder(nn.Module):
    """
    标准Encoder-Decoder架构。本模型和其他许多模型的基础。
    """
    def __init__(self, encoder, decoder, src_embed, tgt_embed, generator):
        super(EncoderDecoder, self).__init__()
        self.encoder = encoder
        self.decoder = decoder
        self.src_embed = src_embed
        self.tgt_embed = tgt_embed
        self.generator = generator
        
    def forward(self, src, tgt, src_mask, tgt_mask):
        "Take in and process masked src and target sequences."
        return self.decode(self.encode(src, src_mask), src_mask,
                            tgt, tgt_mask)
    
    def encode(self, src, src_mask):
        return self.encoder(self.src_embed(src), src_mask)
    
    def decode(self, memory, src_mask, tgt, tgt_mask):
        return self.decoder(self.tgt_embed(tgt), memory, src_mask, tgt_mask)

class Generator(nn.Module):
    "定义标准 linear + softmax 生成步骤。"
    def __init__(self, d_model, vocab):
        super(Generator, self).__init__()
        self.proj = nn.Linear(d_model, vocab)

    def forward(self, x):
        return F.log_softmax(self.proj(x), dim=-1)

Transformer遵循如下整体架构，使用堆叠的自注意力和逐点、完全连接层用于编码器和解码器，分别如图1的左半部分和右半部分所示。

Encoder and Decoder Stacks
Encoder
编码器由N=6完全相同的层堆栈组成。

def clones(module, N):
    "生成N个相同层。"
    return nn.ModuleList([copy.deepcopy(module) for _ in range(N)])

class Encoder(nn.Module):
    "核心编码器是N层的堆栈。"
    def __init__(self, layer, N):
        super(Encoder, self).__init__()
        self.layers = clones(layer, N)
        self.norm = LayerNorm(layer.size)
        
    def forward(self, x, mask):
        "Pass the input (and mask) through each layer in turn."
        for layer in self.layers:
            x = layer(x, mask)
        return self.norm(x)

在每两个子层周围采用残差连接，然后是在归一化层。

class LayerNorm(nn.Module):
    "建立一个归一化层模块。"
    def __init__(self, features, eps=1e-6):
        super(LayerNorm, self).__init__()
        self.a_2 = nn.Parameter(torch.ones(features))
        self.b_2 = nn.Parameter(torch.zeros(features))
        self.eps = eps

    def forward(self, x):
        mean = x.mean(-1, keepdim=True)
        std = x.std(-1, keepdim=True)
        return self.a_2 * (x - mean) / (std + self.eps) + self.b_2

也就是说，每个子层的输出是layerNorm（x+Sublayer(x)），其中Sublayer(x)是由子层本身实现的函数。我们将dropout应用于每个子层的输出，然后将其添加到子层输入并归一化。

为了方便进行残差连接，模型中的所有子层以及嵌入层都会生成维度dmodel=512的输出。

class SublayerConnection(nn.Module):
    """
    残差层连接后跟着归一层。
    注意：为了代码简单性，归一化是第一个而不是最后一个。
    """
    def __init__(self, size, dropout):
        super(SublayerConnection, self).__init__()
        self.norm = LayerNorm(size)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x, sublayer):
        "将残差连接应用于具有相同大小的任何子层。"
        return x + self.dropout(sublayer(self.norm(x)))

每层有两个子层。第一层是多头自注意力机制，第二层是简单的，位置完全连接的前反馈网络。

class EncoderLayer(nn.Module):
    "编码器由自注意和前反馈组成（定义如下）"
    def __init__(self, size, self_attn, feed_forward, dropout):
        super(EncoderLayer, self).__init__()
        self.self_attn = self_attn
        self.feed_forward = feed_forward
        self.sublayer = clones(SublayerConnection(size, dropout), 2)
        self.size = size

    def forward(self, x, mask):
        "Follow Figure 1 (left) for connections."
        x = self.sublayer[0](x, lambda x: self.self_attn(x, x, x, mask))
        return self.sublayer[1](x, self.feed_forward)

Decoder
解码器也由N = 6的相同的层堆栈组成。

class Decoder(nn.Module):
    "具有masking的通用N层解码器。"
    def __init__(self, layer, N):
        super(Decoder, self).__init__()
        self.layers = clones(layer, N)
        self.norm = LayerNorm(layer.size)
        
    def forward(self, x, memory, src_mask, tgt_mask):
        for layer in self.layers:
            x = layer(x, memory, src_mask, tgt_mask)
        return self.norm(x)

除了每个编码器层中的两个子层之外，解码器还插入第三子层，其对编码器堆栈的输出执行多头注意力。与编码器类似，我们在每个子层周围使用残差连接，然后进行归一化。

class DecoderLayer(nn.Module):
    "解码器由self_attn，src-attn和feed_forward组成（定义如下）"
    def __init__(self, size, self_attn, src_attn, feed_forward, dropout):
        super(DecoderLayer, self).__init__()
        self.size = size
        self.self_attn = self_attn
        self.src_attn = src_attn
        self.feed_forward = feed_forward
        self.sublayer = clones(SublayerConnection(size, dropout), 3)
 
    def forward(self, x, memory, src_mask, tgt_mask):
        "根据图1 (右) 进行连接"
        m = memory
        x = self.sublayer[0](x, lambda x: self.self_attn(x, x, x, tgt_mask))
        x = self.sublayer[1](x, lambda x: self.src_attn(x, m, m, src_mask))
        return self.sublayer[2](x, self.feed_forward)

我们还修改解码器堆栈中的自注意子层以避免当前位置关注后续的位置信息。掩码层结合偏移了一个位置的输出嵌入层，确保了位置i的预测仅依赖于小于i的位置处的已知输出。

def subsequent_mask(size):
    "屏蔽后续位置。"
    attn_shape = (1, size, size)
    subsequent_mask = np.triu(np.ones(attn_shape), k=1).astype('uint8')
    return torch.from_numpy(subsequent_mask) == 0

以下注意力掩码表明下方显示允许每个目标字（行）可以查看的位置（列）。在训练期间，单词被阻止用于处理未来的单词。

Attention
Attention可以被描述为将查询(query)和一组键值对(key-value)映射到输出，其中查询，键，值和输出都是向量。输出被计算为值的加权和，其中分配给每个值的权重由查询（query）与对应键（key）的兼容性函数计算。
我们特别关注“Scaled Dot-Product Attention”。输入包括查询（query)、维度dk的键(key)以及维度dv的值(value)。我们使用所有key计算query的点积，除以根号dk，并应用softmax函数来获得值的权重。

实际上，我们同时计算一组查询的注意函数，将它们打包成矩阵Q。键和值也一起打包成矩阵K和V.我们计算的输出矩阵为：

def attention(query, key, value, mask=None, dropout=None):
    "计算 'Scaled Dot Product Attention'"
    d_k = query.size(-1)
    scores = torch.matmul(query, key.transpose(-2, -1)) \
             / math.sqrt(d_k)
    if mask is not None:
        scores = scores.masked_fill(mask == 0, -1e9)
    p_attn = F.softmax(scores, dim = -1)
    if dropout is not None:
        p_attn = dropout(p_attn)
    return torch.matmul(p_attn, value), p_attn

两个最常用的注意功能是附加注意和点积（乘法）注意。除了1/√dk 的比例因子外，点积（乘法）注意和我们的算法是一样的。附加注意使用具有单个隐藏层的前馈网络来计算兼容性函数。虽然两者在理论上的复杂性相似，但在实践中，点积注意更快，更节省空间，因为它可以使用高度优化的矩阵乘法代码来实现。对于较小的dk值，两种机制的表现相似，但是对于更大的dk值在不缩放时附加注意力优于点积注意。
我们猜想是对于较大的dk值，点积值大幅增长，使得softmax函数进入到梯度极其小的区域（为了说明点积变大的原因，假设分量q和k是平均值为0且方差为1的独立随机变量。那么他们的点积q ⋅k=∑qiki的平均值为0且方差为dk）。为了抵消这种影响，我们将点积乘上1/√dk 进行缩小。

多头注意允许模型共同关注来自不同位置的不同表征的子空间信息。只有单独的注意头的话，平均计算会抑制这种情况。

其中分量是参数矩阵

在这项工作中，我们采用h = 8个平行注意力层或头部。对其中每一个我们使用dk = dv = dmodel / h = 64。由于减少了每个头部的尺寸，总计算成本与全维度的单头注意力相似。

class MultiHeadedAttention(nn.Module):
    def __init__(self, h, d_model, dropout=0.1):
        "考虑模型尺寸和头数。"
        super(MultiHeadedAttention, self).__init__()
        assert d_model % h == 0
        # 我们假设d_v 一直等于d_k
        self.d_k = d_model // h
        self.h = h
        self.linears = clones(nn.Linear(d_model, d_model), 4)
        self.attn = None
        self.dropout = nn.Dropout(p=dropout)
        
    def forward(self, query, key, value, mask=None):
        "实现图2"
        if mask is not None:
            # 相同的掩码应用于所有h 头.
            mask = mask.unsqueeze(1)
        nbatches = query.size(0)
        
        # 1) 从d_model批量执行所有线性投影 => h x d_k 
        query, key, value = \
            [l(x).view(nbatches, -1, self.h, self.d_k).transpose(1, 2)
             for l, x in zip(self.linears, (query, key, value))]
        
        # 2)注意批量中所有投影向量。
        x, self.attn = attention(query, key, value, mask=mask, 
                                 dropout=self.dropout)
        
        # 3) “Concat”使用视图并应用最终线性。 
        x = x.transpose(1, 2).contiguous() \
             .view(nbatches, -1, self.h * self.d_k)
        return self.linears[-1](x)

Applications of Attention in our Model
Transformer以三种不同的方式使用多头注意：
1）在“编码器 - 解码器注意”层中，查询（queries）来自先前的解码器层，并且存储的键（keys）和值(values)来自编码器的输出。这允许解码器中的每个位置都可以注意输入序列中的所有位置。这模拟了序列到序列模型中典型的编码器 - 解码器注意机制。
2）编码器包含自注意层。在自注意层中，所有键，值和查询来自相同的位置，是编码器中前一层的输出。编码器中的每个位置都可以注意编码器前一层中的所有位置。
3）类似地，解码器中的自注意层允许解码器中的每个位置注意解码器中的所有位置直到并包括该位置。我们需要防止解码器中的向左信息流以保持自回归属性。通过屏蔽所有softmax输入（设置为-∞），则其对应于非法连接，实现缩放的dot-product注意。

Position-wise Feed-Forward Networks
除了注意子层之外，编码器和解码器中每层都包含一个完全连接的前馈网络，该网络分别相同地应用于每个位置。其包括采用ReLU激活的两个线性变换。

虽然线性变换在不同位置上是相同的，但它们在层与层之间使用不同的参数。另一种描述这种情况的方法是两个内核大小为1的卷积。输入和输出的维数是dmodel = 512，内部层的维度dff = 2048。

class PositionwiseFeedForward(nn.Module):
    "实现FFN方程。"
    def __init__(self, d_model, d_ff, dropout=0.1):
        super(PositionwiseFeedForward, self).__init__()
        self.w_1 = nn.Linear(d_model, d_ff)
        self.w_2 = nn.Linear(d_ff, d_model)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        return self.w_2(self.dropout(F.relu(self.w_1(x))))

Embeddings and Softmax

与其他序列转换模型类似，我们使用学习嵌入将输入词和输出词转换为维度dmodel的向量。我们还使用通常的学习线性变换和softmax函数将解码器输出转换为预测的下一个词的概率。在我们的模型中，两个嵌入层和pre-softmax线性变换之间采用相同的权重矩阵。在嵌入层中，我们将这些权重乘以√dmodel 。

class Embeddings(nn.Module):
    def __init__(self, d_model, vocab):
        super(Embeddings, self).__init__()
        self.lut = nn.Embedding(vocab, d_model)
        self.d_model = d_model

    def forward(self, x):
        return self.lut(x) * math.sqrt(self.d_model)

Positional Encoding
由于我们的模型不包含递归和卷积，为了使模型能够利用序列的顺序，我们必须增加序列中词的相对或绝对位置的一些信息。为此，我们将“位置编码”添加到编码器和解码器堆栈底部的输入嵌入。位置编码具有与嵌入相同的维度dmodel，因此可以将两者相加。位置编码的选择、学习和固定有许多选择。

在这项工作中，我们使用不同频率的正弦和余弦函数：

pos是位置，i是维度。
也就是说，位置编码的每个维度对应的正弦曲线。波长形成了一个从2π到10000⋅2π的几何级数。
我们选择这个函数是因为我们假设它允许模型很容易地学习相对位置，因为对于任何固定偏移k，PEpos + k可以表示为PEpos的线性函数。此外，在编码器和解码器堆栈中我们将dropout应用于嵌入和位置编码之和。对于基本模型，我们使用Pdrop = 0.1的速率。

class PositionalEncoding(nn.Module):
    "实现PE功能。"
    def __init__(self, d_model, dropout, max_len=5000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)
        
        # Compute the positional encodings once in log space.
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2) *
                             -(math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)
        
    def forward(self, x):
        x = x + Variable(self.pe[:, :x.size(1)], 
                         requires_grad=False)
        return self.dropout(x)

下图是位置编码根据位置添加正弦波。波的频率和偏移对于每个维度是不同的。

plt.figure(figsize=(15, 5))
pe = PositionalEncoding(20, 0)
y = pe.forward(Variable(torch.zeros(1, 100, 20)))
plt.plot(np.arange(100), y[0, :, 4:8].data.numpy())
plt.legend(["dim %d"%p for p in [4,5,6,7]])
None

我们还尝试使用学习的位置嵌入，并发现这两个版本生成的结果几乎相同。我们选择了正弦曲线版本，因为它允许模型外推到比训练期间遇到的序列更长的序列。

未完待续

云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
linux查看jupyter运行,在Linux服务器上运行Jupyter notebook server教程天启大烁哥
在Linux服务器上运行Jupyternotebookserver教程很多deeplearning教程都推荐在jupyternotebook运行python代码，方便及时交互。但只在本地运行没有GPU环境，虽然googlecolab是个好办法，但发现保存模型后在云端找不到模型文件，且需要合理上网才能访问。于是想给实验室的服务器配置jupyternotebook，供本机远程访问。踩了不少坑，码一下教
使用matlab的热门问题七十二五值得关注 matlab 开发语言青少年编程算法经验分享
MATLAB广泛应用于科学计算、数据分析、信号处理、图像处理、机器学习等多个领域，因此热门问题也涵盖了这些方面。以下是一些可能被认为当前最热门的MATLAB问题：深度学习与神经网络：如何使用MATLAB的深度学习工具箱（DeepLearningToolbox）来构建和训练神经网络？如何利用MATLAB进行图像识别、语音识别或自然语言处理等深度学习应用？数据分析与可视化：如何使用MATLAB进行大数
COI实验室技能：图像到图像的深度学习开发框架（pytorch版）山颠海涯深度学习 pytorch 人工智能
Basicdeeplearningframeworkforimage-to-image这个开发框架旨在帮助科研人员快速地实现图像到图像之间的模型开发。github连接：https://github.com/SituLab/Basic-deep-learning-framework-for-image-to-image目录1模型开发1-1克隆项目到本地1-2深度学习开发2环境配置2-1安装conda
Python深度学习-环境 cunzai1985 tensorflow python 深度学习人工智能 anaconda
Python深度学习-环境(PythonDeepLearning-Environment)Inthischapter,wewilllearnabouttheenvironmentsetupforPythonDeepLearning.Wehavetoinstallthefollowingsoftwareformakingdeeplearningalgorithms.在本章中，我们将学习为Python
深度学习-OpenCV运用（3）红米煮粥深度学习 opencv 人工智能
文章目录一、简介二、OpenCV运用1.图片扩充2.图像阈值处理3.添加椒盐噪声三、总结一、简介深度学习（DeepLearning）与OpenCV（OpenSourceComputerVisionLibrary）的结合为计算机视觉领域带来了强大的解决方案。OpenCV是一个开源的计算机视觉和机器学习软件库，它提供了大量的视觉处理算法，包括但不限于图像和视频处理、特征检测、对象识别等。二、OpenC
【论文阅读】Purloining Deep Learning Models Developed for an Ultrasound Scanner to a Competitor Machine Bosenya12 科研学习模型窃取论文阅读深度学习人工智能模型安全
TheArtoftheSteal:PurloiningDeepLearningModelsDevelopedforanUltrasoundScannertoaCompetitorMachine（2024）摘要Atransferfunctionapproach（传递函数方法）hasrecentlyproveneffectiveforcalibratingdeeplearning(DL)algorit
【论文阅读】QUEEN: Query Unlearning against Model Extraction（2024） Bosenya12 科研学习模型窃取论文阅读提取攻击模型安全
摘要Modelextractionattacks（模型提取攻击）currentlyposeanon-negligiblethreat（不可忽视的威胁）tothesecurity（安全性）andprivacy（隐私性）ofdeeplearningmodels.Byqueryingthemodelwithasmalldataset（通过小数据集查询模型）andusingthequeryresultsa
【论文阅读33】Deep learning optoacoustic tomography with sparse data 弹伦琴的雷登【论文阅读系列】人工智能深度学习论文阅读图像处理
Deeplearningoptoacoustictomographywithsparsedata论文题目：基于稀疏数据的深度学习光声断层扫描论文链接：Deeplearningoptoacoustictomographywithsparsedata|NatureMachineIntelligence代码链接：GitHub-ndavoudi/sparse_artefact_unet数据链接：Data发
python里的i_Python 中[::] 与 [:,:,i] 总结桌游顽主的航仔 python里的i
最近在学吴恩达的DeepLearning中的第五门课SequenceModel,第一个lab是用Numpy搭建RNN，在搭建RNN的时候用到了Numpy的Slicing([:,:,i]),在这里想总结下[:,:,i]与[::i]的用法，有写的不对的地方请随时指教。总的来说，[::i]是Python中的基础索引，而[:,:,i]是Numpy中对于多维度Array的提取，在StackOverflow中
智能合约漏洞检测论文 weixin_45332030 智能合约
综述TestingEthereumSmartContracts:AComparisonofSymbolicAnalysisandFuzzTestingTools符号执行与模糊测试工具的比较综述DeepLearningBasedVulnerabilityDetection:AreWeThereYet?基于深度学习的漏洞检测研究https://github.com/VulDetProject/ReVe
机器学习概述与应用：深度学习、人工智能与经典学习方法刷刷刷粉刷匠人工智能机器学习深度学习
引言机器学习（MachineLearning）是人工智能（AI）领域中最为核心的分支之一，其主要目的是通过数据学习和构建模型，帮助计算机系统自动完成特定任务。随着深度学习（DeepLearning）的崛起，机器学习技术在各行各业中的应用变得越来越广泛。在本文中，我们将详细介绍机器学习的基础概念，包括无监督学习、有监督学习、增量学习，以及常见的回归和分类问题，并结合实际代码示例来加深理解。1.机器学
【现学现卖】CHEER中的概念解释——k-mer 番茄随笔
“概念理解”CHEER:HierarCHicaltaxonomicclassificationforviralmEtagEnomicdataviadeepleaRning对这篇文章中概念的理解：【现学现卖】CHEER与病毒宏基因组数据分析（1）【现学现卖】CHEER与病毒宏基因组数据分析（2）k-mer单独的k-mer很好理解，就是从一段序列中迭代分割提取长度为k的几个子序列（一般k为奇数，使用例
Learning Deep Learning（学习深度学习） weixin_34056162 开发工具人工智能 python
作者：chen_h微信号&QQ：862251340微信公众号：coderpai简书地址：https://www.jianshu.com/p/e98...LearningDeepLearning（学习深度学习）TherearelotsofawesomereadinglistsorpoststhatsummarizedmaterialsrelatedtoDeepLearning.SowhywouldI
【论文阅读】APMSA: Adversarial Perturbation Against Model Stealing Attacks（2023） Bosenya12 科研学习模型窃取论文阅读模型窃取防御对抗性扰动
摘要TrainingaDeepLearning(DL)model（训练深度学习模型）requiresproprietarydata（专有数据）andcomputing-intensiveresources（计算密集型资源）.Torecouptheirtrainingcosts（收回训练成本）,amodelprovidercanmonetizeDLmodelsthroughMachineLearni
DeePhage：预测噬菌体的生活方式 CAAS_IFR_zp 生活
GitHub-shufangwu/DeePhage:Atoolfordistinguishtemperatephage-derivedandvirulentphage-derivedsequenceinmetaviromedatausingdeeplearning安装condacreate-ndeephagecondaactivatedeephagepipinstallnumpypipinstal
机器学习、深度学习、神经网络之间的关系你好，工程师 AI 机器学习
机器学习（MachineLearning）、深度学习（DeepLearning）和神经网络（NeuralNetworks）之间存在密切的关系，它们可以被看作是一种逐层递进的关系。下面简要介绍它们之间的关系：机器学习（MachineLearning）：机器学习是一种人工智能的分支，关注如何通过数据让计算机系统从经验中学习，提高性能。机器学习算法可以分为监督学习、无监督学习、半监督学习和强化学习等不同
认识小波-DWT CWT Scattering 闪闪发亮的小星星数字信号处理与分析计算机视觉人工智能信号处理
这里写自定义目录标题小波变换的种类连续小波变换（CWT）DWTANexampleapplicationofDWTANexampleofCWT5.MachineLearningandDeepLearningwithWaveletScattering小波散射网络大家好。在本次介绍性课程中，我将介绍一些基本的小波概念。我将主要使用一维示例，但相同的概念也可以应用于图像。首先，我们回顾一下什么是小波。现实
Mastering Convolutional Neural Networks: A Comprehensive Practical Exploration Bio大恐龙人工智能深度学习数据可视化机器学习
ConvolutionalNeuralNetworks(CNNs)haverevolutionizedthefieldofcomputervisionandimagerecognition,enablinggroundbreakingadvancementsinvariousdomains.Thesepowerfuldeeplearningmodelshaveproventheirprowessi
精读《深度学习 - 函数式之美》可口可乐Vip 前端深度学习人工智能
1引言函数式语言在深度学习领域应用很广泛，因为函数式与深度学习模型的契合度很高，TheBeautyofFunctionalLanguagesinDeepLearning — ClojureandHaskell就很好的诠释了这个道理。通过这篇文章可以加深我们对深度学习与函数式编程的理解。2概述与精读深度学习是机器学习中基于人工神经网络模型的一个分支，通过模拟多层神经元的自编码神经网络，将特征逐步抽象
苹果手机怎么学python_我是如何在 Python 内使用深度学习实现 iPhone X 的 FaceID 的... weixin_39693437 苹果手机怎么学python
雷锋网按：本文为AI研习社编译的技术博客，原标题HowIimplementediPhoneX'sFaceIDusingDeepLearninginPython，作者为SHIVAMBANSAL。翻译|陶玉龙余杭校对|Lamaric整理|MY在最近推出的iPhoneX中，它被讨论最多的特点之一是它采用了新的解锁方法，即TouchID：FaceID。在研发出无边框手机后，苹果公司想开发一种新的方法来快捷
解决conda环境下import TensorFlow失败的问题绿竹巷人功能安装 conda tensorflow 人工智能
问题描述安装了anaconda的电脑，新建了一个名叫deeplearning的环境，在该环境下已经成功安装了tensorflow。于是在终端打开python并执行代码importtensorflowastfprint(1)除了提示2024-02-2721:50:00.801427:Iexternal/local_tsl/tsl/cuda/cudart_stub.cc:31]Couldnotfind
Deep Learning with OpenCV DNN Module介绍 lida2003 Linux 深度学习 opencv dnn 计算机视觉人工智能
DeepLearningwithOpenCVDNNModule介绍1.源由2.为什么/什么是OpenCVDNNModule?2.1支持的不同深度学习功能2.2支持的不同模型2.3支持的不同框架3.如何使用OpenCVDNN模块3.1使用从Keras和PyTorch等不同框架转换为ONNX格式的模型3.2使用OpenCVDNN模块的基本步骤4.参考资料1.源由看了一些资料和数据，感觉他讲的非常好，也
文献阅读（42）——使用深度学习在眼底照中检测糖网并分类（综述）柚子味的羊文献阅读深度学习分类人工智能
使用深度学习在眼底照中检测糖网并分类（综述）Deeplearningfordiabeticretinopathydetectionandclassificationbasedonfundusimages:AreviewIF=6.698/Q1文章目录使用深度学习在眼底照中检测糖网并分类（综述）先验知识/知识拓展文章结构文章结果1.introduction方法1.眼底图像一般的分析pipeline2.
深度学习——概念引入韶光流年都束之高阁深度学习日记深度学习人工智能职场和发展
深度学习深度学习简介深度学习分类根据网络结构划分：循环神经网络卷积神经网络根据学习方式划分：监督学习无监督学习半监督学习根据应用领域划分：计算机视觉自然语言处理语音识别生物信息学深度学习简介深度学习（DeepLearning，DL）是机器学习领域中的一个新的研究方向，主要是通过学习样本数据的内在规律和表示层次，让机器能够具有类似于人类的分析学习能力。深度学习的最终目标是让机器能够识别和解释各种数据
ChatGPT魔法1：背后的原理王丰博 GPT chatgpt
1.AI的三个阶段1）上世纪50~60年代，计算机刚刚产生2）Machinelearning3）Deeplearning，有神经网络，最有代表性的是ChatGPT,GPT(GenerativePre-TrainedTransformer)2.深度神经网络llyaSutskever:做图像识别，使用了GPT去并行计算及训练。Alexnet数据库已经label好的（李飞飞）GPU算力3.GPT3.1T
中科院一区论文复现，改进蜣螂算法，Fuch映射+反向学习+自适应步长+随机差分变异，MATLAB代码... 今天吃饺子算法学习 matlab 开发语言
本期文章复现一篇发表于2024年来自中科院一区TOP顶刊《Energy》的改进蜣螂算法。论文引用如下：LiY,SunK,YaoQ,etal.Adual-optimizationwindspeedforecastingmodelbasedondeeplearningandimproveddungbeetleoptimizationalgorithm[J].Energy,2024,286:129604
速读-张量流处理器（TSP） Reacubeth 徐奕的专栏机器学习人工智能体系结构深度学习
Paper:Abts,Dennis,etal.“Thinkfast:atensorstreamingprocessor(TSP)foracceleratingdeeplearningworkloads.”2020ACM/IEEE47thAnnualInternationalSymposiumonComputerArchitecture(ISCA).IEEE,2020.简介本文介绍了一种名为张量流处
如何在6个月内学习深度学习(翻译) 三猫后端
原文链接：如何在6个月内学习深度学习(翻译)微信公众号：机器学习养成记搜索添加微信公众号：chenchenwings机器学习工程师Bargava的文章《HowtolearnDeepLearningin6months》介绍了6个月内学习并掌握深度学习的实现步骤，每个步骤列出了相应的学习材料和学习目标。本周公众号内容为原文的部分内容翻译。准备6个月内，每周将花费10-20小时。需要一些编程基础。这样便
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

The Annotated Transformer（一）

你可能感兴趣的:(DeepLearning)