九号店

Transformer

文章目录

Transformer

transformer模型
transformer的pytorch实现
多头注意力层

多头注意力模型
多头注意力pytorch

基于位置的前馈网络（FFN)
Add and Norm
位置编码
编码器(Encoder)
解码器（Decoder)
小结

Transformer

transformer模型

在之前的章节中，我们已经介绍了主流的神经网络架构如卷积神经网络（CNNs）和循环神经网络（RNNs）。让我们进行一些回顾：

CNNs 易于并行化，却不适合捕捉变长序列内的依赖关系。
RNNs 适合捕捉长距离变长序列的依赖，但是却难以实现并行化处理序列。
为了整合CNN和RNN的优势，[Vaswani et al., 2017] 创新性地使用注意力机制设计了Transformer模型。该模型利用attention机制实现了并行化捕捉序列依赖，并且同时处理序列的每个位置的tokens，上述优势使得Transformer模型在性能优异的同时大大减少了训练时间。

Transformer同样基于编码器-解码器架构，其区别主要在于以下三点：

Transformer blocks：将seq2seq模型重的循环网络替换为了Transformer Blocks，该模块包含一个多头注意力层（Multi-head Attention Layers）以及两个position-wise feed-forward networks（FFN）。对于解码器来说，另一个多头注意力层被用于接受编码器的隐藏状态。
Add and norm：多头注意力层和前馈网络的输出被送到两个“add and norm”层进行处理，该层包含残差结构以及层归一化。
Position encoding：由于自注意力层并没有区分元素的顺序，所以一个位置编码层被用于向序列元素里添加位置信息。

transformer的pytorch实现

import os
import math
import numpy as np
import torch 
import torch.nn as nn
import torch.nn.functional as F
import sys
sys.path.append('../')
import d2l

def SequenceMask(X, X_len,value=-1e6):
    maxlen = X.size(1)
    X_len = X_len.to(X.device)
    #print(X.size(),torch.arange((maxlen),dtype=torch.float)[None, :],'\n',X_len[:, None] )
    mask = torch.arange((maxlen), dtype=torch.float, device=X.device)
    mask = mask[None, :] < X_len[:, None]
    #print(mask)
    X[~mask]=value
    return X

def masked_softmax(X, valid_length):
    # X: 3-D tensor, valid_length: 1-D or 2-D tensor
    softmax = nn.Softmax(dim=-1)
    if valid_length is None:
        return softmax(X)
    else:
        shape = X.shape
        if valid_length.dim() == 1:
            try:
                valid_length = torch.FloatTensor(valid_length.numpy().repeat(shape[1], axis=0))#[2,2,3,3]
            except:
                valid_length = torch.FloatTensor(valid_length.cpu().numpy().repeat(shape[1], axis=0))#[2,2,3,3]
        else:
            valid_length = valid_length.reshape((-1,))
        # fill masked elements with a large negative, whose exp is 0
        X = SequenceMask(X.reshape((-1, shape[-1])), valid_length)
 
        return softmax(X).reshape(shape)

# Save to the d2l package.
class DotProductAttention(nn.Module): 
    def __init__(self, dropout, **kwargs):
        super(DotProductAttention, self).__init__(**kwargs)
        self.dropout = nn.Dropout(dropout)

    # query: (batch_size, #queries, d)
    # key: (batch_size, #kv_pairs, d)
    # value: (batch_size, #kv_pairs, dim_v)
    # valid_length: either (batch_size, ) or (batch_size, xx)
    def forward(self, query, key, value, valid_length=None):
        d = query.shape[-1]
        # set transpose_b=True to swap the last two dimensions of key
        scores = torch.bmm(query, key.transpose(1,2)) / math.sqrt(d)
        attention_weights = self.dropout(masked_softmax(scores, valid_length))
        return torch.bmm(attention_weights, value)

多头注意力层

多头注意力模型

在我们讨论多头注意力层之前，先来迅速理解以下自注意力（self-attention）的结构。自注意力模型是一个正规的注意力模型，序列的每一个元素对应的key，value，query是完全一致的。如图自注意力输出了一个与输入长度相同的表征序列，与循环神经网络相比，自注意力对每个元素输出的计算是并行的，所以我们可以高效的实现这个模块。

多头注意力层h包含个并行的自注意力层，每一个这种层被成为一个head。对每个头来说，在进行注意力计算之前，我们会将query、key和value用三个现行层进行映射，这个注意力头的输出将会被拼接之后输入最后一个线性层进行整合。

多头注意力pytorch

class MultiHeadAttention(nn.Module):
    def __init__(self, input_size, hidden_size, num_heads, dropout, **kwargs):
        super(MultiHeadAttention, self).__init__(**kwargs)
        self.num_heads = num_heads
        self.attention = DotProductAttention(dropout)
        self.W_q = nn.Linear(input_size, hidden_size, bias=False)
        self.W_k = nn.Linear(input_size, hidden_size, bias=False)
        self.W_v = nn.Linear(input_size, hidden_size, bias=False)
        self.W_o = nn.Linear(hidden_size, hidden_size, bias=False)
    
    def forward(self, query, key, value, valid_length):
        # query, key, and value shape: (batch_size, seq_len, dim),
        # where seq_len is the length of input sequence
        # valid_length shape is either (batch_size, )
        # or (batch_size, seq_len).

        # Project and transpose query, key, and value from
        # (batch_size, seq_len, hidden_size * num_heads) to
        # (batch_size * num_heads, seq_len, hidden_size).
        
        query = transpose_qkv(self.W_q(query), self.num_heads)
        key = transpose_qkv(self.W_k(key), self.num_heads)
        value = transpose_qkv(self.W_v(value), self.num_heads)
        
        if valid_length is not None:
            # Copy valid_length by num_heads times
            device = valid_length.device
            valid_length = valid_length.cpu().numpy() if valid_length.is_cuda else valid_length.numpy()
            if valid_length.ndim == 1:
                valid_length = torch.FloatTensor(np.tile(valid_length, self.num_heads))
            else:
                valid_length = torch.FloatTensor(np.tile(valid_length, (self.num_heads,1)))

            valid_length = valid_length.to(device)
            
        output = self.attention(query, key, value, valid_length)
        output_concat = transpose_output(output, self.num_heads)
        return self.W_o(output_concat)

def transpose_qkv(X, num_heads):
    # Original X shape: (batch_size, seq_len, hidden_size * num_heads),
    # -1 means inferring its value, after first reshape, X shape:
    # (batch_size, seq_len, num_heads, hidden_size)
    X = X.view(X.shape[0], X.shape[1], num_heads, -1)
    
    # After transpose, X shape: (batch_size, num_heads, seq_len, hidden_size)
    X = X.transpose(2, 1).contiguous()

    # Merge the first two dimensions. Use reverse=True to infer shape from
    # right to left.
    # output shape: (batch_size * num_heads, seq_len, hidden_size)
    output = X.view(-1, X.shape[2], X.shape[3])
    return output


# Saved in the d2l package for later use
def transpose_output(X, num_heads):
    # A reversed version of transpose_qkv
    X = X.view(-1, num_heads, X.shape[1], X.shape[2])
    X = X.transpose(2, 1).contiguous()
    return X.view(X.shape[0], X.shape[1], -1)

基于位置的前馈网络（FFN)

Transformer 模块另一个非常重要的部分就是基于位置的前馈网络（FFN），它接受一个形状为（batch_size，seq_length, feature_size）的三维张量。Position-wise FFN由两个全连接层组成，他们作用在最后一维上。因为序列的每个位置的状态都会被单独地更新，所以我们称他为position-wise，这等效于一个1x1的卷积。

下面我们来实现PositionWiseFFN：

class PositionWiseFFN(nn.Module):
    def __init__(self, input_size, ffn_hidden_size, hidden_size_out, **kwargs):
        super(PositionWiseFFN, self).__init__(**kwargs)
        self.ffn_1 = nn.Linear(input_size, ffn_hidden_size)
        self.ffn_2 = nn.Linear(ffn_hidden_size, hidden_size_out)
        
        
    def forward(self, X):
        return self.ffn_2(F.relu(self.ffn_1(X)))

Add and Norm

除了上面两个模块之外，Transformer还有一个重要的相加归一化层，它可以平滑地整合输入和其他层的输出，因此我们在每个多头注意力层和FFN层后面都添加一个含残差连接的Layer Norm层。这里 Layer Norm 与7.5小节的Batch Norm很相似，唯一的区别在于Batch Norm是对于batch size这个维度进行计算均值和方差的，而Layer Norm则是对最后一维进行计算。层归一化可以防止层内的数值变化过大，从而有利于加快训练速度并且提高泛化性能。 (ref)

layernorm = nn.LayerNorm(normalized_shape=2, elementwise_affine=True)
batchnorm = nn.BatchNorm1d(num_features=2, affine=True)
X = torch.FloatTensor([[1,2], [3,4]])
print('layer norm:', layernorm(X))
print('batch norm:', batchnorm(X))

class AddNorm(nn.Module):
    def __init__(self, hidden_size, dropout, **kwargs):
        super(AddNorm, self).__init__(**kwargs)
        self.dropout = nn.Dropout(dropout)
        self.norm = nn.LayerNorm(hidden_size)
    
    def forward(self, X, Y):
        return self.norm(self.dropout(Y) + X)

位置编码

与循环神经网络不同，无论是多头注意力网络还是前馈神经网络都是独立地对每个位置的元素进行更新，这种特性帮助我们实现了高效的并行，却丢失了重要的序列顺序的信息。为了更好的捕捉序列信息，Transformer模型引入了位置编码去保持输入序列元素的位置。

class PositionalEncoding(nn.Module):
    def __init__(self, embedding_size, dropout, max_len=1000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(dropout)
        self.P = np.zeros((1, max_len, embedding_size))
        X = np.arange(0, max_len).reshape(-1, 1) / np.power(
            10000, np.arange(0, embedding_size, 2)/embedding_size)
        self.P[:, :, 0::2] = np.sin(X)
        self.P[:, :, 1::2] = np.cos(X)
        self.P = torch.FloatTensor(self.P)
    
    def forward(self, X):
        if X.is_cuda and not self.P.is_cuda:
            self.P = self.P.cuda()
        X = X + self.P[:, :X.shape[1], :]
        return self.dropout(X)

编码器(Encoder)

我们已经有了组成Transformer的各个模块，现在我们可以开始搭建了！编码器包含一个多头注意力层，一个position-wise FFN，和两个 Add and Norm层。对于attention模型以及FFN模型，我们的输出维度都是与embedding维度一致的，这也是由于残差连接天生的特性导致的，因为我们要将前一层的输出与原始输入相加并归一化。

class EncoderBlock(nn.Module):
    def __init__(self, embedding_size, ffn_hidden_size, num_heads,
                 dropout, **kwargs):
        super(EncoderBlock, self).__init__(**kwargs)
        self.attention = MultiHeadAttention(embedding_size, embedding_size, num_heads, dropout)
        self.addnorm_1 = AddNorm(embedding_size, dropout)
        self.ffn = PositionWiseFFN(embedding_size, ffn_hidden_size, embedding_size)
        self.addnorm_2 = AddNorm(embedding_size, dropout)

    def forward(self, X, valid_length):
        Y = self.addnorm_1(X, self.attention(X, X, X, valid_length))
        return self.addnorm_2(Y, self.ffn(Y))

现在我们来实现整个Transformer 编码器模型，整个编码器由n个刚刚定义的Encoder Block堆叠而成，因为残差连接的缘故，中间状态的维度始终与嵌入向量的维度d一致；同时注意到我们把嵌入向量乘以 $\sqrt{d}$ 以防止其值过小。

class TransformerEncoder(d2l.Encoder):
    def __init__(self, vocab_size, embedding_size, ffn_hidden_size,
                 num_heads, num_layers, dropout, **kwargs):
        super(TransformerEncoder, self).__init__(**kwargs)
        self.embedding_size = embedding_size
        self.embed = nn.Embedding(vocab_size, embedding_size)
        self.pos_encoding = PositionalEncoding(embedding_size, dropout)
        self.blks = nn.ModuleList()
        for i in range(num_layers):
            self.blks.append(
                EncoderBlock(embedding_size, ffn_hidden_size,
                             num_heads, dropout))

    def forward(self, X, valid_length, *args):
        X = self.pos_encoding(self.embed(X) * math.sqrt(self.embedding_size))
        for blk in self.blks:
            X = blk(X, valid_length)
        return X

解码器（Decoder)

Transformer 模型的解码器与编码器结构类似，然而，除了之前介绍的几个模块之外，编码器部分有另一个子模块。该模块也是多头注意力层，接受编码器的输出作为key和value，decoder的状态作为query。与编码器部分相类似，解码器同样是使用了add and norm机制，用残差和层归一化将各个子层的输出相连。

class DecoderBlock(nn.Module):
    def __init__(self, embedding_size, ffn_hidden_size, num_heads,dropout,i,**kwargs):
        super(DecoderBlock, self).__init__(**kwargs)
        self.i = i
        self.attention_1 = MultiHeadAttention(embedding_size, embedding_size, num_heads, dropout)
        self.addnorm_1 = AddNorm(embedding_size, dropout)
        self.attention_2 = MultiHeadAttention(embedding_size, embedding_size, num_heads, dropout)
        self.addnorm_2 = AddNorm(embedding_size, dropout)
        self.ffn = PositionWiseFFN(embedding_size, ffn_hidden_size, embedding_size)
        self.addnorm_3 = AddNorm(embedding_size, dropout)
    
    def forward(self, X, state):
        enc_outputs, enc_valid_length = state[0], state[1]
        
        # state[2][self.i] stores all the previous t-1 query state of layer-i
        # len(state[2]) = num_layers
        
        # If training:
        #     state[2] is useless.
        # If predicting:
        #     In the t-th timestep:
        #         state[2][self.i].shape = (batch_size, t-1, hidden_size)
        # Demo:
        # love dogs ! [EOS]
        #  |    |   |   |
        #   Transformer 
        #    Decoder
        #  |   |   |   |
        #  I love dogs !
        
        if state[2][self.i] is None:
            key_values = X
        else:
            # shape of key_values = (batch_size, t, hidden_size)
            key_values = torch.cat((state[2][self.i], X), dim=1) 
        state[2][self.i] = key_values
        
        if self.training:
            batch_size, seq_len, _ = X.shape
            # Shape: (batch_size, seq_len), the values in the j-th column are j+1
            valid_length = torch.FloatTensor(np.tile(np.arange(1, seq_len+1), (batch_size, 1))) 
            valid_length = valid_length.to(X.device)
        else:
            valid_length = None

        X2 = self.attention_1(X, key_values, key_values, valid_length)
        Y = self.addnorm_1(X, X2)
        Y2 = self.attention_2(Y, enc_outputs, enc_outputs, enc_valid_length)
        Z = self.addnorm_2(Y, Y2)
        return self.addnorm_3(Z, self.ffn(Z)), state

对于Transformer解码器来说，构造方式与编码器一样，除了最后一层添加一个dense layer以获得输出的置信度分数。下面让我们来实现一下Transformer Decoder，除了常规的超参数例如vocab_size embedding_size 之外，解码器还需要编码器的输出 enc_outputs 和句子有效长度 enc_valid_length。

class TransformerDecoder(d2l.Decoder):
    def __init__(self, vocab_size, embedding_size, ffn_hidden_size,
                 num_heads, num_layers, dropout, **kwargs):
        super(TransformerDecoder, self).__init__(**kwargs)
        self.embedding_size = embedding_size
        self.num_layers = num_layers
        self.embed = nn.Embedding(vocab_size, embedding_size)
        self.pos_encoding = PositionalEncoding(embedding_size, dropout)
        self.blks = nn.ModuleList()
        for i in range(num_layers):
            self.blks.append(
                DecoderBlock(embedding_size, ffn_hidden_size, num_heads,
                             dropout, i))
        self.dense = nn.Linear(embedding_size, vocab_size)

    def init_state(self, enc_outputs, enc_valid_length, *args):
        return [enc_outputs, enc_valid_length, [None]*self.num_layers]

    def forward(self, X, state):
        X = self.pos_encoding(self.embed(X) * math.sqrt(self.embedding_size))
        for blk in self.blks:
            X, state = blk(X, state)
        return self.dense(X), state

小结

Transformer同样基于编码器-解码器架构
Transformer blocks：将seq2seq模型重的循环网络替换为了Transformer Blocks，该模块包含一个多头注意力层（Multi-head Attention Layers）以及两个position-wise feed-forward networks（FFN）。对于解码器来说，另一个多头注意力层被用于接受编码器的隐藏状态。
dd and norm：多头注意力层和前馈网络的输出被送到两个“add and norm”层进行处理，该层包含残差结构以及层归一化。
osition encoding：由于自注意力层并没有区分元素的顺序，所以一个位置编码层被用于向序列元素里添加位置信息。

tensorboard使用过程中报错：[Errno 22] Invalid argument Jackilina_Stone 【EH】报错处理 python 深度学习 pytorch
1报错如下所示：D:\code\deep_learning\logs>tensorboard--logdir=traind:\anaconda3\lib\site-packages\h5py\__init__.py:34:FutureWarning:Conversionofthesecondargumentofissubdtypefrom`float`to`np.floating`isdeprec
YOLO1至YOLOV3方法讲解 weixin_34090643
YOLO方法总结computevisual计算机视觉总结Github:https://github.com/Codermay/Test-1**重点https://github.com/jiajunhua/SnailTyan-deep-learning-papers-translation目标检测方法总结网址：https://handong1587.github.io/deep_learning/2
pytorch 对图片进行归一化处理泰勒朗斯 AI pytorch 人工智能 python
如题，神经网络通常使用浮点数张量作为输入，我们要做的第一件事情就是将图片转化为浮点数，并且做归一化操作。importtorchimportimageioimportosdata_dir='F:\\work\\deep_learning\\pytorch\\dlwpt-code-master\\data\\p1ch4\\image-cats'print(data_dir)file_names=[na
LSTM 大佬博客美环花子若野
ReferencesDanielHnyk:http://danielhnyk.cz/predicting-sequences-vectors-keras-using-rnn-lstm/Vict0rSch:https://github.com/Vict0rSch/deep_learning/tree/master/keras/recurrentJasonBrownlee:http://machine
object detection clxiaoclxiao paper 算法图像
原地址：https://handong1587.github.io/deep_learning/2015/10/09/object-detection.htmlObjectDetectionPublished:09Oct2015Category:deep_learningJumpto...PapersR-CNNFastR-CNNFasterR-CNNLight-HeadR-CNNCascadeR-
tensorboard显示无数据解决方法No scalar data was found 以及终端命令tensorboard --logdir logs无反应 Tony 深度学习 pytorch 深度学习
本文记录在学习tensorboard时遇到的坑，tensorboard显示无数据解决方法Noscalardatawasfound以及终端命令tensorboard--logdirlogs无反应2022/3/25更新时至今日我才发现真正的原因：其实是路径问题如果在F:\python_project\deep_learning\logs路径下tensorboard--logdirlogs是在logs这
Object Detection--的一个好的对比总结文章 leoking01
https://handong1587.github.io/deep_learning/2015/10/09/object-detection.htmlJumpto...LeaderboardPapersR-CNNFastR-CNNFasterR-CNNMultiBoxSPP-NetDeepID-NetNoCDeepBoxMR-CNNYOLOYOLOv2AttentionNetDenseBoxSS
本人亲测解决ipython及jupyter不能使用tensorflow的问题 weixin_43787109 人工智能机器学习 python ipython jupyter tensorflow no module named 'tensorflow'不能用
1.在ipython下无法使用的解决方案尝试在Anaconda/lib/site-packages中新建path.pth文件，里面内容为指定的虚拟环境名下的lib/site-packages位置。例如：D:\ProgramData\Anaconda3\envs\deep_learning\Lib\site-packages2.jupyter不能使用的处理办法在conda环境中使用命令安装ipyke
目标检测论文库洛北辰南深度学习目标检测 object detection
转自：https://handong1587.github.io/deep_learning/2015/10/09/object-detection.htmlObjectDetectionPublished:09Oct2015Category:deep_learningJumpto...PapersR-CNNFastR-CNNFasterR-CNNYOLOYOLOv2YOLOv3DenseBoxS
git 上传代码孙敬博 git git
这里写目录标题在本地库关联git仓库上传代码在本地库关联git仓库如果已经关联过其他的代码仓库，会出现：base)root@node05:~/deep_learning/SMARTS/SMARTS#gitremoteaddoriginhttps://github.com/xxxxx/xxxxx.gitfatal:remoteoriginalreadyexists.先查看已经关联的代码仓库：(bas
windows安装mmcv-full教程汇总夏日的_风 mmlab windows python 深度学习
安装参考链接https://www.zywvvd.com/2021/04/20/deep_learning/windows-mmcv-1-2-7-install/windows-mmcv-1-2-7-install/https://zhuanlan.zhihu.com/p/308281195错误处理链接https://zhuanlan.zhihu.com/p/340973730https://bl
SVM鸢尾花分类凯若Irving python 可视化深度学习
最近学习了SVM支持向量机模型，并用uci上的数据集做了简单的鸢尾花分类。svm数学原理代码fromsklearnimportsvmimportnumpyasnpfromsklearnimportmodel_selectionimportmatplotlib.pyplotasplt#导入数据集path="/Users/lkr/Documents/deep_learning/SVM/iris.dat
Object Detection(目标检测论文、代码资源整合) 子季鹰才
目标检测神文，非常全而且持续在更新。转发自：https://handong1587.github.io/deep_learning/2015/10/09/object-detection.html，如有侵权联系删除。https://blog.csdn.net/alphonse2017/article/details/85103295，我会跟进原作者博客持续更新，加入自己对目标检测领域的一些新研究及
Object Detection(目标检测神文) Hellowongwong php c/c++matlab object detect faster R-CNN SSD YOLO MTCNN 目标检测
转ObjectDetection(目标检测神文)2018年08月21日14:25:28Mars_WH阅读数23382标签：objectdetectfasterR-CNNSSDYOLOMTCNN更多个人分类：目标检测目标检测神文，非常全而且持续在更新。转发自：https://handong1587.github.io/deep_learning/2015/10/09/object-detection
20170909深度学习solar测试日志百年九重宫 tensorflow python 深度学习
py@py-System-Product-Name:~/deep_learning/TFLearn/re$pythonretrain.py–image_dir~/20170513DPLookingforimagesin‘BadDP’Lookingforimagesin‘GoodDP’2017-09-0916:26:23.319098:Wtensorflow/core/platform/cpu_fe
通用目标检测（集合） monk1992 目标检测+识别
No1.推荐博客集合https://handong1587.github.io/deep_learning/2015/10/09/object-detection.html#blogsNo2.知乎上的一个专栏（精品比女神nice）：https://www.zhihu.com/people/george-zhang-84/posts
基于Tensorflow实现FFM LeadAI学院
正文共3084张图，16张图，预计阅读时间15分钟。github：https://github.com/sladesha/deep_learning没错，这次登场的是FFM。各大比赛中的“种子”算法，中国台湾大学Yu-ChinJuan荣誉出品，美团技术团队背书，MichaelJahrer的论文的field概念灵魂升华，土豪公司鉴别神器。通过引入field的概念，FFM把相同性质的特征归于同一个fi
vs2017安装配置 qq526928635 安装工具
安装文件路径：H:\deep_learning\环境配置缺少windows.h，stdlib.h等文件参考https://blog.csdn.net/z_m_1/article/details/80833782
Object Detection mjiansun 机器学习
目标检测神文，非常全而且持续在更新。转发自：https://handong1587.github.io/deep_learning/2015/10/09/object-detection.html，如有侵权联系删除。我会跟进原作者博客持续更新，加入自己对目标检测领域的一些新研究及论文解读。博客根据需求直接进行关键字搜索，例如2018，可找到最新论文。Papers——————————————————
数字识别手写神经网络实现基于MNIST数据集 Justdoforever 深度学习
MNIST数据集自行baidu下载，解压后放到项目文件里git详细代码仓库：https://github.com/justDoForever/deep_learning/digital_recognition.py(python2.7)理论分析:https://www.zybuluo.com/hanbingtao/note/476663代码如下:#encoding:utf-8#神经网络实现数字识别
Object Detection目标检测全面总结--重要 chen645096127 机器学习
原地址：https://handong1587.github.io/deep_learning/2015/10/09/object-detection.htmlObjectDetectionPublished:09Oct2015Category:deep_learningJumpto...PapersR-CNNFastR-CNNFasterR-CNNLight-HeadR-CNNCascadeR-
Object Detection(目标检测神文) weixin_30699955 object detect faster R-CNN SSD YOLO MTCNN 目标检测
转ObjectDetection(目标检测神文)2018年08月21日14:25:28Mars_WH阅读数23382标签：objectdetectfasterR-CNNSSDYOLOMTCNN更多个人分类：目标检测目标检测神文，非常全而且持续在更新。转发自：https://handong1587.github.io/deep_learning/2015/10/09/object-detection
目标检测领域论文和代码集合(2013年~2018年8月) 马卫飞 CNN--ANN--Deep Learning
转载链接:https://handong1587.github.io/deep_learning/2015/10/09/object-detection.htmlJumpto...PapersR-CNNFastR-CNNFasterR-CNNLight-HeadR-CNNCascadeR-CNNMultiBoxSPP-NetMR-CNNYOLOYOLOv2YOLOv3DenseBoxSSDDSSD
Deep Learning 基础 -- 防止过拟合/预训练模型 ProYH Deep-Learning
DeepLearning基础–防止过拟合/预训练模型Tags：Deep_Learning本文主要包含如下内容：DeepLearning基础–防止过拟合/预训练模型发生过拟合的原因防止过拟合（过拟合无法避免）引入正则化Dropout提前终止交叉验证增加样本量(数据增广)批量归一化(BN:BatchNormalization)预训练模型/迁移学习发生过拟合的原因过拟合指在模型参数拟合过程中的问题，
图像语义分割 zbxzc 计算机视觉
https://handong1587.github.io/deep_learning/2015/10/09/segmentation.htmlhttp://blog.csdn.net/column/details/15893.htmlpascal_voc语义分割排行榜http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challe
通过简单神经网络识别猫图片 lovelife110 AI
代码位置：https://github.com/lilihongjava/deep_learning/tree/master/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E8%AF%86%E5%88%AB%E7%8C%AB数据预处理：数据为H5文件，保存训练集有209张64x64的图像，训练集的图像对应的分类值（【0|1】，0表示不是猫，1表示是猫）测试集里面的图像数
目标检测最新方法介绍 zhang11wu4 目标检测
https://handong1587.github.io/deep_learning/2015/10/09/nlp.htmlJumpto...LeaderboardPapersR-CNNMultiBoxSPP-NetDeepID-NetNoCFastR-CNNDeepBoxMR-CNNFasterR-CNNYOLOAttentionNetDenseBoxSSDInside-OutsideNet(
阿里云高性能AI服务 -- 基于Docker和EGS一键创建高性能Tensorflow分布式训练 weixin_33911824
一.概述Tensorflow是目前使用最为广泛的深度学习框架之一，但是目前搭建分布式多机多卡训练比较困难，而且Tensorflow原生的分布式的性能很差，特别在云计算虚拟化环境下并行的挑战更大。为了解决这个问题，我们创建了一个容器镜像：registry.cn-beijing.aliyuncs.com/ai_beijing/deep_learning:vx.x.x，目前包含了Tensorflow很新
Halcon Classification（三）deep_learning classifier 逸_ Halcon deep learning
halcon例程deeplearning水果分类器。*Thisexampleshowshowtotrainadeeplearningfruitclassifier,alongwith*ashortoverviewofthenecessarysteps.训练分类器*Initialization.dev_update_off()dev_close_window()WindowWidth:=800Win
Deep Learning Resources ShiningJotes Python Tensorflow
转自：https://handong1587.github.io/deep_learning/2015/10/09/dl-resources.htmlImageNetSingle-modelon224x224Methodtop1top5ModelSizeSpeedResNet-10178.0%94.0%ResNet-20078.3%94.2%Inception-v3Inception-v4Ince
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

Transformer

文章目录

Transformer

transformer模型

transformer的pytorch实现

多头注意力层

多头注意力模型

多头注意力pytorch

基于位置的前馈网络（FFN)

Add and Norm

位置编码

编码器(Encoder)

解码器（Decoder)

小结

你可能感兴趣的:(Deep_Learning)