万里鹏程转瞬至

深度学习视觉领域中的attention机制的汇总解读（self-attention、交叉self-attention、ISSA、通道注意、空间注意、位置注意、Efficient Attention等）

self-attention来自nlp的研究中，在深度学习视觉领域有不少新的attention版本，为了解各种attention机制。博主汇集了6篇视觉领域中attention相关的论文，分别涉及DAnet（位置注意+通道注意）、CBAM（通道注意+空间注意）、Attention U-Net（注意Gate）、SAGAN（self-attention）、CCNet（交叉self-attention）、ISSA（Long-range self-Attention + Short-range self-Attention ）、Efficient Attention、spatial-reduction attention。并简单描述了这些attenton的运算流程，总结了其在论文中的有益效果。

2022.9.22：补充segformer中的Efficient Self-Attention

self-attention的简单描述

包含Q K V 三个映射集，attention-map为 $softmax(K(x)^T*V(x))$

k.shape: (B,C,N)

V.shape: (B,C,N)

attention-map: (B,N,N),其中(N=W*H)

计算结果为 attention-map*Q(x)。

Dual Attention Network for Scene Segmentation

2018年论文地址：https://arxiv.org/abs/1809.02983.pdf
csdn论文简读地址： https://blog.csdn.net/MJ17709005513/article/details/123774860

位置注意模块

BCD均为CBR模块

计算方法：
初始化各个block的weight
$W_b=conv\_bn\_relu \\ W_c=conv\_bn\_relu \\ W_d=conv\_bn\_relu$

计算过程,输入为x，输出为out
$b=W_b(x) ;\text{ (b,c,w,h)} \\ c=W_c(x) ;\text{ (b,c,w,h)} \\ d=W_d(x) ;\text{ (b,c,w,h)} \\ b=reshape(b) ;\text{ (b,c,n)} \\ c=reshape(c) ;\text{ (b,c,n)} \\ d=reshape(d) ;\text{ (b,c,n)} \\ bc=bmm(b^T , c) ;\text{ (b,n,n)} \\ s=softmax(bc) \\ attn\_val=bmm(s,d) ;\text{ (b,c,n)} \\ attn\_val=reshape(attn\_val ) ;\text{ (b,c,w,h)} \\ out=attn\_val+x ;\text{ (b,c,w,h)} \\$

通道注意模块

通道注意模块没有引入新的参数,是直接对数据进行reshape与Efficient Attention存在不同
计算过程,输入为x，输出为out
$;\text{ (b,c,n)} \\ a= bmm(a,a^T) ;\text{ (b,c,c)} \\ s=softmax(a) \\ attn\_val=s*x ;\text{ (b,c,n)} \\ attn\_val=reshape(attn\_val ) ;\text{ (b,c,w,h)} \\ out=attn\_val+x ;\text{ (b,c,w,h)} \\$

具体用法

消融实验

CBAM: Convolutional Block Attention Module

2018年论文地址：https://arxiv.org/abs/1807.06521 csdn论文简读地址：https://blog.csdn.net/ITOMG/article/details/88804936

CBAM block

先对feature map做通道上的attention（将atten_val与feature map相乘），在做空间上的attention（将atten_val与feature map相乘）

Chanel Attention Module

计算方法：
初始化模块weight
$MLP=fc1\_fc2\_fc3$

计算过程,输入为x，输出为out。
$;\text{ (b,c,1,1)} \\ max=GlobalMaxPool(x) ;\text{ (b,c,1,1)} \\ avg=MLP(avg) ;\text{ (b,c,1,1)} \\ max=MLP(max) ;\text{ (b,c,1,1)} \\ out=sigmoid(max+avg) ;\text{ (b,c,1,1)} \\$
这里输出的只是一个attention map，并不是做完attention后输出的值。

Spatial Attention Module

计算方法：
初始化模块weight
$C o n v = co n v (2, 1, k s i ze = 3, p a dd in g = 1, bia s = N o n e)$

计算过程,输入为x，输出为out。
$;\text{ (b,1,w,h)} \\ max=MaxPool(x,dim=1) ;\text{ (b,1,w,h)} \\ cat=concat([avg,max],dim=1) ;\text{ (b,2,w,h)} \\ cat=Conv(cat) ;\text{ (b,1,w,h)} \\ out=sigmoid(cat) ;\text{ (b,1,w,h)} \\$
这里输出的只是一个attention map，并不是做完attention后输出的值。

实施效果

Attention U-Net: Learning Where to Look for the Pancreas

2019年论文地址：https://arxiv.org/pdf/1804.03999.pdf
csdn论文简读地址：https://blog.csdn.net/yumaomi/article/details/124866235

Attention U-Net结果如下图所示，与正常的unet网络相比，多了一个Attention Gate结构，同时用Attention Gate的输出替代了skip_connet的原始输出

Attention Gate

用于unet结构中skip_connet输出和encodeer_conv输出间的attention，用其结果替代skip_connet的输出。其中g为skip_connet的输出， $x^l$ 为encodeer_conv的输出。

计算方法：
初始化各个block的weight
$W_g=conv\_bn \\ W_x=conv\_bn \\ ATs=conv\_bn\_sigmoid \\$
计算过程
$g=W_g(g) ;\text{ (b,c,w,h)} \\ x=W_x(x^l) ;\text{ (b,c,w,h)} \\ ats=ATs(relu(g+x)) ;\text{ (b,c,w,h)} \\ out=ats*x^l ;\text{ (b,c,w,h)} \\$

实时效果

Self-Attention Generative Adversarial Networks

2019年论文地址：https://arxiv.org/abs/1805.08318 csdn简读地址 https://hpg123.blog.csdn.net/article/details/126417621

Self-Attention

计算方法：
初始化模块weight
$\\ G=conv(ksize=1) \\ H=conv(ksize=1) \\ gamma=zeros(1) \\$

计算过程,输入为x，输出为out。
$;\text{ (b,c,w,h)} \\ g=G(x) ;\text{ (b,c,w,h)} \\ h=H(avg) ;\text{ (b,c,w,h)} \\ f=reshape(f) ;\text{ (b,c,n)} \\ g=reshape(g) ;\text{ (b,c,n)} \\ h=reshape(h) ;\text{ (b,c,n)} \\ attn\_map=softmax(bmm(f^T,g)) ;\text{ (b,n,n)} \\ attn\_value=h*attn\_map ;\text{ (b,c,n)} \\ out=attn\_value*h \\ out=out*gama+x$
在这里gama是一个可训练的权重，一开始为0，表示对于attention阶段结果的采用率为0，随着训练过程的变化gaam会不断发生变化。

实施效果

CCNet：Criss-Cross Attention for semantic Segmentation

针对self-attention内存计算庞大提出的结构，以两次十字架结构的attention取代全局attention。

Criss-Cross Attention

发表时间：2018 论文地址：https://arxiv.org/abs/1811.11721 csdn简读地址：https://blog.csdn.net/qq_37935516/article/details/99691994
一种十字交叉提取self-attention的结构，是针对non-local block结构（经典的self-attention结构）太占内存所提出的。经典的self-attention结构中，attention-map的shape为(b,n,n), 这样的矩阵直接与x相乘会导致空间占用暴涨。因此提出先进行height的self-attention，在进行width的self-attention，这样子可以将attention-map的shape减小hight或width倍。

在使用过程中需要连续的两个Criss-Cross Attention才能将十字架结构的attention-map作用到全局，因为一次Criss-Cross Attention只能将注意力按照水平或者垂直方向传递，两次之后它就可以斜向传递。

实现代码

代码中INF函数好像没有其他作用，个人认为是可以删除的。

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.nn import Softmax


def INF(B,H,W):
     return -torch.diag(torch.tensor(float("inf")).cuda().repeat(H),0).unsqueeze(0).repeat(B*W,1,1)


class CrissCrossAttention(nn.Module):
    """ Criss-Cross Attention Module"""
    def __init__(self, in_dim):
        super(CrissCrossAttention,self).__init__()
        self.query_conv = nn.Conv2d(in_channels=in_dim, out_channels=in_dim//8, kernel_size=1)
        self.key_conv = nn.Conv2d(in_channels=in_dim, out_channels=in_dim//8, kernel_size=1)
        self.value_conv = nn.Conv2d(in_channels=in_dim, out_channels=in_dim, kernel_size=1)
        self.softmax = Softmax(dim=3)
        self.INF = INF
        self.gamma = nn.Parameter(torch.zeros(1))


    def forward(self, x):
        m_batchsize, _, height, width = x.size()
        proj_query = self.query_conv(x)
        proj_query_H = proj_query.permute(0,3,1,2).contiguous().view(m_batchsize*width,-1,height).permute(0, 2, 1)
        proj_query_W = proj_query.permute(0,2,1,3).contiguous().view(m_batchsize*height,-1,width).permute(0, 2, 1)
        proj_key = self.key_conv(x)
        proj_key_H = proj_key.permute(0,3,1,2).contiguous().view(m_batchsize*width,-1,height)
        proj_key_W = proj_key.permute(0,2,1,3).contiguous().view(m_batchsize*height,-1,width)
        proj_value = self.value_conv(x)
        proj_value_H = proj_value.permute(0,3,1,2).contiguous().view(m_batchsize*width,-1,height)
        proj_value_W = proj_value.permute(0,2,1,3).contiguous().view(m_batchsize*height,-1,width)
        energy_H = (torch.bmm(proj_query_H, proj_key_H)+self.INF(m_batchsize, height, width)).view(m_batchsize,width,height,height).permute(0,2,1,3)
        energy_W = torch.bmm(proj_query_W, proj_key_W).view(m_batchsize,height,width,width)
        concate = self.softmax(torch.cat([energy_H, energy_W], 3))

        att_H = concate[:,:,:,0:height].permute(0,2,1,3).contiguous().view(m_batchsize*width,height,height)
        #print(concate)
        #print(att_H) 
        att_W = concate[:,:,:,height:height+width].contiguous().view(m_batchsize*height,width,width)
        out_H = torch.bmm(proj_value_H, att_H.permute(0, 2, 1)).view(m_batchsize,width,-1,height).permute(0,2,3,1)
        out_W = torch.bmm(proj_value_W, att_W.permute(0, 2, 1)).view(m_batchsize,height,-1,width).permute(0,2,1,3)
        #print(out_H.size(),out_W.size())
        return self.gamma*(out_H + out_W) + x



if __name__ == '__main__':
    model = CrissCrossAttention(64)
    x = torch.randn(2, 64, 5, 6)
    out = model(x)
    print(out.shape)

实施效果

循环次数探索

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0RwKqQTw-1661480735273)(2022-08-25-17-30-29.png)]

Interlaced Sparse Self-Attention for Semantic Segmentation

发表时间：2019
论文链接：https://arxiv.org/abs/1907.12273
csdn简读地址：https://blog.csdn.net/weixin_43578873/article/details/105556655

提出了一种基于自注意力机制的称为交叉稀疏自注意力方法（interlaced sparse self-attention）来提升语义分割中的效率。该方法的主要思想是将密集相似矩阵分解为两个稀疏相似矩阵的乘积。用两个连续的注意模块，每个模块估算一个稀疏的相似矩阵。第一个注意模块用来估计有着较长空间间距距离的position子集的相似性，第二个注意模块用来估计有着较短空间间隔距离的position子集的相似性。设计这两个注意模块使得每个位置都能接收到来自其他所有位置的信息。与一些原始的自注意力模型相比，我们的方法减少了计算力和内存复杂度，特别是处理高分辨率特征图时。我们通过实验验证了该方法在六个具有挑战性的语义分割基准上的有效性。

Interlaced Sparse Self-Attention

交错稀疏自注意力的核心是将密集相似矩阵X分解两次，得到稀疏相似矩阵 $X^L$ 和 $X^S$ ，每次针对稀疏近似矩阵进行self-attention

Long-range Attention 的重点是在具有较长空间距离的子集上应用Self-attention。

Short-range Attention 的重点是在具有较短空间距离的子集上应用Self-attention。

实现过程

其实现过程的代码如下所示，其本质就是对数据进行reshape操作，减小Self-attention做矩阵乘法时的attention-map的大小。通过对数据的重排列，得到长距离的Self-attention和短距离的Self-attention。

实施效果

语义分割

实例分割

扩展研究

主要研究做attention的顺序和patch size，作者没有上patch size的效果表，只是简单说明patch size为8时性能较好

Efficient Attention: Attention with Linear Complexities

发表时间：2020
论文链接：https://arxiv.org/pdf/1812.01243.pdf
csdn简读地址：https://blog.csdn.net/gesshoo/article/details/123582284

点积注意在计算机视觉和自然语言处理中有着广泛的应用。然而，其内存和计算成本随输入大小呈二次增长。这种增长阻碍了其在高分辨率输入上的应用。为了弥补这一缺陷，本文提出了一种新的高效注意机制，该机制相当于点积注意，但其内存和计算成本大大降低。其资源效率允许将注意力模块更广泛、更灵活地集成到网络中，从而提高准确性。实证评估证明了其优势的有效性。高效的注意力模块为MS-COCO 2017上的对象检测器和实例分段器带来了显著的性能提升。此外，资源效率使对复杂模型的注意力民主化，在复杂模型中，高成本禁止使用点积注意力。作为一个例子，一个高效的模型在场景流数据集上实现了最先进的立体深度估计精度。

Efficient Attention

演变过程

基本对比

内存消耗对比

资源消耗对比

实施效果

spatial-reduction attention

PVT中的spatial-reduction attention与segformer中的Efficient Self-Attention基本上是一模一样的

spatial-reduction Attention

编码器的主要计算瓶颈是Self-Attention层。在原始的多头自注意过程中，每个头Q、K、V具有相同的维度N×C，其中N=H×W为序列的长度，自注意估计为：
$Attention(Q,K,V)=Softmax(\frac{QK^T}{\sqrt{d_{head}}})V \tag{1}$
该过程的计算复杂度为 $O(n^2)$ ，这对于大的图像分辨率是禁止的。相反，我们使用了在[8]中引入的序列缩减过程。此过程使用还原比R来减少序列的长度如下：
$K'=Reshape(\frac{N}{R},C·R)(K) \\ \tag{2} K=Linear(C·R,C)(K') \\ \\ V'=Reshape(\frac{N}{R},C·R)(V) \\ V=Linear(C·R,C)(V')$
其中K与V是要减少的序列， $K'=Reshape(\frac{N}{R},C·R)(K)$ 表示重塑K为形状为 $\frac{N}{R}×(C·R)$ ， $Linear(C_{in}，C_{out})(·)$ 表示线性层，以一个顺维张量作为输入，生成一个 $C_{out}$ 维张量作为输出。因此，新的K的维数为 $(\frac{N}{R},C)$ ，因此，自注意机制的复杂性从 $O(n^2)$ 降低到 $O(\frac{n^2}{R})$ 。在我们的实验中，我们从第一阶段到第四阶段将R设置为[64,16,4,1]。

具体实现代码

PVT中 spatial-reduction Attention的实现方式可以参考，https://blog.csdn.net/xiaohu2022/article/details/115445923。
下面参考了mmseg中segformer中Efficient Self-Attention的实现方式，这与原文中描述存在不同（与PVT中 spatial-reduction Attention中实现方式一模一样）。这里是通过控制卷积的stride来进行维度缩减。

    self.sr_ratio = sr_ratio
    if sr_ratio > 1:
        self.sr = Conv2d(
            in_channels=embed_dims,
            out_channels=embed_dims,
            kernel_size=sr_ratio,
            stride=sr_ratio)
        #将W*H的数据通过卷积变为(W/sr_ratio)*(H/sr_ratio)
        # The ret[0] of build_norm_layer is norm name.
        self.norm = build_norm_layer(norm_cfg, embed_dims)[1]

    # handle the BC-breaking from https://github.com/open-mmlab/mmcv/pull/1418 # noqa
    from mmseg import digit_version, mmcv_version
    if mmcv_version < digit_version('1.3.17'):
        warnings.warn('The legacy version of forward function in'
                      'EfficientMultiheadAttention is deprecated in'
                      'mmcv>=1.3.17 and will no longer support in the'
                      'future. Please upgrade your mmcv.')
        self.forward = self.legacy_forward

def forward(self, x, hw_shape, identity=None):
    x_q = x
    if self.sr_ratio > 1:
        x_kv = nlc_to_nchw(x, hw_shape)
        x_kv = self.sr(x_kv)
        x_kv = nchw_to_nlc(x_kv)
        x_kv = self.norm(x_kv)
    else:
        x_kv = x

    if identity is None:
        identity = x_q

    # Because the dataflow('key', 'query', 'value') of
    # ``torch.nn.MultiheadAttention`` is (num_query, batch,
    # embed_dims), We should adjust the shape of dataflow from
    # batch_first (batch, num_query, embed_dims) to num_query_first
    # (num_query ,batch, embed_dims), and recover ``attn_output``
    # from num_query_first to batch_first.
    if self.batch_first:
        x_q = x_q.transpose(0, 1)
        x_kv = x_kv.transpose(0, 1)

    out = self.attn(query=x_q, key=x_kv, value=x_kv)[0]

    if self.batch_first:
        out = out.transpose(0, 1)

    return identity + self.dropout_layer(self.proj_drop(out))

深度学习500问阅读笔记——监督学习有哪些步骤？ Tiám青年深度学习500问
这是深度学习500问系列笔记之一，帮助我深入记忆知识，如有不足，随时欢迎交流和探讨。4.监督学习有哪些步骤？监督式学习：监督学习是使用已知正确答案的示例来训练网络。每组训练数据有一个明确的标识或结果，想象一下，我们可以训练一个网络，让其从照片库中（其中包含气球的照片）识别出气球的照片。以下就是在这个假设场景中所要采取的步骤。步骤1：数据集的创建和分类首先，浏览你的照片（数据集），确定所有包含气球的
《深度学习500问》外链笔记 Vincent不是文森特笔记
1.这个是什么意思2.核函数3.公式理解4.L1和L2正则L1和L2正则化是机器学习中常用的两种正则化技术，它们通过在损失函数中添加一个惩罚项来防止模型过拟合。这两种技术的主要区别在于惩罚项的形式。L1正则化（Lasso正则化）L1正则化通过向损失函数添加权重的绝对值的总和来工作L1正则化的效果之一是它倾向于产生稀疏的权重矩阵，即模型中很多权重会变为0，这有助于特征选择，因为模型会忽略不那么重要的
《深度学习 500 问》已更新，GitHub 标星 2.6W 布客飞龙
来源：Datawhale几个月前，红色石头发文介绍过一份在GitHub上非常火爆的项目，名为：DeepLearning-500-questions，中文译名：深度学习500问。作者是川大的一名优秀毕业生谈继勇。该项目以深度学习面试问答形式，收集了500个问题和答案。内容涉及了常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题。该热门项目一直在不断更新，作者本着开源精神，不断有新的贡
知识储备--基础算法篇-二分搜索 Orange_sparkle python 算法
1.前言最近准备开始刷算法题了，搜了很多相关的帖子，下面三个很不错，计算机视觉秋招准备过程看这个：计算机视觉算法工程师-秋招面经-知乎(zhihu.com)https://zhuanlan.zhihu.com/p/399813916复习深度学习相关知识看深度学习500问：深度学习500问(github.com)https://github.com/scutan90/DeepLearning-500
机器学习资料汇总达微
机器学习资料汇总1.《深度学习500问》川大优秀毕业生在GitHub上创建的项目《深度学习500问》地址：https://github.com/scutan90/DeepLearning-500-questions2.《TensorFlow-Course》针对新手的TensorFlow教程地址：https://github.com/open-source-for-science/TensorFlo
机器学习资料汇总达微
机器学习资料汇总https://github.com/loveunk/machine-learning-deep-learning-noteshttps://github.com/loveunk/Deep-learning-books1.《深度学习500问》川大优秀毕业生在GitHub上创建的项目《深度学习500问》地址：https://github.com/scutan90/DeepLearni
强化学习（一）：强化学习浅谈慕阮深度学习强化学习
最近接触强化学习，发现非常有意思，强化学习多是一种动态规划的思路，使用生活化语言描述，就叫做：实践出真知。相较于有监督和无监督的学习，强化学习更多地是在决策产生结果的反馈基础上进行不断的优化。（在决策结果反馈前，有监督和无监督学习已经固定了决策方案）。强化学习的使用场景（摘自：深度学习500问-强化学习）：（1）Manufacturing例如一家日本公司Fanuc，工厂机器人在拿起一个物体时，会捕
深度学习（十四）：数据增强Data Augmentation 打不死的小黑深度学习计算机视觉深度学习计算机视觉数据增强图像处理
这是一系列深度学习的介绍，本文不会涉及公式推导，主要是一些算法思想的随笔记录。适用人群：深度学习初学者，转AI的开发人员。编程语言：Python参考资料：吴恩达老师的深度学习系列视频吴恩达老师深度学习笔记整理深度学习500问唐宇迪深度学习入门视频课程笔记下载：深度学习个人笔记完整版为什么要使用数据增强数据增强，也称数据扩充，没有大量数据情况下，如何获取更多数据。数据增强是指通过对现有样本的变换来获
干货丨深度迁移学习方法的基本思路（文末送书）风度78 神经网络大数据计算机视觉机器学习人工智能
百度前首席科学家、斯坦福大学副教授吴恩达（AndrewNg）曾经说过：迁移学习将是继监督学习之后的下一个促使机器学习成功商业化的驱动力。本文选自《深度学习500问：AI工程师面试宝典》，将重点介绍目前最热门的深度迁移学习方法的基本思路。▼限时5折，扫码了解详情▼▼随着迁移学习方法的大行其道，越来越多的研究人员开始使用深度神经网络进行迁移学习。与传统的非深度迁移学习方法相比，深度迁移学习直接提升了在
周志华《机器学习》书每章思维导图总结 Liao-Zhuolin 笔记机器学习
周志华《机器学习》第一章绪论第二章模型评估与选择第三章线性模型第四章决策树第五章神经网络第六章支持向量机第七章贝叶斯分类器第八章集成学习第九章聚类第十章降维与度量学习第十一章特征选择与稀疏表示第十二章计算学习理论第十三章半监督学习第十四章概率图模型第十五章规则学习第十六章强化学习深度学习500问第一章：数学基础第二章：机器学习基础
深度学习（十二）：经典CNN 打不死的小黑深度学习计算机视觉深度学习计算机视觉 CNN 卷积神经网络经典CNN
这是一系列深度学习的介绍，本文不会涉及公式推导，主要是一些算法思想的随笔记录。适用人群：深度学习初学者，转AI的开发人员。编程语言：Python参考资料：吴恩达老师的深度学习系列视频吴恩达老师深度学习笔记整理深度学习500问笔记下载：深度学习个人笔记完整版CNN网络发展CNN受生物自然视觉认知机制启发而来。1959年，Hubel&Wiesel发现，动物视觉皮层细胞负责检测光学信号。受此启发，198
深度学习500问 jk英菲尼迪斯坦福_CS231
项目地址：https://github.com/scutan90/DeepLearning-500-questions第一章数学基础11.1标量、向量、张量之间的联系11.2张量与矩阵的区别？11.3矩阵和向量相乘结果11.4向量和矩阵的范数归纳11.5如何判断一个矩阵为正定？21.6导数偏导计算31.7导数和偏导数有什么区别？31.8特征值分解与特征向量31.9奇异值与特征值有什么关系？41.1
【AI书籍】深度学习500问——AI工程师面试宝典，机器视觉CV 人工智能算法编程语言深度学习机器学习
欢迎大家来到我们《AI书籍》专栏，这一个专栏是面向所有对人工智能技术感兴趣的朋友。在这个专栏里，我们会给大家推荐人工智能相关的优质书籍。今天要推荐的书籍是《深度学习500问——AI工程师面试宝典》作者&编辑|Leong深度学习500问——AI工程师面试宝典这是一本什么样的书本书系统地描述了深度学习的基本理论算法及应用，凝聚了众多一线科研人员及工程师的经验，旨在培养读者发现问题、解决问题、扩展问题的
每日一问之为什么创建这个系列 caoqi95
每日一问系列是参照GitHub上daily-question以及深度学习500问这两个Repo或者其他地方的各种问题来测验自己的掌握水平的，顺带着整理一些相关知识点。在此，感谢Repo作者的辛苦整理。不妥则删。同时，建立这个系列也是为了记录自己的缺陷以及每日的进步。且不想再继续懒下去了，要改邪归正，争取做一个理论，代码都很厉害（即使不厉害，起码也要够的上合格）的人。再者，建立这个系列也是今天突然想
干货丨深度迁移学习方法的基本思路博文视点人工智能深度学习
百度前首席科学家、斯坦福大学副教授吴恩达（AndrewNg）曾经说过：迁移学习将是继监督学习之后的下一个促使机器学习成功商业化的驱动力。本文选自《深度学习500问：AI工程师面试宝典》，将重点介绍目前最热门的深度迁移学习方法的基本思路。限时5折▼随着迁移学习方法的大行其道，越来越多的研究人员开始使用深度神经网络进行迁移学习。与传统的非深度迁移学习方法相比，深度迁移学习直接提升了在不同任务上的学习效
5_参考的书、网站、代码、文档与数据集 kk_land
文章目录书文章资源代码数据集书《Python编程从入门到实践》《Python深度学习》《深度学习500问》不让转载，自己上github找哈《模式识别（张学工版）》《高超声速飞行器技术（蔡国飙）》《吴恩达机器学习笔记》文章如何使用学习曲线来诊断你的LSTM模型的行为基于LSTM的轴承故障诊断这篇文章中，LSTM准确率始终无法稳定，结合0221内容找一找确切原因。数据处理的方式是一个样本400个采样点
深度学习（十五）：目标定位 Object Localization 打不死的小黑深度学习计算机视觉深度学习计算机视觉
这是一系列深度学习的介绍，本文不会涉及公式推导，主要是一些算法思想的随笔记录。适用人群：深度学习初学者，转AI的开发人员。编程语言：Python参考资料：吴恩达老师的深度学习系列视频吴恩达老师深度学习笔记整理深度学习500问笔记下载：深度学习个人笔记完整版图像分类图片分类问题已经并不陌生了，例如，输入一张图片到多层卷积神经网络，它会输出一个特征向量，并反馈给softmax单元来预测图片类型。目标定
深度学习500问阅读笔记——Batch_Size Tiám青年深度学习500问
这是深度学习500问系列笔记之一，帮助我深入记忆知识，如有不足，随时欢迎交流和探讨。10.Batch_Size1.为什么需要Batch_Size？Batch的选择，首先决定的是下降的方向。如果数据集比较小，可采用全数据集的形式，好处是：（1）由全数据集确定的方向能够更好地代表样本的总体，从而更准确地朝向极值所在的方向。（2）由于不同权重的梯度值差别巨大，因此选取一个全局的学习率很困难。FullBa
深度学习500问阅读笔记——理解One Hot Encodeing原理及作用？ Tiám青年深度学习500问
这是深度学习500问系列笔记之一，帮助我深入记忆知识，如有不足，随时欢迎交流和探讨。11.理解OneHotEncodeing原理及作用？问题由来在很多机器学习任务中，特征并不总是连续值，而有可能是分类值。例如，考虑以下的三个特征：["male","female"]["fromEurope","fromUS","fromAsia"]["useFirefox","usesChrome","usesSa
深度学习（十八）：人脸验证（face verification）和人脸识别（face recognition）打不死的小黑深度学习计算机视觉
这是一系列深度学习的介绍，本文不会涉及公式推导，主要是一些算法思想的随笔记录。适用人群：深度学习初学者，转AI的开发人员。编程语言：Python参考资料：吴恩达老师的深度学习系列视频吴恩达老师深度学习笔记整理深度学习500问笔记下载：深度学习个人笔记完整版人脸验证（faceverification）和人脸识别（facerecognition）人脸验证问题：如果你有一张输入图片，以及某人的ID或者是
深度学习概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题南通SEO 文档手册
深度学习500问，以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述，以帮助自己及有需要的读者。全书分为15个章节，近20万字第一章数学基础11.1标量、向量、张量之间的联系11.2张量与矩阵的区别？11.3矩阵和向量相乘结果11.4向量和矩阵的范数归纳11.5如何判断一个矩阵为正定？21.6导数偏导计算31.7导数和偏导数有什么区别？31.8特征值分解与特征向
每日一问之为什么创建这个系列 caoqi95 每日一问
每日一问系列是参照GitHub上daily-question以及深度学习500问这两个Repo或者其他地方的各种问题来测验自己的掌握水平的，顺带着整理一些相关知识点。在此，感谢Repo作者的辛苦整理。不妥则删。同时，建立这个系列也是为了记录自己的缺陷以及每日的进步。且不想再继续懒下去了，要改邪归正，争取做一个理论，代码都很厉害（即使不厉害，起码也要够的上合格）的人。再者，建立这个系列也是今天突然想
重磅！《深度学习 500 问》已更新，GitHub 标星 2.6W（附完整下载）红色石头Will
点击上方“AI有道”，选择“星标”公众号重磅干货，第一时间送达几个月前，红色石头发文介绍过一份在GitHub上非常火爆的项目，名为：DeepLearning-500-questions，中文译名：深度学习500问。作者是川大的一名优秀毕业生谈继勇。该项目以深度学习面试问答形式，收集了500个问题和答案。内容涉及了常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题。该热门项目一直在不
（2）机器学习基础（深度学习500问） knitzj deep learning theory
=======================================================================（1）监督学习：有数据和标签，学习一个模型预测一个输出（决策函数）应用：分类问题，回归问题常见算法：逻辑回归，反向传递神经网络（2）非监督学习：有数据无标签应用：推断数据内部结构，关联规则，聚类常见算法：Apriori算法，k-Means算法（3）半监督学习
[资源分享] Github上八千Star的深度学习500问教程 spearhead_cai
本文大约600字，阅读大约需要2分钟这周要分享的一个资源是来自Github上的已经有八千多Star的一个深度学习知识总结，如下图所示：其Github地址为：https://github.com/scutan90/DeepLearning-500-questions它目前是有16个章节，包含了数学基础、机器学习、深度学习、CNN、RNN、计算机视觉等，以及最新添加的NLP，即自然语言处理方面的知识总
川大优秀毕业生在GitHub上建了一个项目《深度学习500问》，还未完结就获赞无数 zl1zl2zl3 深度学习人工智能 AI 深度学习人工智能 AI
近年来，深度学习在语音、图像、自然语言处理等领域都取得了非常不错的成果，自然而然地成为技术人员争相学习的热点。为了帮助正在学习深度学习的伙伴们，川大的一名优秀毕业生，在GitHub上创建了一个项目：《深度学习500问》，通过问答的形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述，以帮助自己及有需要的读者。全书分为15个章节，近20万字。截至今日，该项目已经获得了21
深度学习500问记录-机器学习1 ys1305 500问系列
500问地址常用术语Truepositives(TP):被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数；Falsepositives(FP):被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数；Falsenegatives(FN):被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数；Truenegatives(TN):被正确地划分为负例的个数，即
深度学习500问郭明君技术博客
深度学习500问Referenceshttps://github.com/scutan90/DeepLearning-500-questions01.数学基础02.机器学习基础ROC曲线SVM（supportvectormachine)参考1：https://blog.csdn.net/Love_wanling/article/details/69390047参考2：https://blog.cs
深度学习领域的神文(带注释版) weixin_42774642 机器学习
综合重磅！深度学习500问更新，GitHub2.6W星（附完整下载）-红色石头的文章-知乎https://zhuanlan.zhihu.com/p/71979604神经网络与深度学习(github,国人总结整理的)https://nndl.github.io/这是作者多年以来学习总结的笔记，经整理之后开源于世。写得相当好:http://www.huaxiaozhuan.com/FasterR-CN
《深度学习500问》之【数学基础篇】——学习笔记（一）陆月二三深度学习深度学习500问
本文参考由哈工大博士生-袁笛、同济大学-乔成磊先生所著的《深度学习500问》而写的学习笔记。学海无涯，笔者不才，望多包涵！一、标量、向量、矩阵、张量标量（scalar)一个标量表示一个单独的数，它不同于线性代数中研究的其他大部分对象（通常是多个数的数组），只有大小，没有方向。我们用斜体表示标量。标量通常被赋予小写的变量名称。向量（vector）一个向量表示一组有序排列的数。通过次序中的索引，我们可
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

深度学习视觉领域中的attention机制的汇总解读（self-attention、交叉self-attention、ISSA、通道注意、空间注意、位置注意、Efficient Attention等）

self-attention的简单描述

Dual Attention Network for Scene Segmentation

位置注意模块

通道注意模块

具体用法

消融实验

CBAM: Convolutional Block Attention Module

CBAM block

Chanel Attention Module

Spatial Attention Module

实施效果

Attention U-Net: Learning Where to Look for the Pancreas

Attention Gate

实时效果

Self-Attention Generative Adversarial Networks

Self-Attention

实施效果

CCNet：Criss-Cross Attention for semantic Segmentation

Criss-Cross Attention

实现代码

实施效果

Interlaced Sparse Self-Attention for Semantic Segmentation

Interlaced Sparse Self-Attention

实现过程

实施效果

语义分割

实例分割

扩展研究

同类对比

Efficient Attention: Attention with Linear Complexities

Efficient Attention

演变过程

基本对比

内存消耗对比

资源消耗对比

实施效果

spatial-reduction attention

spatial-reduction Attention

具体实现代码

你可能感兴趣的:(深度学习500问)