周先森爱吃素

CoordAttention解读

简介

在轻量级网络上的研究表明，通道注意力会给模型带来比较显著的性能提升，但是通道注意力通常会忽略对生成空间选择性注意力图非常重要的位置信息。因此，新加坡国立大学的Qibin Hou等人提出了一种为轻量级网络设计的新的注意力机制，该机制将位置信息嵌入到了通道注意力中，称为coordinate attention（简称CoordAttention，下文也称CA），该论文已被CVPR2021收录。不同于通道注意力将输入通过2D全局池化转化为单个特征向量，CoordAttention将通道注意力分解为两个沿着不同方向聚合特征的1D特征编码过程。这样的好处是可以沿着一个空间方向捕获长程依赖，沿着另一个空间方向保留精确的位置信息。然后，将生成的特征图分别编码，形成一对方向感知和位置敏感的特征图，它们可以互补地应用到输入特征图来增强感兴趣的目标的表示。

CoordAttention简单灵活且高效，可以插入经典的轻量级网络（如MobileNetV2）在几乎不带来额外计算开销的前提下，提升网络的精度。实验表明，CoordAttention不仅仅对于分类任务有不错的提高，对目标检测、实例分割这类密集预测的任务，效果提升更加明显。

论文标题

Coordinate Attention for Efficient Mobile Network Design
论文地址

http://arxiv.org/abs/2103.02907
论文源码

https://github.com/Andrew-Qibin/CoordAttention

介绍

注意力机制常用来告诉模型需要更关注哪些内容和哪些位置，已经被广泛使用在深度神经网络中来加强模型的性能。然而，在模型容量被严格限制的轻量级网络中，注意力的应用是非常滞后的，这主要是因为大多数注意力机制的计算开销是轻量级网络负担不起的。

考虑到轻量级网络有限的计算能力，目前最流行的注意力机制仍然是SENet提出的SE Attention。如上图所示，它通过2D全局池化来计算通道注意力，在相当低的计算成本下提供了显著的性能提升。遗憾的是，SE模块只考虑了通道间信息的编码而忽视了位置信息的重要性，而位置信息其实对于很多需要捕获目标结构的视觉任务至关重要。因此，后来CBAM等方法通过减少通道数继而使用大尺寸卷积来利用位置信息，如下图所示。然而，卷积仅仅能够捕获局部相关性，建模对视觉任务非常重要的长程依赖则显得有些有心无力。

因此，这篇论文的作者提出了一种新的高效注意力机制，通过将位置信息嵌入到通道注意力中，使得轻量级网络能够在更大的区域上进行注意力，同时避免了产生大量的计算开销。为了缓解2D全局池化造成的位置信息丢失，论文作者将通道注意力分解为两个并行的1D特征编码过程，有效地将空间坐标信息整合到生成的注意图中。更具体来说，作者利用两个一维全局池化操作分别将垂直和水平方向的输入特征聚合为两个独立的方向感知特征图。然后，这两个嵌入特定方向信息的特征图分别被编码为两个注意力图，每个注意力图都捕获了输入特征图沿着一个空间方向的长程依赖。因此，位置信息就被保存在生成的注意力图里了，两个注意力图接着被乘到输入特征图上来增强特征图的表示能力。由于这种注意力操作能够区分空间方向（即坐标）并且生成坐标感知的特征图，因此将提出的方法称为坐标注意力（coordinate attention）。

Coordinate Attention

相比此前的轻量级网络上的注意力方法，coordinate attention存在以下优势。首先，它不仅仅能捕获跨通道的信息，还能捕获方向感知和位置感知的信息，这能帮助模型更加精准地定位和识别感兴趣的目标；其次，coordinate attention灵活且轻量，可以被容易地插入经典模块，如MobileNetV2提出的inverted residual block和MobileNeXt提出的 sandglass block，来通过强化信息表示的方法增强特征；最后，作为一个预训练模型，coordinate attention可以在轻量级网络的基础上给下游任务带来巨大的增益，特别是那些存在密集预测的任务（如语义分割）。

一个coordinate attention模块可以看作一个用来增强特征表示能力的计算单元。它可以将任何中间张量 $\mathbf{X}=\left[\mathbf{x}_{1}, \mathbf{x}_{2}, \ldots, \mathbf{x}_{C}\right] \in \mathbb{R}^{C \times H \times W}$ 作为输入并输出一个有着增强的表示能力的同样尺寸的输出 $\mathbf{Y}=\left[\mathbf{y}_{1}, \mathbf{y}_{2}, \ldots, \mathbf{y}_{C}\right]$ 。

SE模块

由于CA（coordinate attention）是基于SENet的思考，所以首先来回顾一下SE Attention（详细关于SENet的解读可以参考我的博文）。标准的卷积操作是很难建立通道之间的关系的，但是显式建模通道之间的关系可以增强模型对信息通道的敏感性，从而对最终的决策产生更多的影响。因此，SE模块对通道关系进行显式建模，取得了突破性的进展。

从上图的结构上来看，SE模块可以分为两步：压缩（squeeze）和激励（excitation），分别用于全局信息的嵌入和自适应通道关系的加权。给定输入 $X$ ，第 $c$ 个通道的squeeze操作可以表述如下式， $z_c$ 就是第 $c$ 个通道的输出。输入 $X$ 来自固定核大小的卷积层，因此可以被看作一堆局部描述的集合。squeeze操作使得模型能够收集全局的信息。

$z_{c}=\frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} x_{c}(i, j)$

SE模块的第二步是excitation操作，旨在完全捕获通道之间的依赖，可以表述如下式，这里的 $\cdot$ 表示逐通道乘法， $\sigma$ 表示Sigmoid函数， $\hat{\mathbf{z}}$ 是通过变换函数生成的，变换函数为 $\hat{\mathbf{z}}=T_{2}\left(\operatorname{ReLU}\left(T_{1}(\mathbf{z})\right)\right)$ ，其中 $T_1$ 和 $T_2$ 表示两个可学习的线性变换，用来捕获每个通道的重要性（对应上图的两个Fully Connected及其中间的部分）。

$\hat{\mathbf{X}}=\mathbf{X} \cdot \sigma(\hat{\mathbf{z}})$

近些年来，SE模块被广泛使用在轻量级网络中，并且成为获得SOTA表现的关键组件。然而，它仅仅考虑了建模通道间的关系来对每个通道加权，忽略了位置信息，而位置信息对生成空间选择性特征图是分外重要的。因此，论文作者设计了一种新的同时考虑通道关系和位置信息的注意力模块，coordinate attention block（CA模块）。

CA模块

CA模块通过精确的位置信息对通道关系和长程依赖进行编码，类似SE模块，也分为两个步骤：坐标信息嵌入（coordinate information embedding）和坐标注意力生成（coordinate attention generation），它的具体结构如下图。

首先，我们来看坐标信息嵌入这部分。全局池化常用于通道注意力中来全局编码空间信息为通道描述符，因此难以保存位置信息。为了促进注意力模块能够捕获具有精确位置信息的空间长程依赖，作者将全局池化分解为一对一维特征编码操作。具体而言，对输入 $X$ ，先使用尺寸 $(H, 1)$ 和 $(1, W)$ 的池化核沿着水平坐标方向和竖直坐标方向对每个通道进行编码，因此，高度为 $h$ 的第 $c$ 个通道的输出表述如下。

$z_{c}^{h}(h)=\frac{1}{W} \sum_{0 \leq izch(h)=W10≤i<W∑xc(h,i)$

类似，宽度为 $w$ 的第 $c$ 个通道的输出表述如下。

$z_{c}^{w}(w)=\frac{1}{H} \sum_{0 \leq jzcw(w)=H10≤j<H∑xc(j,w)$

上面这两个变换沿着两个空间方向进行特征聚合，返回一对方向感知注意力图。这和SE模块产生一个特征向量的方法截然不同，这两种变换也允许注意力模块捕捉到沿着一个空间方向的长程依赖，并保存沿着另一个空间方向的精确位置信息，这有助于网络更准确地定位感兴趣的目标。这个coordinate information embedding操作对应上图的X Avg Pool和Y Avg Pool这个部分。

接着，为了更好地利用上面coordinate information embedding模块产生的具有全局感受野并拥有精确位置信息的表示，设计了coordinate attention generation操作，它生成注意力图，遵循如下三个标准。

首先，对于移动环境中的应用来说，这种转换应该尽可能简单高效；
其次，它可以充分利用捕获到的位置信息，精确定位感兴趣区域；
最后，它还应该能够有效地捕捉通道之间的关系，这是根本。

作者设计的coordinate attention generation操作具体来看，首先级联之前模块生成的两个特征图，然后使用一个共享的1x1卷积进行变换 $F_1$ ，表述如下式，生成的 $\mathbf{f} \in \mathbb{R}^{C / r \times(H+W)}$ 是对空间信息在水平方向和竖直方向的中间特征图，这里的 $r$ 表示下采样比例，和SE模块一样用来控制模块的大小。

$\mathbf{f}=\delta\left(F_{1}\left(\left[\mathbf{z}^{h}, \mathbf{z}^{w}\right]\right)\right)$

接着，沿着空间维度将 $\mathbf{f}$ 切分为两个单独的张量 $\mathbf{f}^{h} \in \mathbb{R}^{C / r \times H}$ 和 $\mathbf{f}^{w} \in \mathbb{R}^{C / r \times W}$ ，再利用两个1x1卷积 $F_{h}$ 和 $F_{w}$ 将特征图 $\mathbf{f}^{h}$ and $\mathbf{f}^{w}$ 变换到和输入 $X$ 同样的通道数，得到下式的结果。

$\begin{aligned} \mathbf{g}^{h} &=\sigma\left(F_{h}\left(\mathbf{f}^{h}\right)\right) \\ \mathbf{g}^{w} &=\sigma\left(F_{w}\left(\mathbf{f}^{w}\right)\right) \end{aligned}$

然后对 $g_h$ 和 $g^w$ 进行拓展，作为注意力权重，CA模块的最终输出可以表述如下式。

$y_{c}(i, j)=x_{c}(i, j) \times g_{c}^{h}(i) \times g_{c}^{w}(j)$

这部分coordinate attention generation对应上图剩余的部分，至此CA模块同时完成了水平方向和竖直方向的注意力，同时它也是一种通道注意力。下面的代码是CoordAttention的官方PyTorch实现，可以集成到现有的模型中。

import torch
import torch.nn as nn


class h_sigmoid(nn.Module):
    def __init__(self, inplace=True):
        super(h_sigmoid, self).__init__()
        self.relu = nn.ReLU6(inplace=inplace)

    def forward(self, x):
        return self.relu(x + 3) / 6


class h_swish(nn.Module):
    def __init__(self, inplace=True):
        super(h_swish, self).__init__()
        self.sigmoid = h_sigmoid(inplace=inplace)

    def forward(self, x):
        return x * self.sigmoid(x)


class CoordAttention(nn.Module):

    def __init__(self, in_channels, out_channels, reduction=32):
        super(CoordAttention, self).__init__()
        self.pool_w, self.pool_h = nn.AdaptiveAvgPool2d((1, None)), nn.AdaptiveAvgPool2d((None, 1))
        temp_c = max(8, in_channels // reduction)
        self.conv1 = nn.Conv2d(in_channels, temp_c, kernel_size=1, stride=1, padding=0)

        self.bn1 = nn.BatchNorm2d(temp_c)
        self.act1 = h_swish()

        self.conv2 = nn.Conv2d(temp_c, out_channels, kernel_size=1, stride=1, padding=0)
        self.conv3 = nn.Conv2d(temp_c, out_channels, kernel_size=1, stride=1, padding=0)

    def forward(self, x):
        short = x
        n, c, H, W = x.shape
        x_h, x_w = self.pool_h(x), self.pool_w(x).permute(0, 1, 3, 2)
        x_cat = torch.cat([x_h, x_w], dim=2)
        out = self.act1(self.bn1(self.conv1(x_cat)))
        x_h, x_w = torch.split(out, [H, W], dim=2)
        x_w = x_w.permute(0, 1, 3, 2)
        out_h = torch.sigmoid(self.conv2(x_h))
        out_w = torch.sigmoid(self.conv3(x_w))
        return short * out_w * out_h

实验

作者采用下图所示的结构进行实验，验证设计的注意力机制的效果，分别是MobileNetV和MobileNeXt设计的两种残差模块。

作者首先对两个方向的必必要性进行验证，结果如下图，显然，两个方向都是必要的，CA模块可以在保证参数量的前提下，提高精度。

接着，进行权重因子的消融实验，下图先后是MobileNetV2和MobileNeXt基础上的结果，CA模块均取得了最好的效果，无论以哪个模型为baseline或者选择怎样的权重因子，CA模块均靠设计上的优越性取得了最好效果。

关于下采样比例也做了实验，CA模块随着r的下调精度上升但是模型变大，依旧表现最佳，鲁棒性很强。

之后，还对SE、CBAM和CA模块注意力结果可视化，大致能看出来CA更能精确关注感兴趣目标。

为了检验所提CA模块的性能，采用EfficientNet-b0作为baseline，作者简单地用CA模块代替SE模块。并和其他同样强大的网络对比，CA模块依旧有着强大的表现。

此外，作者还做了目标检测和语义分割任务上的实验，性能提升更大，由于位置信息的加入，这种依赖位置信息的密集预测效果明显更好，我这里就不贴了。

总结

为了将空间信息加入通道注意力，论文作者设计了Coordinate Attention，在轻量级网络上取得了比较大的成功，它既能捕获通道之间的依赖也能很好地建模位置信息和长程依赖，实验表明其在图像识别、目标检测和语义分割任务上都有不错的改进。

【笔记】扩散模型（七）：Latent Diffusion Models（Stable Diffusion）论文解读与代码实现 LittleNyima Diffusion Models 笔记 stable diffusion AIGC 人工智能
论文链接：High-ResolutionImageSynthesiswithLatentDiffusionModels官方实现：CompVis/latent-diffusion、CompVis/stable-diffusion这一篇文章的内容是LatentDiffusionModels（LDM），也就是大名鼎鼎的StableDiffusion。先前的扩散模型一直面临的比较大的问题是采样空间太大，学
《深入浅出多模态》（九）多模态经典模型：MiniGPT-v2、MiniGPT5 GoAI 深入浅出多模态深入浅出AI 多模态 vllm LLM 大模型 stable diffusion
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：</
人脸识别算法MTCNN论文解读纸上得来终觉浅～图像处理 paper阅读人脸识别 mtcnn
论文名称：JointFaceDetectionandAlignmentusingMulti-taskCascadedConvolutionalNetworks论文地址：https://www.lao-wang.com/wp-content/uploads/2017/07/1604.02878.pdf1、MTCNN原理MTCNN，Multi-taskconvolutionalneuralnetwor
NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL、SQL-PaLM）、新一代数据集BIRD-SQL解读汀、人工智能 LLM工业级落地实践 copilot 人工智能 NL2SQL LLM 自然语言处理 NL2DSL Text2SQL
NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL）、新一代数据集BIRD-SQL解读NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQ
图形学论文笔记 Jozky86 图形学图形学笔记
文章目录PBD：XPBD：shapematchingPBD：【深入浅出NvidiaFleX】(1)PositionBasedDynamics最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码XPBD：基于XPBD的物理模拟一条龙：公式推导+代码+文字讲解（纯自制）【论文精读】XPBD基于位置的动力学XPBD论文解读(
【论文解读】Macroblock Level Rate Control for Low Delay H.264/AVC based Video Communication Codec Conductor 论文解读 #x264 h.264 x264 音视频码率控制视频编解码 AVC
级别：IEEE时间：2015作者：MinGao等机构：哈尔滨工业大学下载：MacroblockLevelRateControlforLowDelayH.264/AVCbasedVideoCommunication摘要算法目的：提出了一种针对低延迟H.264/AVC视频通信的宏块（MB）级别速率控制算法。算法基础：基于ρ域速率模型，该模型涉及量化后零变换系数的百分比（ρ）。关键技术：使用指数模型来描
论文解读：从Dijkstra的On-the-Fly到Go的三色标记算法，并行垃圾回收的起源 liuwill 计算机科学算法后端论文阅读
我们经常听到关于垃圾回收的说法是，某种垃圾回收算法是一种特定语言特有的，容易理解成，垃圾回收的算法跟特定编程语言是绑定的，但是仔细想想，垃圾回收器是一种分配和管理内存的机制或者程序，内存管理跟语言本身是没有必然联系的，只是语言运行时实现时的一种策略选择。更严格来说的，其实不仅仅是垃圾回收策略，一些语言的语法特性，也不是某种语言专属，语言的实现者完全可以通过组合，自己选择自己偏好的策略，发明更多的语
机器人建图算法2.1从栅格占据地图到ESDF地图 RuiH.AI 机器人建图算法学习算法
机器人建图算法2.1从栅格占据地图到ESDF地图前言论文解读示意图说明伪代码说明算法流程总结前言最基础的地图是占据栅格地图Occupancymap，每个格子标明了该位置是否被物体占据。然而对于规划和避障而言，地图中的占据信息是不够的，还需要障碍距离、方向等信息。TSDF和ESDF地图弥补了这个缺陷。IROS2010:ImprovedupdatingofEuclideandistancemapsan
知识图谱最新权威综述论文解读：实体发现 ngl567
上期我们介绍了2020年知识图谱最新权威综述论文《ASurveyonKnowledgeGraphs:Representation,AcquisitionandApplications》的知识图谱补全部分，本期我们将一起学习这篇论文的实体发现部分。论文地址：https://arxiv.org/pdf/2002.00388.pdfarxiv.org1实体发现本节将基于实体的知识获取区分为若干细分任务，
这个论文解读 agent 比GPT-4 还要牛！强烈推荐！夕小瑶人工智能自然语言处理 transformer chatgpt 深度学习神经网络
已经2024年了，该出现一个论文解读AIAgent了。但是目前市面上哪怕最强的GPT-4来做论文解读也是不行，所以我们顺手做了这样一个agent，因为——我们公司的算法同学也需要刷论文啊喂=，=而且我们也经常人工写论文解读嘛，所以干脆就顺手做一个得了，不求赚钱，但求有点用。真正尝试过用gpt去刷论文、写论文解读的小伙伴，一定深有体验——费劲。其他agents也没有能搞定的，所以我们就索性做了个，传
《生产调度优化》专栏导读 Lins号丹生产调度优化生产调度优化
文章分类生产调度优化问题入门相关问题求解调度问题求解效率探讨相关论文解读生产调度优化问题入门文章包含重点简述生产车间调度优化问题两种常用的FJSP模型解析FJSP问题的标准测试数据集的Python代码解析FJSP标准测试数据代码相关问题求解文章求解器问题类型【作业车间调度JSP】通过python调用PuLP线性规划库求解PuLP（开源）作业车间调度JSP【作业车间调度JSP】通过PuLP调用COP
【ChatIE】论文解读：Zero-Shot Information Extraction via Chatting with ChatGPT Bigcrab__ 神经网络 Tensorflow chatgpt 人工智能深度学习
文章目录介绍ChatIEEntity-RelationTripleExtration(RE)NamedEntityRecognition(NER)EventExtraction(EE)实验结果结论论文：Zero-ShotInformationExtractionviaChattingwithChatGPT作者：XiangWei,XingyuCui,NingCheng,XiaobinWang,Xin
FaE：基于符号知识的适应性和可解释的神经记忆 NLP论文解读
©原创作者|朱林论文解读：FactsasExperts:AdaptableandInterpretableNeuralMemoryoverSymbolicKnowledge论文作者：GoogleResearch论文地址：https://arxiv.org/abs/2007.00849收录会议：NAACL202101介绍大规模语言模型，如BERT、Transformer等是现代自然语言建模的核心，其
论文解读：知识图谱融入预训练模型 NLP论文解读深度学习机器学习人工智能自然语言处理知识图谱
©NLP论文解读原创•作者|疯狂的Max背景及动机以BERT为基础的预训练模型在各项NLP任务获得巨大的成功，与此同时，如何在泛化的预训练模型基础上融入某些特定领域的知识图谱以获得在特定领域内让模型有更优秀的表现，这一课题也一直备受关注。然而大部分之前的将知识图谱融入预训练模型的工作都是将知识图谱的知识转化为知识导向的训练任务，通过更新整个模型的参数来进行训练，来实现知识图谱的融入。这种方法虽然可
知识增广的预训练语言模型K-BERT：将知识图谱作为训练语料 NLP论文解读知识图谱语言模型 bert
©原创作者|杨健论文标题：K-BERT:EnablingLanguageRepresentationwithKnowledgeGraph收录会议：AAAI论文链接：https://ojs.aaai.org/index.php/AAAI/article/view/5681项目地址：https://github.com/autoliuweijie/K-BERT01背景论述笔者在前面的论文解读中提到过E
HybridA* 论文解读 Big David 自动驾驶规划系列论文阅读笔记 Hybrid A*论文阅读混合Astar
本文旨在对原论文进行翻译，对混合A*有一个大概的理解论文题目：PracticalSearchTechniquesinPathPlanningforAutonomousDriving1摘要本文描述了一个实用的路径规划算法，无人驾驶汽车在未知的环境中，障碍物通过机器人的传感器实时检测产生平滑的路径。这项工作的动机和实验验证了在2007年DARPA城市挑战赛，机器人必须在停车场自主导航。本文的方法有两个
论文解读《Zero-Shot Category-Level Object Pose Estimation》类别级6D位姿估计 ZYLer_ 6D位姿估计人工智能计算机视觉
论文：《Zero-ShotCategory-LevelObjectPoseEstimation》该文整体感觉不难，处理流程比较新颖，可以重点参考。Code：https://github.com/applied-ai-lab/zero-shot-pose（48star）摘要：解决问题：实例级姿态估计的问题。=>**零样本（也就是预测未见过的物体（没有该实例的数据标记和CAD模型），类别级）**预测来
论文解读《Gen6D: Generalizable Model-Free 6-DoF Object Pose Estimation from RGB Images》小样本6D位姿估计 ZYLer_ 6D位姿估计机器学习人工智能计算机视觉 3d 深度学习
论文：《Gen6D:GeneralizableModel-Free6-DoFObjectPoseEstimationfromRGBImages》Code：https://github.com/liuyuan-pal/gen6d（469star）摘要：现有的可推广姿态估计器要么需要高质量的对象模型，要么在测试时需要额外的深度图或对象掩码，这大大限制了其应用范围。为了满足实际应用中的需求，我们认为姿态
论文解读《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》 ZYLer_ 6D位姿估计计算机视觉人工智能 3d
论文：《EPro-PnP:GeneralizedEnd-to-EndProbabilisticPerspective-n-PointsforMonocularObjectPoseEstimation》Code：https://github.com/tjiiv-cprg/epro-pnp（909star）作者的视频简单介绍：https://www.bilibili.com/video/BV13T41
VLM 系列——Llava1.6——论文解读 TigerZ* AIGC算法人工智能 AIGC 深度学习计算机视觉
一、概述1、是什么Llava1.6是llava1.5的升级暂时还没有论文等，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述）。支持单幅图片输入（可以作为第一个或第二个输入），多轮文本对话。本文基于CLIP的视觉编码器，以及多个版本语言解码器，使用最简单的两层FC构成MLP映射视觉特
VLM （MLLM）系列——论文解读总结 TigerZ* AIGC算法深度学习人工智能计算机视觉 AIGC 图像处理算法
建议以下几篇都看一下吧，因为这几篇相对出发点都有新意，并且也都在同期的思南评测中有排名。CLIP*数据：用了4亿的互联网自有图文对数据。*模型：由一个视觉编码器、一个文本编码器*训练：一阶段预训练，在32768的batchsize下做的对比学习。中文CLIP*数据：由LAION5B等构成一个2亿的图文对数据。*模型：整体和CLIP类似，由一个视觉编码器、一个文本编码器。*训练：两阶段预训练，权重来
VLM 系列——MoE-LLaVa——论文解读 TigerZ* AIGC算法深度学习人工智能 AIGC 计算机视觉 transformer
一、概述1、是什么moe-Llava是Llava1.5的改进全称《MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答，潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述），未知是否能偶根据图片写代码（HTML、JS、CSS）。支持单幅图片输入（可以作为第一个或第二个
VLM 系列——LLaVA-MoLE——论文解读 TigerZ* AIGC算法深度学习人工智能 AIGC transformer 计算机视觉
一、概述1、是什么Llava-MoLE是Llava1.5的改进全称《LLaVA-MoLE:SparseMixtureofLoRAExpertsforMitigatingDataConflictsinInstructionFinetuningMLLMs》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答，潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述），未知是否能偶根据图片
【论文解读】Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation Queen_sy 深度学习人工智能
目录1Introduction1Docre任务比句子级任务更具挑战性：2现有的Docre方法：3现有的Docre方法存在三个局限性2Methodology1使用轴向注意力模块作为特征提取器：2第二，提出适应性焦距损失3第三用知识蒸馏相关知识类别不平衡问题长尾类分布交叉熵损失和二元交叉熵损失二元交叉熵损失定义为知识蒸馏全文翻译https://baijiahao.baidu.com/s?id=1737
知识增强的预训练模型简介 NLP论文解读
©NLP论文解读原创•作者|杨健专栏系列概览该专栏主要介绍自然语言处理领域目前比较前沿的领域—知识增强的预训练语言模型。通过解读该主题具备代表性的论文以及对应的代码，为大家揭示当前最新的发展状况。为了能够和大家更好的分享自己的收获，笔者将遵循下面几个原则。1、理论讲解尽量深入浅出，通过举例子或者大白话讲解论文，而非仅针对原文翻译。2、针对论文中一些重要的术语，适时的做出解释。3、理论和实践相结合，
AAAI 2020「自然语言处理（NLP）论文解读」文本简化要素分析 Shu灬下雨天
来源：AINLPer微信公众号编辑:ShuYini校稿:ShuYini时间:2020-2-17TILE:DiscourseLevelFactorsforSentenceDeletioninTextSimpliﬁcation.Contributor:俄亥俄州立大学Paper:https://arxiv.org/abs/1911.10384v1Code:None文章摘要文本简化需要对相关的句子
论文笔记-Generative Adversarial Nets 升不上三段的大鱼
论文链接：https://papers.nips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf论文解读：https://www.bilibili.com/video/BV1rb4y187vD?share_source=copy_web一句话总结：提出了生成模型框架GAN，包括一个生成模型G和一个判别模型D，用有监督的损失
「论文搬运」王亦洲课题组 CVPR 2021 入选论文解读：时间序列疾病预测的因果隐马尔可夫模型 Sternstunden 论文计算机视觉人工智能深度学习 cvpr
本文是对发表于计算机视觉和模式识别领域的顶级会议CVPR2021的论文“CausalHiddenMarkovModelforTimeSeriesDiseaseForecasting（时间序列疾病预测的因果隐马尔可夫模型）”的解读。该论文由北京大学王亦洲课题组与深睿医疗等单位合作，针对时间序列疾病预测的问题，提出了因果隐马尔可夫模型描述疾病的动态发展过程，并使用基于VAE的变分框架进行学习。通过对图
EMNLP 2023精选：Text-to-SQL任务的前沿进展（下篇）——Findings论文解读 Q同学的nlp笔记 sql 人工智能 nlp 自然语言处理深度学习语言模型论文阅读
导语本文记录了今年的自然语言处理国际顶级会议EMNLP2023中接收的所有与Text-to-SQL相关（通过搜索标题关键词查找得到，可能不全）的论文，共计12篇，包含5篇正会论文和7篇Findings论文，以下是对这些论文的略读，某几篇也有详细的笔记（见链接）。由于篇数过多，分为两篇博客记录，本篇为第二篇，主要记录Findings论文：序号类型标题1MainBenchmarkingandImpro
2018年美国大学生数学建模竞赛B题优秀论文解读校苑数模
2018年美赛B题优秀论文解读校苑数模校苑数模今天2018年美赛B题赛题2018MCMProblemB:HowManyLanguages?Background:Therearecurrentlyabout6,900languagesspokenonEarth.Abouthalftheworld’spopulationclaimoneofthefollowingtenlanguages(inorde
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

CoordAttention解读

简介

介绍

Coordinate Attention

SE模块

CA模块

实验

总结

你可能感兴趣的:(论文解读,CoordAttention)