一块猪血糕

阅读笔记：STANet

STANet
- 1.解决的问题
- 2.提出的策略
- 3.框架解读
- - 3.1 特征提取器
  - 3.2 时空关注模块
  - - BAM
    - PAM
  - 3.3 度量模块
  - 3.4 损失层设计
- 4 实现细节
- - 4.1 指标
  - 4.2 LEVIR-CD数据集
  - 4.3 SZTAKI数据集
  - 4.4 训练细节
  - 4.5 baseline比对
- LEVIR-CD:一种新的遥感图像变化检测数据集

STANet

1.解决的问题

给定两幅在不同时间拍摄的共配准图像，光照变化和配准误差淹没了真实物体的变化。

在不同时间拍摄的两幅共配准图像中，光照变化和光照角度变化引起的配准误差压倒了真实物体的变化，对CD算法提出了挑战。从图1a中我们可以看到，两幅图像的对比度和亮度，以及建筑的空间纹理是不同的。在双时相图像中，由于太阳位置的变化，会产生不同的建筑阴影。从图1b可以看出，在两幅共配准图像中，对应建筑物的边缘出现了明显的误配误差。如果不小心处理，它们可能会在未改变的建筑的边界上造成错误的检测。

2.提出的策略

本文提出了一种新的基于孪生网络的时空注意神经网络。与以往方法不同的是，我们利用时空依赖性。

我们设计了一种CD自注意力机制来对时空关系进行建模，在特征提取过程中增加了一个CD自注意力模块。我们的自我注意模块计算任意两个像素在不同时间和位置之间的注意权重，并使用它们来生成更具区别性的特征。
由于目标可能会有不同的尺度，我们将图像分割成多尺度的子区域，并在每个子区域引入自注意，这样就可以在不同尺度捕获时空依赖性，从而生成更好的表示，以适应各种大小的对象。

本文的另一个贡献就是提出一个新的变化检测数据集LEVIR-CD，比该领域的其他公共数据集大两个数量级。

图片来源：双时态谷歌地球图片；

数据集大小：637对1024x1024的图片，超过31k个独立标记的变更实例。

在可接受的计算开销下，我们提出的注意力模块将基线模型的f1得分从83.9提高到87.3。在一个公共遥感图像CD数据集上的实验结果表明，我们的方法优于其他几种先进的方法。

3.框架解读

两个 $H_0*W_0$ d的双时间遥感图像， $I^{(1)}$ ， $I^{(2)}$ ，CD生成一个label Map $M$ ，尺寸和输入图片相同，其中每一个空间位置都需要分配变化的类别(改变为1，不变为0)。

网络由三部分组成;

特征提取器
注意力模块
度量模块

1.首先，将两幅图像依次输入特征提取器(一个FCN，例如没有完全连接层的ResNet )，得到两个特征映射 $X^{(1)}$ ， $X^{(2)}$ ∈ $R^{C×H×W}$ ， $H * W$ 为特征映射大小， $C$ 为每个特征向量通道个数。

2.注意模块将这些特征映射更新为两个注意特征映射 $Z^{(1)}$ 和 $Z^{(2)}$ 。

3.调整更新特性映射到输入图像的大小之后,度量模块计算两个特征图中每个像素对之间的距离，生成distance map D。

4.在训练阶段,我们的模型优化通过计算的distance map和label map的最小化损失,使变化点的距离值大，不变点的距离值小。

5.而在测试阶段，可以通过简单的distance map 阈值计算预测 label map P。

3.1 特征提取器

我们设计了一个类似fcn的特征提取器，基于ResNet-18。

？为什么使用ResNet-18

因为最初的ResNet是为图像分类任务而设计的，它包含一个全局池化层和一个完全连接的层，用于将图像特征映射到1000维向量(ImageNet中类别的数量)。而我们的CD任务是一个密集分类任务，需要获得与输入图像相同大小的change。

因此，我们省略了原ResNet的全局池化层和全连接层。其余部分分为五个阶段;每个人的步幅是2。

CNN的高级特征在语义上是准确的，但在位置上是粗糙的，而低级特征包含精细的细节，但缺乏语义信息。因此，我们融合了高级语义信息和低级空间信息来生成更精细的表示。

我们将最后一个阶段的输出特征映射输入卷积层(C1, 1 × 1/1)，将其维数变换为C1。请注意，卷积层的配置是“滤波器的数量，大小/步幅”，为了简单起见，省略了批标准化(BN)和ReLU层。同样，将第2、3、4阶段的输出特征图分别输入到3个不同的卷积层;每个通道维度都转换为C1。然后，我们将最后三个阶段转换后的特征映射调整为输入图像的1/4大小。

我们从网络的不同阶段得到了4组特征映射。这4个特征图在通道维数上连接(得到4× C1)，并送入两个不同的卷积层(C2, 3× 3/1;C3, 1× 1/1)生成最终特征图。这两个卷积层通过利用局部空间信息和降低特征通道维数可以生成更有区别性和紧凑的表示。在实现中，我们将C1设置为96，C2设置为256，C3设置为64，以在效率和准确性之间进行权衡。

mynet3(
  (backbone): ResNet(
    (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
    (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (relu): ReLU(inplace=True)
    (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
    (layer1): Sequential(
      (0): BasicBlock(
        (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (relu): ReLU(inplace=True)
        (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      )
      (1): BasicBlock(
        (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (relu): ReLU(inplace=True)
        (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      )
    )
    (layer2): Sequential(
      (0): BasicBlock(
        (conv1): Conv2d(64, 128, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
        (bn1): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (relu): ReLU(inplace=True)
        (conv2): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (downsample): Sequential(
          (0): Conv2d(64, 128, kernel_size=(1, 1), stride=(2, 2), bias=False)
          (1): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        )
      )
      (1): BasicBlock(
        (conv1): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn1): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (relu): ReLU(inplace=True)
        (conv2): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      )
    )
    (layer3): Sequential(
      (0): BasicBlock(
        (conv1): Conv2d(128, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
        (bn1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (relu): ReLU(inplace=True)
        (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (downsample): Sequential(
          (0): Conv2d(128, 256, kernel_size=(1, 1), stride=(2, 2), bias=False)
          (1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        )
      )
      (1): BasicBlock(
        (conv1): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (relu): ReLU(inplace=True)
        (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      )
    )
    (layer4): Sequential(
      (0): BasicBlock(
        (conv1): Conv2d(256, 512, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
        (bn1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (relu): ReLU(inplace=True)
        (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (downsample): Sequential(
          (0): Conv2d(256, 512, kernel_size=(1, 1), stride=(2, 2), bias=False)
          (1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        )
      )
      (1): BasicBlock(
        (conv1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(2, 2), dilation=(2, 2), bias=False)
        (bn1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (relu): ReLU(inplace=True)
        (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      )
      (2): BasicBlock(
        (conv1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(4, 4), dilation=(4, 4), bias=False)
        (bn1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        (relu): ReLU(inplace=True)
        (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      )
    )
  )
  (decoder): Decoder(
    (dr2): DR(
      (conv1): Conv2d(64, 96, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn1): BatchNorm2d(96, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU()
    )
    (dr3): DR(
      (conv1): Conv2d(128, 96, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn1): BatchNorm2d(96, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU()
    )
    (dr4): DR(
      (conv1): Conv2d(256, 96, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn1): BatchNorm2d(96, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU()
    )
    (dr5): DR(
      (conv1): Conv2d(512, 96, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn1): BatchNorm2d(96, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (relu): ReLU()
    )
    (last_conv): Sequential(
      (0): Conv2d(384, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (2): ReLU()
      (3): Dropout(p=0.5, inplace=False)
      (4): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (5): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (6): ReLU()
    )
  )
)

3.2 时空关注模块

自注意机制在模拟长期时空依赖性中是有效的。在此认知的驱动下，我们设计了一种CD自注意机制，该机制能够捕获整个时空中个体像素之间丰富的全局时空关系，从而获得更多的识别特征。

我们设计了两种自注意力模块：一个基础的时空注意力模块（BAM），一个金字塔时空注意力模块（PAM）。

BAM学习捕捉任意两个位置之间的时空相关性(注意力权重)，并通过时空中所有位置特征的加权和计算每个位置的响应。

PAM将BAM嵌入到金字塔结构中，去生成多尺度注意力表示。

BAM

输入： $X^{(1)}$ ， $X^{(2)}$ 叠加后的特征向量， $X∈R^{C×H×W×2}$

输出：更新后的特征向量Z, $Z∈R^{C×H×W×2}$

利用残差网络从X得到Z： $Z = F (X) + X$ ， $Y = F (X)$ 是待学习X的残差映射。

?如何生成 $Y$

计算Y的核心是从输入张量中生成一组键向量(keys)、值向量(values)和查询向量(queries)，并学习这些值的加权总和来生成每个输出向量，其中分配给每个值的权重取决于查询和对应键的相似度。

$X$ 首先转化为两个特征张量 $Q，K∈R^{C’×H×W×2}$ 。Q和K分别由两个不同的卷积层( $C^{'}$ , 1× 1/1)得到。我们将它们重塑为关键矩阵 $K^-$ 和查询矩阵 $Q^-$ ，其中N = H × W × 2为输入特征向量的个数。关键矩阵和查询矩阵用于以后计算注意力。
我们把X输入另一个卷积层(C, 1× 1/1)，生成一个新的特征张量 $V∈R^{C×H×W×2}$ 。我们把它重新塑造成一个值矩阵 $V^-$ 。 $C^{'}$ 是键和查询的特征维度。在我们的实现中， $C^{'}$ 被设定为 $C / 8$ 以减少特征维数
定义一个时空注意图 $A∈R^{N×N}$ 作为相似矩阵，相似度矩阵中的元素A[i, j]是第i个键与第j个查询之间的相似度。对关键矩阵 $K^{-T}$ 的转置和查询矩阵 $Q^-$ 进行矩阵乘法运算，将每个元素除以√ $C^{'}$ ，对每一列应用一个softmax函数生成注意图A。A的定义如下:
输出矩阵 $Y^-∈R^{C×N}$ 由值矩阵 $V^-$ 与相似矩阵A的矩阵相乘计算得到: $Y^-=V^-A$
最后， $Y^-$ 被重塑为Y。

？为什么除以√c0

矩阵乘法结果被缩放为√ $C^{'}$ ，以使其期望值不受 $C^{'}$ 大值的影响

PAM

我们提出了一种PAM，通过聚合多尺度时空注意上下文来增强识别细节的能力。PAM通过结合不同尺度的注意时空语境生成多尺度注意特征。

输入： $X∈R^{C×H×W×2}$

输出： $Z∈R^{C×H×W×2}$

我们将双时间特征地图 $X^{(1)}$ , $X^{(2)}$ ∈ $R^{C×H×W}$ 的特征映射叠加到一个特征张量中 $X∈R^{C×H×W×2}$
有四个平行的分支;每个分支将特征张量等分为s × s子区域，其中 $s \in S$ $ S ${1,2,4,8} 定义了四个金字塔尺度。在s标度分支中，每个区域定义为$ R_{s,i,j}∈R^{C×H /s×W /s×2}$, 1≤i,j≤s.
我们分别对四个分支使用了四个BAM。在每个金字塔分支中，我们分别对所有子区域 $R_{s,i,j}$ 应用BAM,生成更新的残差特征张量 $Y_s∈R^{C×H×W×2}$
将这些特征张量 $Y_s,s∈S$ 拼接到一个卷积层(C, 1 × 1/1)中，得到最终的残差特征张量 $Y∈R^{C×H×W×2}$
最后，我们将剩余张量Y和原始张量X相加，得到更新后的张量 $Z∈R^{C×H×W×2}$

3.3 度量模块

深度度量学习是指训练网络学习从输入到嵌入空间的非线性变换，在这个变换中，相似样本的嵌入向量被鼓励更接近，而不同样本的嵌入向量被推离。基于深度度量学习的CD方法取得了领先的成绩。在这里，我们使用对比损失来鼓励每个不变的像素对（小距离的），每个变化的嵌入空间（大距离的）。

输入： $Z^{(1)}$ , $Z^{(2)}$

首先通过双线性插值将每个特征图的大小调整为与输入的双时间图像相同的大小。
然后按像素计算调整尺寸后的特征地图之间的欧氏距离，生成距离地图 $D∈R^{H_0×W_0}$ ,

其中H0、W0分别为输入图像的高度和宽度。
在训练阶段，使用对比损失来学习网络的参数，这样邻居被拉在一起，非邻居被推开
在测试阶段，通过固定阈值分割得到变化图P:

下标i，j分别表示高度和宽度的指标。θ是用来区分变化区域的固定阈值。在我们的工作中，θ被指定为1，也就是损失函数中定义的边际的一半。

3.4 损失层设计

？解决的问题

在大多数机器学习任务中，类分布高度不平衡的情况下，class不平衡问题很常见。对于遥感影像CD，变化样本和不变样本数量变化较大。在很多情况下，变化的像素只占所有像素的一小部分，这导致网络在训练阶段存在一定的偏差。

为了减少类不平衡的影响，我们设计了类敏感损失;即批平衡对比损失(BCL)。

给一批双时间样本 $X^{*(1)},X^{*(2)},M^{*},X^{*(1)},X^{*(2)}∈R^{B×H_0×W_0},M*∈R^{B×H_0×W_0})$ ,我们可以通过STANET得到一批距离地图 $D^*∈R^{B×H_0×W_0}$ ，其中B为样品的批号。

$M^*$ 是一批二进制标号映射，其中0表示没有变化，1表示变化。BCL的定义如下:

下标b，i，j分别表示批数,高度和宽度的指标。参数化距离大于边界m的变化像素对对损失函数没有贡献。

在我们的工作中，m等于2。 $n_u$ , $n_ c$ 分别为未改变像素对和改变像素对的个数。它们可以由对应类别的标签之和计算:

4 实现细节

4.1 指标

我们将精度(Pr)、召回率(Re)和F1-score (F1)作为评价指标。设 $n_{ij}$ 为第i类预测为第j类的像素数，其中有 $n_c$ classes。我们计算:

4.2 LEVIR-CD数据集

我们将数据随机分成三部分:70%的样本用于训练，10%的样本用于验证，20%的样本用于测试。由于GPU的内存限制，我们将每个样本裁剪成16个256× 256大小的小补丁。

4.3 SZTAKI数据集

我们使用与其他比较方法相同的训练测试分裂标准。测试集由每个样本从左上角裁剪出大小为784× 448的patches组成。每个样本的剩余部分重叠裁剪成113× 113大小的小块作为训练数据。

4.4 训练细节

我们的模型在imagenet -pre- training ResNet-18模型上进行了微调，初始学习速率为 $10^{−3}$ 。接下来，我们对前100个epoch保持相同的学习速率，并在剩下的100个epoch中将其线性衰减到0。我们使用批量大小为4的Adam求解器，β1为0.5，β2为0.99。我们应用随机翻转和随机旋转(−15◦∼15◦)的数据增强。

4.5 baseline比对

为了验证时空模块的有效性，我们设计了一种基线方法:

Baseline: FCN-networks (BASE)及其改进变体与时空模块:
Proposed 1: FCN-networks + BAM (BAM)
Proposed 2: FCN-networks + PAM (PAM)。

所有比较都使用相同的超参数设置。

LEVIR-CD:一种新的遥感图像变化检测数据集

大型和具有挑战性的数据集对遥感应用非常重要。然而，在遥感图像CD中，我们注意到缺乏一个公共的、大规模的CD数据集，这阻碍了CD的研究，特别是开发基于深度学习的算法。因此，通过引入LEVIR-CD数据集，我们希望填补这一空白，并为评估CD算法提供更好的基准。

在这里，我们简要介绍三个CD数据集:

SZTAKI AirChange Benchmark Set (SZTAKI)是一个包含13对光学航空影像的二值CD数据集;每个为952×640像素，分辨率约为1.5 m/像素。数据集按区域划分为三个集;即Szada, Tiszadob和Archive;它们分别包含7、5和1对图像。数据集考虑以下变化:新建建成区、建筑作业、造林、新耕地和建筑完成前的地基。
Onera卫星变化检测数据集(OSCD)用于二值CD，收集24对多光谱卫星图像。在10m分辨率下，每个图像的大小约为600× 600。该数据集中于城市地区的变化(例如，城市增长和城市衰落)，而忽略了自然变化。
航空图像变化检测数据集(AICD)是一个合成的二进制CD数据集，包含100个模拟场景，每个场景从5个视点捕获，总共提供500张图像。每幅图像添加一种人为的变化目标(如建筑物、树木或浮雕)来生成图像对。因此，每个映像对中都有一个更改实例。

【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
【论文笔记】GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving
原文链接：https://arxiv.org/abs/2506.00034v1简介：现有的多传感器融合方法多使用基于注意力的拉直(flatten)融合或通过几何变换的BEV融合，但前者可解释性差，后者计算开销大（如下图(a)(b)所示）。本文提出GaussianFusion（下图(c)），一种基于高斯的多传感器融合框架，用于端到端自动驾驶。使用直观而紧凑的高斯表达，聚合不同传感器的信息。具体来说，
【论文笔记】RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation AustinCyy 论文笔记论文阅读
论文信息论文标题：RAGLAB:AModularandResearch-OrientedUnifiedFrameworkforRetrieval-AugmentedGeneration-EMNLP24论文作者：XuanwangZhang-NanjingUniversity论文链接：https://arxiv.org/abs/2408.11381代码链接：https://github.com/fat
Llama改进之——RoPE旋转位置编码愤怒的可乐 NLP项目实战 #LLaMA RoPE 旋转位置编码
引言旋转位置编码(RotaryPositionEmbedding,RoPE)将绝对相对位置依赖纳入自注意力机制中，以增强Transformer架构的性能。目前很火的大模型LLaMA、QWen等都应用了旋转位置编码。之前在[论文笔记]ROFORMER中对旋转位置编码的原始论文进行了解析，重点推导了旋转位置编码的公式，本文侧重实现，同时尽量简化数学上的推理，详细推理可见最后的参考文章。复数与极坐标复数
Llama改进之——均方根层归一化RMSNorm 愤怒的可乐 NLP项目实战 #llama
引言在学习完GPT2之后，从本文开始进入Llama模型系列。本文介绍Llama模型的改进之RMSNorm(均方根层归一化)。它是由RootMeanSquareLayerNormalization论文提出来的，可以参阅其论文笔记1。LayerNorm层归一化(LayerNorm)对Transformer等模型来说非常重要，它可以帮助稳定训练并提升模型收敛性。LayerNorm针对一个样本所有特征计算
论文笔记＜交通灯＞＜多智能体＞CoLight管理交通灯青椒大仙KI11 论文阅读
今天看的是论文Colight:学习网络级合作进行交通信号控制论文提出的CoLight模型是一种基于强化学习和图注意力网络的交通信号灯控制方法，旨在解决城市道路网络中的交通信号的写作问题，提升车辆通行效率。问题定义为：将交通信号控制问题建模为马尔可夫博弈，每个路口由一个智能体控制，智能体通过观察部分系统状态（当前相位和各车道车辆数），选择动作（下一时间段的相位），目标是最小化路口周围车道的平均队列长
《基于超声的深度学习模型用于降低BI-RADS 4A乳腺病变的恶性率》论文笔记 MobileNet 往事随风、、论文笔记机器学习深度学习论文阅读人工智能机器学习健康医疗
《APPLICATIONOFDEEPLEARNINGTOREDUCETHERATEOFMALIGNANCYAMONGBI-RADS4ABREASTLESIONSBASEDONULTRASONOGRAPHY》《基于超声的深度学习模型用于降低BI-RADS4A乳腺病变的恶性率》原文地址：链接文章目录摘要简介方法患者图像获取与处理深度学习模型统计分析结果讨论结论摘要本研究旨在开发一个基于超声（US）图像
论文笔记--Language Models are Unsupervised Multitask Learners Isawany 论文阅读论文阅读语言模型 transformer chatgpt 自然语言处理
论文笔记GPT-2--LanguageModelsareUnsupervisedMultitaskLearners1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1数据集WebText2.2.2分词方法3.GPT-1&GPT-24.文章亮点5.原文传送门6.References1.文章简介标题：LanguageModelsareUnsupervisedMultitaskLearners
You Only Look Once Unified, Real-Time Object Detection论文笔记 __Lo__ 目标检测论文阅读深度学习
文章结构统一检测框架(UnifiledDetection)核心思想YOLO将目标检测视为一个端到端的回归问题，输入的图像经过SingleForwardPass，直接输出物体的信息（边界框的位置、边界框的置信度、类别概率）；优势在于速度快，全局理解上下文，这里全局理解上下文的意思是识别物体和背景的关系，减少误检。网络设计网格划分（GridDivision）将图像划分为一个S×S的网格，文中S=7；共
【论文笔记】UnifiedQA：新SOTA，生成模型一统问答任务 iLuz 深度学习自然语言处理
目录引言模型介绍1.输入格式2.实验结果总结引言问答任务有多种形式，常见的有抽取式问答(EX)、摘要式问答(AB)、多选题式问答(MC)、判断式问答(YN)。一般的解决方案是针对不同形式的问答任务设计不同的模型。例如，抽取式问答、多选题式问答、判断式问答可以转化为分类任务，摘要式问答可以转换为生成任务。尽管任务形式不同，但模型所需的语义理解和推理能力是共通的，或许不需要format-special
[论文笔记] [2008] [ICML] Extracting and Composing Robust Features with Denoising Autoencoders Alexzhuan DL 神经网络机器学习
在06年以前，想要去训练一个多层的神经网络是比较困难的，主要的问题是超过两层的模型，当时没有好的策略或方法使模型优化的很好，得不到预期的效果。在06年，Hinton提出的stackedautoencoders改变了当时的情况，那时候的研究者就开始关注各种自编码模型以及相应的堆叠模型。这篇的作者提出的DAE（DenoisingAutoencoders）就是当时蛮有影响力的工作。那个时候多层模型效果得
【论文笔记】SecAlign: Defending Against Prompt Injection with Preference Optimization AustinCyy 论文笔记论文阅读
论文信息论文标题：SecAlign:DefendingAgainstPromptInjectionwithPreferenceOptimization-CCS25论文作者：SizheChen-UCBerkeley；Meta,FAIR论文链接：https://arxiv.org/abs/2410.05451代码链接：https://github.com/facebookresearch/SecAli
CLIP论文笔记：Learning Transferable Visual Models From Natural Language Supervision Q同学的nlp笔记论文阅读语言模型人工智能 nlp 自然语言处理
导语会议：ICML2021链接：https://proceedings.mlr.press/v139/radford21a/radford21a.pdf当前的计算机视觉系统通常只能识别预先设定的对象类别，这限制了它们的广泛应用。为了突破这一局限，本文探索了一种新的学习方法，即直接从图像相关的原始文本中学习。本文开发了一种简单的预训练任务，通过预测图片与其对应标题的匹配关系，从而有效地从一个包含4亿
论文笔记：Large Language Models are Zero-Shot Next LocationPredictors UQI-LIUWJ 论文笔记论文阅读语言模型人工智能
1intro下一个地点预测（NL）包括基于个体历史访问位置来预测其未来的位置。NL对于应对各种社会挑战至关重要，包括交通管理和优化、疾病传播控制以及灾害响应管理NL问题已经通过使用马尔可夫模型、基于模式的方法以及最近的深度学习（DL）技术（进行了处理。然而，这些方法并不具备地理转移能力因此，一旦这些模型在某个地理区域训练完毕，如果部署到不同的地理区域，它们将面临严重的性能下降尽管已经做出努力改善地
论文笔记：LSTPrompt: Large Language Models as Zero-Shot Time Series Forecastersby Long-Short-Term Prompt UQI-LIUWJ 论文笔记论文阅读语言模型 prompt
202402arxiv1intro1.1大模型+时间序列预测一般有两种类型的方法使用海量时间序列数据重新训练一个时间序列领域的大模型论文笔记：TimeGPT-1_timegpt论文-CSDN博客直接利用现有的大模型，设计prompt，将时间序列数据转换成大模型理解的文本，实现时间序列预测代价小+有成熟的可供使用的大模型1.2本文思路之前的方法大多集中在如何将时间序列数据转换成文本上将时间序列的数字
【论文笔记】ResNet论文的全面解析浩瀚之水_csdn #论文阅读笔记人工智能
论文：DeepResidualLearningforImageRecognition发表时间：2015发表作者：(MicrosoftResearch)He-Kaiming,Ren-Shaoqing,Sun-Jian论文链接：论文链接一、ResNet论文基本信息论文标题与发表信息论文标题：《DeepResidualLearningforImageRecognition》发表时间：2015年，并在20
论文笔记：TrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents CvBeginner 论文笔记轨迹预测计算机视觉
论文笔记：TrafficPredict:TrajectoryPredictionforHeterogeneousTraffic-Agents摘要这是百度在AAAI2019发布的一篇文章。这篇文章提出了一种基于4D-graph的方法实现复杂场景下的轨迹预测，研究对象包含行人、机动车和自行车。实现方法本文提出了一个基于LSTM的算法，名为TrafficPredict。构建了一个4DGraph，输入是轨
论文笔记：MobileNetV2: Inverted Residuals and Linear Bottlenecks 菜鸡信息技术 Deep Learning
MobileNetV2:InvertedResidualsandLinearBottlenecksMobileNetV2是MobileNetV1的改进版，Invertedresidual是个非常精妙的设计！MobileNetV1引入depthwiseseparableconvolution代替standardconvolution，减少运算量。MobileNetV1的结构其实非常简单，是类似于VG
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 深度学习人工智能计算机视觉机器学习 transformer 论文阅读
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
Meta的AIGC视频生成模型——Emu Video 好评笔记 AIGC 深度学习人工智能机器学习 transformer 校招面试八股
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
[论文笔记] 超详细解读DeepSeek v3全论文技术报告心心喵论文笔记论文阅读
DeepSeek-V3是一个强大的专家混合（Mixture-of-Experts，MoE）语言模型，总共671B参数，每个token激活37B参数（可以理解为有多个专家，但每个token只会选择一部分专家进行推理，所以一个token的预测，只会用到37B参数），DeepSeek-V3使用了多头潜在注意力（
[论文笔记] pai-megatron qwen1.5报错心心喵论文笔记 python
Qwen1.5-0.5b-chat使用example中fintune.py报错·Issue#77·QwenLM/Qwen1.5·GitHub解决方案：transformers升级到4.37.0pipinstallsetuptools==65.5.1pipinstalltransformers==4.37.0
基于不确定性感知学习的单图像自监督3D人体网格重建（论文笔记与思考） Gamma and Beta 读博笔记算法笔记学习 3d 论文阅读
文章目录论文解决的问题提出的算法以及启发点论文解决的问题首先这是Self-Supervised3DHumanmeshrecoveryfromasingleimagewithuncertainty-awarelearning（AAAI2024）的论文笔记。该文中主要提出了一个自监督的framework用于人体的姿态恢复。主要是解决了现有的方法对大型数据集的依赖。提出的算法以及启发点论文总体的框架其实
LLM论文笔记 28: Universal length generalization with Turing Programs Zhouqi_Hua 大模型论文阅读论文阅读语言模型自然语言处理笔记人工智能
Arxiv日期：2024.10.4机构：HarvardUniversity关键词图灵机CoT长度泛化核心结论TuringPrograms的提出提出TuringPrograms，一种基于图灵机计算步骤的通用CoT策略。通过将算法任务分解为逐步的“磁带更新”（类似图灵机的读写操作），允许模型通过简单的文本复制与局部修改完成复杂计算通用性：适用于任何算法任务（加法、乘法、SGD），不依赖任务特定的数据格
LLM论文笔记 27: Looped Transformers for Length Generalization Zhouqi_Hua 大模型论文阅读论文阅读语言模型人工智能论文笔记笔记
Arxiv日期：2024.9.25关键词长度泛化transformer结构优化核心结论1.RASP-L限制transformer无法处理包含循环的任务的长度泛化2.LoopTransformer显著提升了长度泛化能力InputInjection显著提升了模型的长度泛化性能，尤其在二进制加法等复杂任务上效果显著在推理中，通过输出置信度判断迭代停止点的策略能够实现接近最佳的性能主要方法Transfor
Fast-BEV：A Fast and Strong Bird’s-Eye View Perception Baseline——论文笔记 m_buddy BEV Perception 论文阅读人工智能深度学习
参考代码：Fast-BEV一稿多投的另一篇：Fast-BEV:TowardsReal-timeOn-vehicleBird’s-EyeViewPerception1.概述介绍：这篇文章提供了一种可实际部署的BEV感知方案，能够在当今车端主流计算单元上（NvidiaOrin）实现不错的帧率。从camera到BEV的转换思想来自于M2BEV，但是对这个转换方法中使用查找表和映射方法改进，使得整体视角转
读论文笔记-Flamingo：少样本视觉语言模型 joseanne_josie 论文阅读语言模型人工智能
读论文笔记-Flamingo：少样本视觉语言模型Plomblems本文拟解决多模态机器学习中，如何将训练好的模型快速适应到少量标注数据的新任务中的问题。Motivations已有的VLM虽然能在zero-shot的场景下适应于新任务，但他们只解决了有限的使用情况（如CLIP只解决了图片分类），由于主要缺乏生成语言的能力其不能应用于开放性任务。其他的一些方法虽然研究了基于视觉的语言生成但在数据量少的
论文笔记-基于多层感知器（MLP）的多变量桥式起重机自适应安全制动与距离预测 sagima_sdu 论文阅读
《IETCyber-SystemsandRobotics》出版山东大学TenglongZhang和GuoliangLiu团队的研究成果，文章题为“AdaptiveSafeBrakingandDistancePredictionforOverheadCranesWithMultivariationUsingMLP”。摘要桥式起重机的紧急制动及其制动距离预测是其安全运行中的关键难题。本文采用多层感知器
论文笔记：How Can Large Language Models Understand Spatial-Temporal Data? UQI-LIUWJ 论文笔记论文阅读语言模型人工智能
arxiv2024011introLLM在NLP和CV领域表现出色，但将它们应用于时空预测任务仍然面临挑战，主要问题包括：数据不匹配传统的LLMs设计用于处理序列文本数据，而时空数据具有复杂的结构和动态性，这两者之间存在显著差异模型设计限制现有的时空预测方法通常需要为特定领域设计专门的模型，这限制了模型的通用性和适应性数据稀缺和泛化能力传统的时空预测方法在面对数据稀缺或稀疏的情况下表现不佳，且泛化
SentiGAN: Generating Sentimental Texts via Mixture Adversarial Networks论文笔记 catbird233 深度生成模型笔记
另一篇很好的解释：https://www.itcodemonkey.com/article/6378.html摘要在自然语言生成领域,不同情感标签的生成越来越受到人们的关注。近年来,生成性对抗网(gan)在文本生成方面取得了良好的效果。然而,gan产生的文本通常存在质量差、缺乏多样性和模式崩溃的问题。本文提出了一个新的框架--sentyan,它有多个生成器和一个多类判别器,以解决上述问题。在我们的
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

阅读笔记：STANet