小坤兽

项目-1.CROSSFORMER论文与代码解析(CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention)

CROSSFORMER[CV:图像分类、目标检测]

1.资源链接
- - 1.1论文
  - 1.2代码
2.论文解析
- - 2.0 摘要
  - 2.1 基本介绍
  - 2.2 背景
  - 2.3 本文模型
  - - 2.3.1 Cross-Scale Embedding Layer(CEL)
    - 2.3.2 CrossFormer Block
    - - 2.3.2.1长短距离注意力机制 (LSDA)
      - 2.3.2.2 Dynamic Position Bias（DPB）
      - 2.3.2.3 Variants of CrossFormer
  - 2.4 实验
  - - 2.4.1 图像分类
    - 2.4.2 目标检测和实例分割
    - 2.4.3 语义分割
    - 2.4.4 消融研究
  - 2.5 总结
3.代码复现
- - 3.1下载之初
  - 3.2环境搭建
  - - 3.2.0 下载数据集
    - 3.2.1图像分类
    - - 3.2.1.1 环境配置
      - 3.2.1.2 修改代码
      - 3.2.1.3 运行代码
    - 3.2.2目标检测
    - - 3.2.2.1 环境配置
- 问题一：安装报错 error: command ':/usr/local/cuda/bin/nvcc' failed with exit status 1
- 问题二：安装mmdet时各种爆红
- - - - 3.2.2.2 修改代码
      - 3.2.2.3 运行代码
4. 代码解析
- - 4.0 进入算法
  - 4.1 CrossFormer
  - 4.2 PatchEmbed
  - 4.3 Stage
  - 4.4 CrossFormerBlock
  - 4.5 Attention
5.个人总结

1.资源链接

1.1论文

《CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention》

1.2代码

github代码链接

2.论文解析

2.0 摘要

Transformers在处理视觉任务方面取得了很大进展，但不具备一种对视觉输入很重要的能力：在不同尺度的特征之间建立注意力。造成这一问题的原因有两方面：
(1)各层的输入嵌入是等尺度的，没有跨尺度特征
(2)一些vision transformers牺牲了嵌入的小尺度特征，以降低自我注意模块的成本
为了弥补这一缺陷，本文提出了跨尺度嵌入层(CEL)和长短距离注意(LSDA)。
CEL将每个嵌入与不同尺度的多个patch混合在一起，为模型提供了跨尺度嵌入。
LSDA将自我注意模块分成短距离和长距离两个模块，既降低了成本，又保留了小尺度和大尺度的嵌入特征。通过这两个设计实现跨尺度的关注。
此外，本文还提出了vision transformer的动态位置偏差，使流行的相对位置偏差适用于可变尺寸的图像。
在这些模块的基础上构建了视觉架构CrossFormer。实验表明，CrossFormer在几个典型的视觉任务，特别是目标检测和分割方面优于其他转换器。

2.1 基本介绍

Transformer在NLP上取得了巨大成功，得益于它的自我注意模块，Transformer天生就具有建立远程依赖的能力，这对许多视觉任务也很重要。因此，已经进行了大量的研究来探索基于transformer的视觉体系结构。

transformers需要一系列嵌入作为输入。为了使其适应视觉任务，大多数现有的vision transformers通过将图像分割成相等大小的块来产生嵌入。例如，一幅224×224的图像可以被分割成大小为4×4的56×56块，然后这些块通过线性层投影成为嵌入序列。在transformer内部，自我关注模块可以在任何两个嵌入之间建立依赖关系。这样的成本对于视觉输入来说太大了，因为它的嵌入序列比NLP的嵌入序列要长得多。因此，最近提出的视觉转换器开发了多种替代品，以更低的成本近似香草模型(vanilla)的自我注意模块。

虽然上述工作取得了一定的进展，但现有的vision transformers仍然存在一个制约其性能的问题–未能在不同尺度的特征之间建立关注度，而这种能力对于视觉任务来说是非常重要的。例如，一幅图像通常包含许多不同尺度的对象，建立它们之间的关系需要跨尺度的注意机制。此外，一些任务，如实例分割，需要大规模(粗粒度)特征和小规模(细粒度)特征之间的交互。现有的vision transformers无法处理这些情况的原因有两个：(1)嵌入序列是由大小相等的块生成的，因此同一层中的嵌入只具有单一尺度的特征。(2)在自我注意模块内部，相邻嵌入的键/值经常被合并，以降低成本。因此，即使嵌入同时具有小尺度和大尺度特征，合并操作也会丢失每个单个嵌入的小尺度(细粒度)特征，从而使跨尺度注意力失效。

为了解决这个问题，我们共同设计了嵌入层和自我注意模块如下：(1)跨尺度嵌入层(CEL)-采用了金字塔结构，这自然会将模型分成多个阶段。CEL出现在每个阶段的开始处。它接收上一阶段的输出(或图像)作为输入，采样具有不同尺度(如4×4、8×8等)的多个核的patch。然后，每个嵌入都是通过投影和连接这些patch来构建的，而不是只使用一个单一比例的。(2)长短距离注意(LSDA)-提出了一种替代原始的香草模型自我注意的方法，但为了保留小尺度特征，嵌入(以及它们的键/值)不会合并。相反，我们将自我注意模块分为短距离注意(SDA)和长距离注意(LDA)。SDA建立相邻嵌入之间的依赖关系，而LDA负责远离彼此的嵌入之间的依赖关系。LSDA还降低了自我注意模块的成本，但与其他模块不同的是，LSDA既不损害小规模的特征，也不损害大规模的特征，因此可以关注跨尺度的交互。

此外，相对位置偏差(RPB)是vision transformer的一种有效位置表征。然而，它仅适用于输入图像/组大小固定的情况，这不适用于像物体检测这样的多任务。为了使算法更加灵活，我们引入了动态位置偏置(DPB)训练模块，它接受两个嵌入的距离作为输入，并输出它们的位置偏差。该模块在训练阶段进行了端到端的优化，代价可以忽略不计，但使RPB适用于不同的图像/组大小。

我们建议的每个模块都可以用大约十行代码来实现。在此基础上，我们构造了四种大小不一的多功能视觉转换器CrossFormer。在四个典型的视觉任务(即图像分类、对象检测和实例/语义分割)上的实验表明，CrossFormers在所有这些任务上都优于以往的视觉转换器，特别是密集预测任务(对象检测和实例/语义分割)。我们认为这是因为图像分类只关注一个对象和大尺度特征，而密集预测任务更多地依赖于跨尺度关注。

2.2 背景

Vision Transformers

受自然语言处理的transformers的启发，研究人员为视觉任务设计了vision transformer，以利用其巨大的注意机制。特别是ViT和DeiT，将原始transformer转移到视觉任务，实现了令人印象深刻的准确性。后来，PVT、HVT、Swin等将金字塔结构引入变压器，大大减少了模型后续层的patch数量。transformer还被扩展到其他任务，如对象检测和分割。

Self-attention及其变体

作为transformers的核心，自我注意模块的计算和存储开销为 $O(N^2)$ ，其中N为嵌入序列的长度。虽然这样的成本对于小型图像分类是可以接受的，但对于具有大图像的模型就不太好了。为了解决这个问题，Swin限制了对局部区域的注意，放弃了远程依赖。PVT和Twin使相邻嵌入共享相同的键/值，以降低成本。同样，其他vision transformer也采用分而治之的方法，以较低的成本近似普通的自我注意模块。

Position representations（位置表示）

transformer是组合不变的，也就是说，打乱输入嵌入不会改变transformer的输出。然而，嵌入的位置也包含重要信息。为了使该模型意识到这一点，提出了许多不同的嵌入位置表示，其中相对位置偏差(RPB)就是其中之一。对于RPB，每对嵌入都会在它们的注意力上添加一个偏差，这表示它们之间的相对距离。在以前的工作中，RPB被证明比其他位置表征对视觉任务更有效。

2.3 本文模型

图1 CrossFormer的整体架构如图1所示。采用了金字塔结构，这自然地将模型分为四个阶段。每个阶段由一个跨尺度嵌入层(CEL)和几个CrossFormer block组成。CEL接收上一阶段的输出(或图像)作为输入，并生成跨尺度嵌入。在这个过程中，CEL(第一阶段除外)将金字塔结构的嵌入次数减少到四分之一，而将其维数增加了一倍。然后，在CEL之后放置几个CrossFormer块(包含LSDA和DPB)。在特定任务的最后阶段之后，紧随其后的是专门的head函数做分类。【LN指LayerNorm正则化】

（博主推荐：为什么要用LN不用BN）

2.3.1 Cross-Scale Embedding Layer(CEL)

图2

跨尺度嵌入层用于生成每个阶段的输入嵌入。如图2所示，以第一个CEL为例，它位于Stage-1之前。它接收一幅图像作为输入，使用四个不同大小的内核对patch进行采样。四个内核的步长保持相同，以便它们生成相同数量的嵌入。正如我们在图2中看到的，每四个相应的patch具有相同的中心但不同的比例。这四个patch将被投影并连接为一个嵌入。在实际应用中，采样和投影过程可以通过四层卷积来实现。

对于跨尺度嵌入，一个问题是如何设置每个尺度的投影尺寸。考虑到较大的核更容易导致较大的计算量，我们对较大的核使用较低的维数，而对较小的核使用较高的维数。图2在其子表中提供了具体的分配规则，并给出了一个128维的示例。与平均分配维数相比，我们的方案节省了大量的计算开销，但不会明显影响模型的性能。其他阶段中的跨比例嵌入层的工作方式与此类似。如图1所示，阶段2/3/4中的CEL使用两个内核(2×2和4×4)。步长设置为2×2，以将嵌入次数减少到四分之一(相较于步长为1x1来说)。

2.3.2 CrossFormer Block

每个CrossFormer模块由短距离注意(SDA)或长距离注意(LDA)模块和多层感知器(MLP)组成。特别是，如图1(b)所示，SDA和LDA交替出现在不同的块中，动态位置偏置(DPB)在SDA和LDA中都适用于嵌入的位置表示。此外，在块中使用残差连接。

2.3.2.1长短距离注意力机制 (LSDA)

图3

我们将自我注意模块分为两部分：短距离注意(SDA)和长距离注意(LDA)。对于SDA，每个G×G相邻嵌入被分组在一起。图3(a)给出了当G=3时的例子。对于输入大小为S×S的LDA，以固定间隔I对嵌入进行采样。例如，在图3(b)(I=3)中，所有具有红边的嵌入属于一组，而具有黄色边框的嵌入属于另一组。LDA的组高度/宽度计算为G=S/I，在本例中为G=3。在对嵌入进行分组后，SDA和LDA都在每个组中使用了普通的自我注意模块。结果，自我注意模块的存储和计算成本从 $O(S^4)$ 降低到 $O(S^2 G^2)$ 。

在图3(b)中，我们绘制了两个嵌入的组件patch。由此可见，两个嵌入体的小比例patch是不相邻的，没有大比例patch的帮助很难判断它们之间的关系。因此，如果这两个嵌入仅由小规模的patch构建，将很难在它们之间建立依赖关系。相反，相邻的大型patch提供了足够的上下文来链接这两个嵌入。因此，在大规模patch的引导下，远程跨尺度的关注变得更容易、更有意义。

2.3.2.2 Dynamic Position Bias（DPB）

相对位置偏差(Relative Position Bias，RPB)通过增加嵌入对象注意力的偏差来表示嵌入对象的相对位置。正式地说，LSDA与RPB的注意力图变成了：
$Softmax(QK^T/\sqrt d+B)V$
其中 $Q、K、V\in R^{G^2×D}$ 分别表示自我注意模块中的query、key、value， $\sqrt d$ 是常量归一化子。 $B∈R^{G^2×G^2}$ 是RPB矩阵。在前人的工作中， $B_{i，j}=\hat B_{∆x_{ij},∆y_{ij}}$ ，其中 $\hat B$ 是一个固定大小的矩阵， $x_{ij}，∆y_{ij})$ 是第i个和第j个嵌入之间的坐标距离。很明显，在 $x_{ij}，∆y_{ij})$ 超过 $\hat B$ 的大小的情况下，图像/组的大小受到限制（也就是说，图像/组的大小不能超过 $\hat B$ 的大小）。相反，我们提出了一种称为DPB的基于mlp的模块来动态地产生相对位置偏差，即
$B_{i,j}=DPB(∆x_{ij}，∆y_{ij})$
DPB的结构如图3(c)所示。其非线性变换由三个带有层归一化和ReLU的完全连通的层组成。DPB的输入维度为2，即 $x_{ij}，∆y_{ij})$ ，中间层的维度设置为D/4，其中D是嵌入的维度。DPB是一个与整个模型一起优化的可培训模块。它可以处理任何图像/组大小，而无需担心 $x_{ij}，∆y_{ij})$ 的界限。

2.3.2.3 Variants of CrossFormer

表1列出了CrossFormer用于图像分类的四个变体(-T、-S、-B和-L，分别代表极小、小、基础和大，对应本博客下面的部分中提到的yaml)的详细配置。为了重用预先训练的权重，用于其他任务的模型使用与分类相同的主干，除了它们可能使用不同的G和I。具体地说，除了与分类相同的配置外，我们还使用G1=G2=14、I1=16和I2=8测试检测/分割模型的前两个阶段，以适应更大的图像。具体架构载于附录(A.3)。值得注意的是，组大小(即G和I)不影响权重张量的形状，因此在ImageNet上预先训练的主干可以直接在其他任务上进行微调，即使它们使用不同的(G，I)。

表1 用于图像分类的CrossFormer变体。示例输入大小为224×224。D和H分别表示多头注意模块的嵌入维数和头数。G和I分别是SDA和LDA的组大小和间隔。

2.4 实验

实验在图像分类、目标检测、实例分割和语义分割四个具有挑战性的任务上进行。为了进行公平的比较，我们尽可能保持与其他视觉转换器相同的数据增强和训练设置。竞争对手都是竞争激烈的视觉transformer，包括DeiT、PVT、T2T-ViT、TNT、CViT、Twin、Swin、NesT、CVT、TransCNN、Shuffle、BoTNet和RegionViT。（博主惊叹：全部都是2021年的新模型）

2.4.1 图像分类

实验配置

分类实验是使用ImageNet数据集进行的。模型在1.28M训练图像上进行训练，并在50K验证图像上进行测试。使用与其他vision transformer相同的训练设置。特别是，我们使用AdamW优化器训练300个epoch，使用余弦衰减学习率调度器，并使用20个epoch的线性预热。batch size为1024个，拆分在8个V100 GPU上。使用0.001的初始学习率和0.05%的权重衰减率。此外，对于CrossFormer-T、CrossFormer-S、CrossFormer-B、CrossFormer-L，我们分别使用0.1、0.2、0.3、0.5的dropout。此外，类似于Swin、RandAugment、Mixup、CutMix、随机擦除和随机深度被用于数据增强。

实验结果

表2

结果如表2所示。正如我们可以看到的那样，CrossFormer在相似的参数和FLOPs的情况下达到了最高的准确率。特别是，与流行的DeiT、PVT和Swin相比，我们在小模型上的准确率至少高出1.2%。此外，尽管RegionViT在小型模型上与我们达到了相同的准确率(82.5%)，但在大型模型上比我们低0.7%(84.0%对83.3%)。

2.4.2 目标检测和实例分割

实验配置

目标检测和实例分割的实验都是使用COCO 2017数据集进行的，该数据集包含118K训练图像和5K验证图像。我们使用基于MMDetect的RetinaNet和Mask-RCNN作为对象检测或实例分割的头部。对于这两个任务，主干都使用在ImageNet上预先训练的权重进行初始化。检测/分割模型在8个V100GPU上以batch size为16进行训练，并使用初始学习率为1×10−4的adamW优化器。在前人工作的基础上，我们采用了1×训练方案，即对模型进行12个epoch的训练，对图像的短边调整到800像素。

实验结果

表3 Coco Val 2017上的对象检测和实例分割结果。Swin的结果取自Twin，因为Swin没有在RetinaNet和Mask-RCNN上报告结果。蓝色字体的结果排在第二位。

结果放在表3中。正如我们可以看到的那样，排在第二位的体系结构随着实验的进行而变化，也就是说，这些体系结构可能在一个任务中表现良好，但在另一个任务中表现不佳。相比之下，我们在任务(检测和分割)和两个模型大小(小的和基本的)上都优于所有其他人。此外，当扩展模型时，CrossFormer相对于其他体系结构的性能增益会增加，这表明CrossFormer具有更高的潜力。

2.4.3 语义分割

实验配置

ADE20K被用作语义切分的基准。它涵盖了150个语义类别的广泛范围，包括用于训练的20K图像和用于验证的2K图像。与检测模型类似，我们用在ImageNet上预先训练的权重来初始化主干，并以基于MMS监管的语义FPN和UPerNet作为分割头。对于FPN，我们使用学习率和权重敏感度为1×10−4的AdamW优化器。模型被训练为80K迭代，batch size为16。对于UPernet，我们使用初始学习率为6×10−5，权重衰减为0.01的AdamW优化器，模型被训练为160K迭代。

实验结果

结果如表4所示。与目标检测类似，CrossFormer在放大模型时表现出比其他算法更大的性能增益。例如，CrossFormer-T的IOU比TwinsSVT-B高1.4%，但CrossFormer-B的IOU比TwinsSVT-L高3.1%。此外，CrossFormer在密集预测任务(如检测和分割)上比在分类上表现出更显著的优势，这表明注意模块中的跨尺度交互对于密集预测任务比对分类更重要。

表4：ADE20K验证集上的语义分割结果。“MS IOU”表示可变输入大小的测试。

2.4.4 消融研究

表5

Cross-scale Embeddings vs. Single-scale Embeddings.

我们通过将所有跨尺度的嵌入层替换为单尺度的嵌入层来进行实验。单尺度嵌入意味着只有一个核(Stage1为4×4，其他Stage为2×2)用于模型中的四个CEL。表5a中的结果表明，跨尺度嵌入获得了很大的性能增益，即它比没有跨尺度嵌入的模型的准确率高0.9%。

LSDA vs. Other Self-attentions

比较了PVT和Swin中使用的两种自关注模块。具体地说，PVT在计算自我注意时牺牲了小范围的信息，而Swin将自我注意限制在局部区域，放弃了远程注意。如表5a所示，与PVT和Swin类自我注意机制相比，我们的准确率至少高出0.6%。结果表明，长短距离的自我注意最有利于提高模型的绩效。

DPB vs. Other Position Representations

我们比较了绝对位置嵌入(APE)、相对位置偏差(RPB)和DPB之间模型的参数、FLOP、吞吐量和精度，结果如表5b所示。DPB-residual表示具有残差连接的DPB。DPB和RPB均优于APE，准确率为0.4%。DPB实现了与RPB相同的精确度，但额外成本可以忽略不计，但是，正如我们在前面所描述的，它比RPB更灵活，并且适用于可变图像大小或组大小。此外，DPB中的剩余连接无助于提高模型的性能(82.5%比82.4%)。

2.5 总结

我们提出了一种基于transformer的视觉架构，称为CrossFormer。其核心设计包括跨尺度嵌入层和长短距离注意(LSDA)模块。此外，我们提出了动态位置偏差(DPB)，使相对位置偏差适用于任何输入大小。实验表明，CrossFormer在几个典型的视觉任务上取得了比其他vision transformer更好的性能。特别是CrossFormer算法在检测和分割方面有了较大幅度的提高，这表明跨尺度嵌入和LSDA对于密集预测视觉任务尤为重要。

3.代码复现

3.1下载之初

configs/:	内部包含四个yaml文件，在运行图像分类时可以使用，用来运行不同大小的网络
data/:		内部文件用于加载数据集
detection/:	目标检测相关代码
figures/:	README文档用到的图片
models/:	图像分类的模型代码
segmentation/:	图像分割相关代码
其他py文件:		图像分类相关代码

3.2环境搭建

3.2.0 下载数据集

数据集是imagenet，可在kaggle上下载
修改文件夹的结构和名称，该项目需要的数据集目录树为

images/
	train/
		n01443537/ # 每一个类别一个文件夹
			images/
				xxx.JPEG
				xxx.JPEG
		n01629819/
			images/
				xxx.JPEG
				xxx.JPEG
	val/
		n01443537/ # 每一个类别一个文件夹
			images/
				xxx.JPEG
				xxx.JPEG
		n01629819/
			images/
				xxx.JPEG
				xxx.JPEG

3.2.1图像分类

在CrossFormer文件夹（即最外层文件夹）下运行。

3.2.1.1 环境配置

win10和linux都一样，以下以win10为例，（linux只需要将命令中的python换成python3，pip换成pip3即可），之后不建议使用win10运行，目标检测和图像分割用到的mmcv-full等package没有win10对应的版本
注意需要GPU和cuda环境
安装

pip install numpy scipy Pillow pyyaml yacs torch==1.7.0 torchvision==0.8.1 timm==0.3.2

3.2.1.2 修改代码

卑微博主没有集群，无法使用torch的分布式训练技术，因此需要将所有torch.distributed相关的代码删除。
如果某些位置无法删除，将dist.get_rank()(进程编号/优先级)改成0，dist.get_world_size()(执行脚本的进程数)换成1。
随即运行，如果出现问题是dist相关的，说明没有删干净，将这行删掉或按照上一点修改。

3.2.1.3 运行代码

python main.py --cfg configs/tiny_patch4_group7_224.yaml --batch-size 128 --data-path path_to_imagenet --output ./output

可见成功的结果如下

3.2.2目标检测

在detection文件夹下运行

3.2.2.1 环境配置

该项目所使用的mmcv-full等package，在win10环境下博主找了两天没找到本项目对应的版本，不同的版本又无法运行，网上的各种教程也都不好用，所以非常不建议在win10下运行本项目。以下均在ubuntu20.04下运行。
安装package依赖

pip3 install mmcv-full==1.2.7 mmdet==2.8.0

问题一：安装报错 error: command ‘:/usr/local/cuda/bin/nvcc’ failed with exit status 1

解决方式：仔细观察发现nvcc的绝对路径前加了个“:”，说明是环境变量出了问题
修改~/.bashrc文件：将export CUDA_HOME=$CUDA_HOME:/usr/local/cuda修改为
export CUDA_HOME=/usr/local/cuda
随即就能安装啦！

问题二：安装mmdet时各种爆红

解决方式：无需解决，爆红的原因是缺少mmpycocotools等依赖，爆红之后会自动安装

将之前图像分类训练好的模型保存下来(建议存到detection目录下，比较好找)

import torch
ckpt = torch.load("crossformer-s.pth") ## load classification checkpoint
torch.save(ckpt["model"], "backbone-crossformer-s.pth") ## only model weights are needed

下载数据集
去COCO数据集官网下载，需要下载train、val、annotation放在某一个目录中（下一小点需要填写这个目录）值得注意的是，数据集大小为40G+，劝退。
修改config文件，将detection\configs\_base_\datasets\coco_detection.py和detection\configs\_base_\datasets\coco_instance.py第二行的data_root的值修改为自己的coco数据集所在目录
给Crossformer_S注册mmdet的BACKBONE
- 找到mmdet安装包的源目录，博主的在~/.local/lib/python3.8/site-packages/mmdet
- 将本项目代码中的model/crossformer_backbone.py和detection/crossformer_factory.py复制到~/.local/lib/python3.8/site-packages/mmdet/model/backbones目录下
- 修改~/.local/lib/python3.8/site-packages/mmdet/model/backbones/crossformer_factory.py的前十一行
```
from ..builder import BACKBONES
from .crossformer_backbone import CrossFormer

# 删掉多余的行，保证“@BACKBONES.register_module()”之前只有这两行
```
- 修改~/.local/lib/python3.8/site-packages/mmdet/model/backbones/__init__.py
```
# 新增一行
from .crossformer_factory import CrossFormer_S, CrossFormer_B
# 在__all__里加入'CrossFormer_S', 'CrossFormer_B'
__all__ = ['源码前面的东西......','CrossFormer_S', 'CrossFormer_B']
```

3.2.2.2 修改代码

和上一节的图像分割一样也用到了分布式训练技术，这里将11行：

from mmcv.runner import get_dist_info, init_dist

注释或删掉

100行左右的

    if args.launcher == 'none':
        distributed = False
    else:
        distributed = True
        init_dist(args.launcher, **cfg.dist_params)
        # re-set gpu_ids with distributed training mode
        _, world_size = get_dist_info()
        cfg.gpu_ids = range(world_size)

修改为

distributed = False

3.2.2.3 运行代码

训练：修改dist_train.sh文件

# 将python xxxxxx。。。那条命令改成
python3 train.py $CONFIG --cfg-options model.pretrained=$PRETRAIN --work-dir ./det-output --launcher pytorch ${@:4}
# 博主这里是选择直接在py文件的parser里添加了default参数，可以在运行train.py文件时没这么长的参数要写。

如果显存炸了的话，前往detection/configs/_base_/datasets将里面的两个文件中的samples_per_gpu和workers_per_gpu改成1。如果还不行，可以尝试将图像检测项目中的batch_size调小，重新训练模型再回来尝试，但不一定能成功。如果还不行，建议购买更好的显卡。如果还不行，建议放弃项目。
测试：直接运行指令

python3 test.py configs/mask_rcnn_crossformer_s_fpn_1x_coco.py det-output/epoch_12.pth --eval bbox

4. 代码解析

注：本节只简单介绍CROSSFORMER算法相关代码

4.0 进入算法

# 在源代码的main函数加载完数据后创建模型
model = build_model(config, args)
# 进入build_model函数后（在build.py中）有如下代码，在这里创建了CrossFormer类，搭建起了整个网络
model = CrossFormer(img_size=config.DATA.IMG_SIZE,  # 224
                            patch_size=config.MODEL.CROS.PATCH_SIZE,  # [4, 8, 16, 32]
                            in_chans=config.MODEL.CROS.IN_CHANS,  # 3
                            num_classes=config.MODEL.NUM_CLASSES,  # 1000
                            embed_dim=config.MODEL.CROS.EMBED_DIM,  # 64
                            depths=config.MODEL.CROS.DEPTHS,  # [1, 1, 8, 6]
                            num_heads=config.MODEL.CROS.NUM_HEADS,  # [2,4,8,16]
                            group_size=config.MODEL.CROS.GROUP_SIZE,  # [7,7,7,7]
                            mlp_ratio=config.MODEL.CROS.MLP_RATIO,  # 4
                            qkv_bias=config.MODEL.CROS.QKV_BIAS,  # True
                            qk_scale=config.MODEL.CROS.QK_SCALE,  # None
                            drop_rate=config.MODEL.DROP_RATE,  # 0.0
                            drop_path_rate=config.MODEL.DROP_PATH_RATE,  # 0.1
                            ape=config.MODEL.CROS.APE,  # False
                            patch_norm=config.MODEL.CROS.PATCH_NORM,  # True
                            use_checkpoint=config.TRAIN.USE_CHECKPOINT,  # False
                            merge_size=config.MODEL.CROS.MERGE_SIZE,  # [[2,4],[2,4],[2,4]]
                            )

4.1 CrossFormer

# 为了减少代码量，增加博客的可读性，以下全将不重要的代码省略了
# 可以看图1下面的简介，CrossFormer是由前面的forward_features函数（包含了论文中的全部算法模块）和后面的head函数（一层全连接）组成
class CrossFormer(nn.Module):
    def __init__(......):
        super().__init__()
        ......
        self.patch_embed = PatchEmbed(......)  # 4个不同维度的卷积cat在一起
        self.layers = nn.ModuleList()  # 下面加了4个Stage
        for i_layer in range(self.num_layers):  # 0 ~ 4, merge_size = [[2,4],[2,4], [2,4]]
            patch_size_end = merge_size[i_layer] if i_layer < self.num_layers - 1 else None
            num_patch_size = num_patch_sizes[i_layer]  # num_patch_sizes = [4,2,2,2]
            layer = Stage(......)
            self.layers.append(layer)
		......
        self.norm = norm_layer(self.num_features)
        self.head = nn.Linear(self.num_features, num_classes) if num_classes > 0 else nn.Identity()  # Identity()占位，没有实际意义

    def forward_features(self, x):
        x = self.patch_embed(x)  # 4个卷积叠在一起，第一层CEL
        if self.ape:
            x = x + self.absolute_pos_embed
        x = self.pos_drop(x)  # 0.0 dropout
        for layer in self.layers:  # 4个Stage（就是Cross Former block + 后续CEL）
            x = layer(x)
        x = self.norm(x)  # B L C 正则化
        x = self.avgpool(x.transpose(1, 2))  # B C 1 转置、平均池化
        x = torch.flatten(x, 1)  # 平铺
        return x

    def forward(self, x):
        x = self.forward_features(x)
        x = self.head(x)  # 全连接
        return x

4.2 PatchEmbed

# 第一层的CEL，使用4个不同大小的卷积核进行处理，随后拼接到一起作为输出
class PatchEmbed(nn.Module):
    def __init__(......):
        super().__init__()
        ......
        self.projs = nn.ModuleList()  # 一个存放layer的容器列表，下面的循环添加了四个卷积层
        for i, ps in enumerate(patch_size):
            ......  # 计算卷积网络中的参数以确保后续能拼接在一起
            self.projs.append(nn.Conv2d(in_chans, dim, kernel_size=ps, stride=stride, padding=padding))

    def forward(self, x):
        B, C, H, W = x.shape
        xs = []
        for i in range(len(self.projs)):
            tx = self.projs[i](x).flatten(2).transpose(1, 2)
            xs.append(tx)  # B Ph*Pw C
        x = torch.cat(xs, dim=2)  # 在这里拼接了
        if self.norm is not None:
            x = self.norm(x)
        return x

4.3 Stage

# 如图1中所示的Stage1，2，3，4，内部包含了CrossFormerBlock
class Stage(nn.Module):
    def __init__(......):
        super().__init__()
        ......
        self.blocks = nn.ModuleList()
        for i in range(depth):
            self.blocks.append(CrossFormerBlock(......))
        if downsample is not None:
            self.downsample = downsample(......)
        else:
            self.downsample = None

    def forward(self, x):
        for blk in self.blocks:
            if self.use_checkpoint:
                x = checkpoint.checkpoint(blk, x)
            else:
                x = blk(x)
        if self.downsample is not None:  
        	# 下采样，通过PatchMergeing函数实现，内部包含了一些卷积、改变维度和转置等操作
            x = self.downsample(x)
        return x

4.4 CrossFormerBlock

# 每个CrossFormerBlock块包含了一些正则化、自注意机制和多层感知机
class CrossFormerBlock(nn.Module):
    def __init__(......):
        super().__init__()
        ......
        self.attn = Attention(......)  # 自注意模块
        self.mlp = Mlp(......)  # 多层感知机
        ......

    def forward(self, x):
        ......
        x = self.norm1(x)
        ......
        x = self.attn(x, mask=self.attn_mask)
        ......
        x = x + self.drop_path(self.mlp(self.norm2(x)))
        return x

4.5 Attention

class Attention(nn.Module):
    def __init__(......):
        super().__init__()
        # 全是一些运算必须的参数，看这块的代码还不如看论文能理解得更明白，赋值来赋值去眼花缭乱
        ......
        self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)
        self.attn_drop = nn.Dropout(attn_drop)
        self.proj = nn.Linear(dim, dim)
        self.proj_drop = nn.Dropout(proj_drop)
        self.softmax = nn.Softmax(dim=-1)

    def forward(self, x, mask=None):
    	# 全是一些运算，看这块的代码还不如看论文能理解得更明白，赋值来赋值去眼花缭乱
        ......
        attn = (q @ k.transpose(-2, -1))  # @是pytorch中的矩阵乘法运算符
        ......
        return x

5.个人总结

博主吐槽：
- mmcv断断不可尝试windows（脸上笑嘻嘻）
- mmdet的模型注册机制也零新手比较头疼，本文只是尝试了一个可以用的方法，理论上应该有更好的实现方式，毕竟python的注解机制这样用就显得一文不值了
待深入列表：
- Transformer、self-attention机制
- 2021年新出的这么多Transformer模型：DeiT、PVT、T2T-ViT、TNT、CViT、Twin、Swin、NesT、CVT、TransCNN、Shuffle、BoTNet和RegionViT

你可能感兴趣的:(论文与项目,计算机视觉,transformer,深度学习)

MySQL存储结构深度解析：Buffer Pool与Page管理 hdzw20 mysql复习 mysql 数据库
MySQL存储结构解析：BufferPool与Page管理在MySQL的InnoDB存储引擎中，BufferPool是其核心组件之一，它极大地提升了数据库的性能。理解BufferPool的内部结构和工作机制，对于优化MySQL数据库至关重要。本文将讨论BufferPool的结构、三大链表、改进型LRU算法以及ChangeBuffer机制。1.BufferPool结构：控制块与缓存页BufferPo
毫秒级断电+AI预警：广州曼顿智能空开如何重新定义电气安全？ mdkk678 人工智能安全
在智慧城市、工业4.0与“双碳”目标的推动下，电力系统正经历从传统被动响应向主动智能防控的深刻变革。广州曼顿科技推出的智能空气开关，凭借毫秒级断电技术与AI预警系统的深度融合，不仅填补了传统断路器在响应速度、故障预判和能效管理上的技术空白，更以“零时差守护”理念重塑了电气安全的新范式。一、技术突破：毫秒级断电的“物理屏障”传统断路器依赖机械结构实现过载保护，其响应时间通常在数十毫秒以上，难以应对瞬
【车载测试之CAPL编程系列】：【16】函数定义(2)
车载测试CAPL编程系列：CAPL中的函数定义(2)目录函数定义的基本形式参数类型与返回值函数重载（Overload）返回值限制：不能返回数组AI总结函数定义的基本形式CAPL函数定义具有灵活性，可根据需求设计无返回值、无参数的函数。无返回值、无参数的函数返回值类型：若函数无返回值，可声明为void，且void关键字可省略（CAPL特性，区别于C语言）。参数：允许无参数，但必须保留空括号()。示例
多模态大语言模型arxiv论文略读（151）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文阅读论文笔记
ANovelMLLM-basedApproachforAutonomousDrivinginDifferentWeatherConditions➡️论文标题：ANovelMLLM-basedApproachforAutonomousDrivinginDifferentWeatherConditions➡️论文作者：SondaFourati,WaelJaafar,NouraBaccar➡️研究机构:
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
多模态大语言模型arxiv论文略读（152）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文笔记论文阅读
VidComposition:CanMLLMsAnalyzeCompositionsinCompiledVideos?➡️论文标题：VidComposition:CanMLLMsAnalyzeCompositionsinCompiledVideos?➡️论文作者：YunlongTang,JunjiaGuo,HangHua,SusanLiang,MingqianFeng,XinyangLi,RuiM
AI+区块链：代购系统如何破解碳足迹追踪“数据黑箱”？
绿色电商趋势：代购系统如何实现碳足迹追踪与可持续物流？在全球气候危机与可持续发展目标的双重驱动下，绿色电商正从概念走向实践。作为跨境电商的核心环节，代购系统如何通过技术创新实现碳足迹追踪与可持续物流，成为行业突破增长瓶颈、构建差异化竞争力的关键。本文结合技术架构、行业实践与未来趋势，解析代购系统在绿色转型中的路径选择。一、碳足迹追踪：从数据孤岛到全链路透明1.技术架构：区块链+IoT构建可信数据链
青少年编程与数学 02-022 专业应用软件简介 24 项目管理工具：Trello
青少年编程与数学02-022专业应用软件简介24项目管理工具：Trello引言一、Trello的发展背景与历程1.1创立初衷1.2被Atlassian收购二、Trello的核心功能与特性2.1看板式任务管理（KanbanBoard）2.2卡片内容丰富性2.3自动化与规则引擎（Butler）2.4团队协作与权限管理三、Trello的应用场景与行业应用3.1软件开发与敏捷项目管理3.2市场营销与内容策
Android四大组件：Broadcast giaoho 安卓开发学习 android
Android四大组件：Broadcast-1.标准广播（Normalbroadcasts）执行特性：完全异步，广播发出后，所有接收器几乎同时接收，无先后顺序。效率与拦截：效率高，但无法被截断。流程：发出广播后，多个接收器同时接收，中“发出广播”向“广播接收器1、2、3”同时传递。有序广播（Orderedbroadcasts）执行特性：同步执行，同一时刻仅一个接收器接收，执行完逻辑后广播才继续传递
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
大模型中标斩获3项第一！百度智能云
今年1-4月，百度智能云在主流大模型厂商中一举拿下三项第一！数量最多！中标项目数量7个！行业最全！覆盖最多行业6个！金额最高！中标金额总数最高5600万+南方电网、泰康保险、北京车网、中华总工会、上海城投污水处理有限公司等行业头部客户，纷纷与百度智能云达成合作，体现出大模型技术在政策、市场的双轮驱动下的强劲增长态势。百度智能云将继续深化与行业客户合作，共同探索大模型技术在各行业的应用场景，推动行业
c语言逻辑运算符编程,C语言之逻辑运算符详解湛蓝色的迷惘 c语言逻辑运算符编程
一逻辑运算符：&&：逻辑与，读作并且表达式左右两边都为真，那么结果才为真口诀：一假则假||：逻辑或，读作或者表达式左右两边，有一个为真，那么结果就为真口诀：一真则真!:逻辑非，读作取反表达式的结果如果为假，就变成真，如果为真，就变成假口诀：真变假，假变真二逻辑运算符的短路问题tips:非0为真，0为假短路的情况：&&：左边如果为假，则右边短路(右边不会被执行)||：左边如果为真，则右边短路(右边不
PHP安全编程实践系列（三）：安全会话管理与防护策略软考和人工智能学堂 php #php程序设计经验 php 安全开发语言
前言会话管理是Web应用安全的核心环节，不安全的会话实现可能导致用户账户被劫持、敏感数据泄露等严重后果。本文将深入探讨PHP中的会话安全机制，分析常见会话攻击手段，并提供全面的防护策略和实践方案。一、会话安全基础1.1PHP会话机制工作原理理论：PHP会话是通过会话ID（SessionID）在服务器和客户端之间维持状态的一种机制。关键流程包括：会话初始化：session_start()调用会话ID
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
Vue3 学习教程，从入门到精通，使用 VSCode 开发 Vue3 的详细指南（3）知识分享小能手前端开发 vue3 网页开发学习前端 javascript vue.js vue3 vue 前端框架
使用VSCode开发Vue3的详细指南本文将详细介绍如何使用VisualStudioCode(VSCode)开发Vue3项目，包括创建项目、打开项目、运行第一个入门程序，并涵盖关键的语法知识点及使用方法。每个知识点都将提供具体的案例代码，并附有详细注释。此外，还将提供一些入门案例，帮助您快速上手Vue3开发。目录准备工作创建Vue3项目在VSCode中打开Vue3项目运行第一个入门程序Vue3关键
【实战派×学院派】32｜上线后一堆优化需求，到底是 Bug 还是改进？郭菁菁 (BA/PM)实战派常踩的坑学院派如何补上 bug 业务分析需求分析 BA
学院派：用Bug/Enhancement分类机制+优化反馈池+二次迭代评审机制，避免优化失控、节奏紊乱你是不是也遇到过这样的场景：“这个报表逻辑不太合理，麻烦调整下。”“那个按钮位置不合适，顺便挪一挪吧。”“这个功能可以加个提醒吗？体验会好一点。”项目刚上线没多久，各路优化意见像潮水一样涌来。最让人头疼的是：到底这些算Bug（缺陷）还是Enhancement（优化改进）？该优先处理哪个？哪些该打回
进阶之App 测试一只舰性能测试
App知识点什么是activityActivity一个应用程序的组件，它提供一个屏幕来与用户交互。Activity:应用程序中，一个Activity就相当于手机屏幕，它是一种可以包含用户界面的组件，主要用于和用户进行交互。一个应用程序可以包含许多活动，比如事件的点击，一般都会触发一个新的Activity。Activity生命周期四种状态:1、运行2、暂停3、停止4、系统回收（killed）Andr
Three.js实现海洋与天空
Three.js实现海洋与天空https://threehub.cn/#/codeMirror?navigation=ThreeJS&classify=shader&id=waterSkyimport*asTHREEfrom"three";import{OrbitControls}from'three/examples/jsm/controls/OrbitControls.js'constDOM=
虚幻引擎UE5专用服务器游戏开发-19 设置头顶状态条可见性控制 AA陈超虚幻 ue5 游戏引擎 c++游戏服务器
头顶状态条的动态显示控制。状态条会根据与玩家角色的距离（默认300单位）进行自动隐藏，并通过定时器（默认0.2秒频率）持续检测距离变化。当角色由本地玩家控制时，状态条会自动隐藏。代码采用服务器-客户端初始化架构，并包含碰撞设置、组件创建等基础角色配置。Source/Crunch/Public/Character/CCharacter.h：变量：//计时器频率UPROPERTY(EditDefaul
Fiddler中文版如何提升API调试效率：本地化优势与开发者实战体验汇总代码背锅人日志 ios 小程序 uni-app iphone android webview https
在现代软件开发中，调试网络请求是不可或缺的一环。无论是Web前端、移动App，还是后端微服务，只要涉及到API通信，就离不开高效的抓包工具。Fiddler作为全球使用最广泛的抓包调试工具之一，凭借功能强大、灵活扩展和跨平台支持，深受开发者喜爱。而对于中文用户而言，Fiddler中文版的出现，让这款专业工具变得更加亲民、高效和易于掌握。本文将结合开发者日常使用场景，解析Fiddler中文版如何通过本
百度斩获大模型中标第一，股价上涨5% 大力财经百度
7月7日（周一），百度（BIDU.US）股价上涨5%，收报90.68美元。最新数据显示，2025上半年我国大模型相关项目呈现爆发式增长态势：中标项目累计达1810个，金额突破64亿元，中标项目数超2024全年，市场需求持续释放。其中，百度智能云表现尤为突出，以48个中标项目和5.1亿元中标金额，稳居“双第一”，并在金融、能源、政务、制造等重点行业中持续领跑。依托领先的大模型技术与全栈智能基础设施，
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
深入解析：v0、Cursor、Manus等AI编程助手的系统提示词、工具与模型张道宁人工智能
引言在当今快速发展的AI编程领域，涌现出了许多强大的AI编程助手工具，如v0、Cursor、Manus、Same.dev、Lovable、Devin和ReplitAgent等。这些工具通过智能化的代码生成、补全和优化，正在彻底改变开发者的工作流程。v0：Vercel的AIUI生成器系统提示词设计v0的系统提示词专注于将自然语言描述转换为可用的UI代码（主要是React和TailwindCSS）。其
开源人工神经网络库（OpenANN） deepdata_cn 人工智能神经网络
OpenANN（OpenANN，OpenArtificialNeuralNetworkLibrary）是一个开源的人工神经网络库，基于C++编写，依赖Eigen3库进行高效的矩阵运算，使用CMake进行项目构建，支持多种神经网络架构，包括前馈神经网络、卷积神经网络和循环神经网络等，适用于图像识别、自然语言处理、时间序列预测等多种场景。提供数据预处理、模型保存和加载、超参数优化等功能。支持GPU加速
量子传感探针：金刚石NV色心实现细胞级磁弹性成像（分辨率10nm）技术解析百态老人人工智能
一、技术原理与核心突破金刚石氮-空位色心（NV色心）作为原子级量子传感器，其磁弹性成像能力源于电子自旋态与环境磁场的量子相干相互作用，结合纳米探针技术实现细胞级分辨率。核心技术原理包括：1.NV色心量子传感机制磁弹性耦合模型：NV色心的自旋哈密顿量可表示为：H=DSz2+γeB⋅S+λϵ⋅SH=DS_z^2+\gamma_e\mathbf{B}\cdot\mathbf{S}+\lambda\mat
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end