花花少年

【Transformer系列】深入浅出理解ViT(Vision Transformer)网络模型

一、参考资料

极智AI | 详解 ViT 算法实现
MobileViT模型简介
ECCV 2022丨力压苹果MobileViT，这个轻量级视觉模型新架构火了
ECCV 2022丨轻量级模型架构火了，力压苹果MobileViT（附代码和论文下载）
再读VIT，还有多少细节是你不知道的

二、知识储备

1. ViT学习路径

ViT；
PVT；
Swin Transformer；
DETR；
Deformable DETR；
Sparse RCNN；

2. 回顾CNN

CNN 里最重要的算子是卷积，卷积具有两个很重要的特性：translation equivariance 平移等价性 和 locality 局部性。

translation equivariance 平移等价性：卷积是个滑窗的过程，每次的滑窗会对应一次矩阵乘，平移等价性的意思是你先做矩阵乘还是先平移滑窗，对卷积结果是不影响的，这最大的好处就是很容易进行并行化，以加速推理；
locality 局部性：一般卷积核大小用 3 x 3 的比较多，3 x 3 卷积的感受野是有限的，只能看到局部区域，而不能一下子看到全局区域，所以卷积侧重关注在提取局部区域特征的关联，而不能很好的做全局特征的联系，这当然有好有坏。

3. 归纳偏置问题

3.1 CNN中的归纳偏置

归纳偏置用大白话来说，就是一种假设，或者说一种先验知识。有了这种先验，我们就能知道哪一种方法更适合解决哪一类任务。所以归纳偏置是一种统称，不同的任务其归纳偏置下包含的具体内容不一样。

对图像任务来说，它的归纳偏置有以下两点：

空间局部性（locality）：假设一张图片中，相邻的区域是有相关特征的。比如太阳和天空就经常一起出现。
平移等边性（translation equivariance）： $f (g (x)) = g (f (x))$ ， $f$ = 卷积， $g =$ 平移。假设一张图中，左上角有一个太阳，你对这张图正常做卷积得到特征图，则左上角的卷积可表示为 $f (x)$ ，做完卷积后，你想把左上角的特征图移动到右上角去，则你这一顿操作可以用来表示 $g (f (x))$ 。这一系列操作等同于，你先把左上角的太阳移动到右上角去 $(g (x))$ ，然后再做卷积 $f (g (x))$ ，这就是图像的平移等边性。不论物体移动到哪里，只要给卷积核的输入不变，那么输出也是一致的。

在这两种先验假设下，CNN成为了图像任务最佳的方案之一。卷积核能最大程度保持空间局部性（保存相关物体的位置信息）和平移等边性，使得在训练过程中，最大限度学习和保留原始图片信息。

3.2 ViT中的归纳偏置

如果说ViT相比于卷积，在图像任务上没有显著优势，那大概率ViT对这两种先验的维护没有CNN做的好，具体来看：

图中箭头所指的两部分都属于同一栋建筑。在卷积中，我们可以用大小适当的卷积核将它们圈在一起。但是在ViT中，它们之间的位置却拉远了，如果我把patch再切分细一些，它们的距离就更远了。虽然attention可以学习到向量间的想关系，但是ViT在空间局部性的维护上，确实没有卷积做的好。而在平移等边性上，由于ViT需要对patch的位置进行学习，所以对于一个patch，当它位置变幻时，它的输出结果也是不一样的。所以，ViT的架构没有很好维护图像问题中的归纳偏置假设。

但是，这就意味着ViT没有翻盘的一天了吗？当然不是，不要忘了，**Transformer架构的模型都有一个广为人知的特性：大力出奇迹。**只要它见过的数据够多，它就能更好地学习像素块之间的关联性，当然也能抹去归纳偏置的问题。

4. 微调（fine-tune）

预训练好的ViT模型是个有力的特征提取器，我们可以用它输出的特征，去做更多有趣的下游任务（downstream task)。例如拿它去做类型更丰富的分类，目标检测等事情。在做这些任务时，我们会喂给预训练模型一堆新的数据，同时尽量保证模型的主体架构不变（例如ViT整体参数不动，只在输出层后接一个新模型，再次训练时只对新模型做参数更新之类）。这种既利用了已有模型的特征提取能力，又能让模型更好适应不同任务的操作，称为微调（fine-tune）。

在fine-tune的时候，我们用的图像大小可能和预训练时的并不一致，比如：

预训练时用224*224*3大小的图片，fine-tune时为了效果更好，一般选择分辨率更高的图片，例如1024*1024*3。
假设保持patch尺寸P=16不变，则预训练时产生的patch数有196个，fine-tune时产生的patch数有4096个，即： $\left(\frac{H*W}{P^{2}}\right)$ 。
我们知道，Transformer主体架构理论上是可以处理任意长度的输入序列的（相关分析参见这篇文章）。但是**可学习的（learnable）**位置编码不是，由于一个位置对应一条位置编码，它和输入序列长度密切相关。

那么多出来的patch，在fine-tune时要怎么给它们位置编码呢？如果统一都赋成0向量，然后在fine-tune的时候再去训练这些向量，看起来可以，但这样粗暴的赋值不仅增加了计算量，也浪费了已有的信息（例如，是否能从已有的位置编码粗略地初始化一些新的位置编码出来？）考虑到这一点，ViT在fine-tune时，对预训练阶段的位置编码做了2D插值处理。

如图绿色部分所示，在fine-tune阶段要处理的patch/token数 $s_{\mathrm{finetune}}$ 可能比预训练阶段要处理的 $s_{\mathrm{pretrain}}$ 要多。图中红色部分演示了如何通过插值方法将 $s_{\mathrm{pretrain}}$ 扩展至 $s_{\mathrm{finetune}}$ 。其中interpolate部分就是2D插值，这部分是重点，我们直接看下代码中的操作：

new_pos_embedding_img = nn.functional.interpolate(
            pos_embedding_img,
            size=new_seq_length_1d,
            mode=interpolation_mode,
            align_corners=True,
        )

可以发现这里用了pytorch内置的interpolate函数，mode表示具体的插值方法，在ViT中采用的是bicubic。align_corners=True 的意思是在固定原矩阵四角的情况下按mode进行插值，可以参考上图中，白色圆圈表示原始的矩阵，蓝色点表示做完插值后的矩阵。插值后矩阵的四角保持不变，中间则按设置的方法做插值。关于插值位置编码更详细的讲解，可以参考：【ViT 微调时关于position embedding如何插值（interpolate）的详解】

5. NLP Transformer与ViT对比

NLP Transformer	ViT
句子	图像
words	patchs
word embedding	patch embedding

三、ViT相关介绍

1. ViT简介

ViT 全称 Vision Transformer，不同于传统的基于CNN的网络结果，是基于transformer结构的cv网络。

2. ViT模型特点

ViT模型主要应用于图像分类领域。因此，其模型结构相较于传统的Transformer有以下几个特点：

数据集的原图像被划分为多个Patch后，通过Patch Embedding将二维Patch（不考虑channel）转换为一维向量，再加上类别向量与位置向量作为模型输入。
模型主体的Block结构是基于Transformer的Encoder结构，但是调整了Normalization的位置，其中，最主要的结构依然是Multi-head Attention结构。
模型在Blocks堆叠后接全连接层，接受类别向量的输出作为输入并用于分类。通常情况下，我们将最后的全连接层称为Head，Transformer Encoder部分为backbone。

ViT模型利用Transformer模型在处理上下文语义信息的优势，将图像转换为一种“变种词向量”然后进行处理，而这种转换的意义在于，多个Patch之间本身具有空间联系，这类似于一种“空间语义”，从而获得了比较好的处理效果。

3. ViT数据流

4. ViT整体流程

解决图像分类任务的利器——Vision Transformer
mindspore vit模型

5. ViT性能对比

如下图所示， BiT 代表 ResNet，ViT* 代表 ViT 系列，可以看出：在相对小一些的数据集上如 ImageNet，ViT 普遍比不过 ResNet，而在 ImageNet-21k 这种中型的数据集上 ViT 性能和 ResNet 旗鼓相当，慢慢开始超越了，当在 JFT-300M 这种大型一些的数据集上时，ViT 开始全面超越 ResNet。

6. 不同ViT模型的表示符

ViT预训练了三种不同参数规模的模型，分别是ViT-Base ，ViT-Large和ViT-Huge。其规模可具体见上图。

在论文及实际使用中，我们常用ViT-size/patch_size的形式来表示该模型是在“什么规模”及“多大的patch尺寸”上预训练出来的。例如ViT-H/14就表示该模型是在Huge规模上，用patch尺寸为14的数据做预训练的。

7. ViT总结与思考

总结起来，ViT的训练其实就在做一件事情：把图片打成Patch，送入Transformer Encoder，然后拿对应位置的向量，过一个简单的softmax多分类模型，去预测原始图片中描绘的物体类别即可。

你可能会想：“这个分类任务只用一个简单的softmax，真得能分准吗？”其实，这就是ViT的精华所在：**ViT的目的不是让这个softmax分类模型强大，而是让这个分类模型的输入强大。这个输入就是Transformer Encoder提炼出来的特征。**分类模型越简单，对特征的要求就越高。

**所以，为什么说Transformer开启了大一统模型的预训练大门呢？主要原因就在于它对特征的提炼能力——这样我们就可以拿这个特征去做更多有趣的任务了。**这也是ViT能成为后续多模态backbone的主要原因。

四、ViT网络结构

ViT是基于多个transformer encoder模块串联起来，由多个inception模块串联起来，基本结构由patch_embeding + n transformer layer + head(分类网络中就是FC)构成。

ViT模型输入：Patch Embedding+Class Embedding+Position Embedding。

1. Patch Embedding

功能：通过Patch Embedding操作，得到一维向量。

1.1 引言

在 NLP Transformer中，句子都是一维的，而图像数据是二维的，那怎么把二维的图像数据变成跟 NLP 一样一维的呢，有几种方法：

按像素展开，每个像素就是一个Patch (一个 Patch 类比 NLP 中的一个词)，这样的话，如果以 224*224 的输入尺寸来说，Patch数 = 224 x 224 = 50176。这样的做的缺点就是 Patch数太大了，是不可接受的，拿 BERT 对比一下，BERT 具有 4810 亿个参数，在 2048 块 TPUv4 下需要训练 20 个小时，而 BERT 的 Patch数也不过 512 而已，所以这显然不行；
用特征图作为 Transformer 的输入，比如先接一个 resnet50，出来 14x14 的特征图，即 Patch数 = 14x14 = 196，再输入 Transformer；
按轴展开，这种是做了两次的自注意力，一次是横轴的自注意力，另一次是纵轴的自注意力，把 H x W 的复杂度拆成了 H + W 的复杂度；
把窗口块作为一个 Patch，思想就像卷积那样；

1.2 Patch图像块

ViT 利用等分窗口图片块的思想，将图像分成块，每个小块称作Patch，每个Patch块看作NLP Transformer中的一个单词。

例如，假设原始图片尺寸大小为：224*224*3（H*W*C）。

每个Patch的尺寸设为16（P=16），则每个Patch下图片的大小为：16*16*3，Patch共有 (224/16) x (224/16) = 14 x 14=196个。

1.3 Patch Embedding（Patch to Token）

Patch Embedding将每一个Patch的矩阵拉伸成为一个1维向量，从而获得近似词向量堆叠的效果。

如上图所示，每个Patch对应着一个token，将每个Patch展平，则得到输入矩阵X，其大小为(196, 768)，其中16*16*3=768，也就是每个token是768维。通过这样的方式，我们成功将图像数据处理成自然语言的向量表达方式。

那么现在问题来了，对于图中每一个16*16*3的小方块，我要怎么把它拉平成1*768维度的向量呢？

比如说，我先把第一个channel拉成一个向量，然后再往后依次接上第二个channel、第三个channel拉平的向量。但这种办法下，同一个pixel本来是三个channel的值共同表达的，现在变成竖直的向量之后，这三个值的距离反而远了。基于这个原因，你可能会想一些别的拉平方式，但归根究底它们都有一个共同的问题：太规则化，太主观。

ViT中最终采用CNN进行特征提取，具体方案如下：

采用768个16*16*3尺寸的卷积核，stride=16，padding=0。这样我们就能得到14*14*768大小的特征图。如图所示，特征图中每一个1*1*768大小的子特征图，都是由卷积核对第一块patch做处理而来，因此它就能表示第一块patch的token向量。

Patch Embedding之后，会经过 Class Embedding 和 Position Embedding 两个过程。

2. Class Embedding

功能：通过Class Embedding操作，得到类别向量。

2.1 `Class Embedding`简介

Class Embedding 主要借鉴了BERT模型的用于文本分类时的思想，在每一个word vector之前增加一个类别值，通常是加在向量的第一位。例如，Patch Embedding得到的196维的向量加上 Class Embedding 后，变成197维。Class Embedding 用于最后的类别输出，可参考BERT 的 class token，整个过程示意如下图：

Class Embedding是可以学习的参数，经过网络的不断训练，最终以输出向量的第一个维度的输出来决定最后的输出类别。由于输入是 16x16个Patch，所以输出进行分类时是取16x16个Class Embedding进行分类。

2.2 `Class Embedding`预测类别的方式

Class Embedding有两种预测类别的方式：

使用 class token；
使用全局平均池化。

这两种方式都是可行的，更倾向于使用 class token 是因为想把原滋原味的 transformer 直接应用到 CV 领域。这两种预测类别的方式，试验效果如下：

其中，**蓝色是 class token **，橙色和绿色是全局平均池化，橙色的存在告诉你需要好好调参，结果的好坏和你调参的姿态关系很大。

3. Position Embedding

功能：通过Position Embedding操作，得到位置向量。

3.1 引言

为什么要加这个位置编码，加上以后会有什么效果？

图像切分重排后，失去了位置信息，并且Transformer的内部运算是空间信息无关的，所以需要把位置信息编码重新传进网络。

3.2 Position Embedding简介

Position Embedding 将位置编码嵌入图像块，用于表达图像块在原图的位置信息。位置编码随位置变化，即位置差别越大，位置编码差别越大。

在NLP Transformer中，把一个word单词转换成vector向量，就是把一个单词映射到了一个高维空间的位置，意思相近的词会在高维空间内比较靠近。

3.3 Position Embedding计算过程

Position Embedding 操作会创建一个197维的可训练的向量，加入到经过 Class Embedding 的向量中。Position Embedding的长度和 Class Embedding 一致，两个embedding直接相加。

产生位置信息的方式主要分两大类，一类是直接通过固定算法产生，一种是训练获得。但加位置信息的方式还是比较统一且粗暴的。具体从方法上可以位置编码分为几种：

Providing no positional information：不考虑位置信息；
1-dimensional positional embedding：把 CV 当 NLP 来做，只考虑一维位置信息；
2-dimensional positional embedding：考虑 CV 特殊的二维空间位置信息；
Relative positional embedding：相对位置编码，既考虑相对位置信息又考虑绝对位置信息；

虽然位置编码的方法挺多，但从实验来看，对网络最后的结果影响不大(No Pos 会相对低一点)，数据如下：

4. Encoder编码器

Transformer Encoder是两个块的堆叠，然后再整体叠加 L 次。这两个块指的是：

LayerNorm + Multi-Head Attention；
LayerNorm + MLP；

4.1 LayerNorm（LN）

在 CV 里用的比较多的是 BatchNorm，那在NLP里为啥不喜欢用 BN 呢？因为 NLP 里输入序列往往是动态的，即序列的长度不定，一个序列就是一个样本。而BN 计算的是样本间的归一化，这样做一定会导致值域波动很大；而LN是在样本内做，不用考虑类间差异，波动就相对小很多。简单理解，Batch Normalization是对每个通道的**所有样本（样本间）进行归一化，而Layer normalization是对每个样本（样本内）**的所有特征进行归一化。

# NLP Example
batch, sentence_length, embedding_dim = 20, 5, 10
embedding = torch.randn(batch, sentence_length, embedding_dim)
# 指定归一化的维度
layer_norm = nn.LayerNorm(embedding_dim)
# 进行归一化
layer_norm(embedding)
 
# Image Example
N, C, H, W = 20, 5, 10, 10
input = torch.randn(N, C, H, W)
# Normalize over the last three dimensions (i.e. the channel and spatial dimensions)
# as shown in the image below
layer_norm = nn.LayerNorm([C, H, W])
output = layer_norm(input)

在ViT中，虽然LN处理的是图片数据，但在进行LN之前，图片已经被切割成了Patch，而每个Patch表示的是一个词，因此是在用语义的逻辑在解决视觉问题，因此在ViT中，LN也是按语义的逻辑在用的。

4.2 Multi-Head Attention 多头注意力机制

Multi-Head Attention 多头注意力机制，来源于论文《Attention Is All You Need》，示意如下：

多头即将模型分为多个头，形成多个子空间，让模型去关注不同方面的信息，将 Scaled Dot-Product Attention 过程做 h 次，再把输出做 cat。这样做的目的是为了使网络能够综合利用多方面角度提取更加准确的表示，从而可以捕捉到更加丰富的特征，可以类比 CNN 中多个核分别提取特征的作用。

4.3 Forward Features

Patch embedding -> 加cls -> 加pos embedding -> 用blocks进行encoding -> layer normalization -> 输出图的embedding。

def forward_features(self, x):
    # x由（B，C，H，W）->（B，N，E）
    x = self.patch_embed(x)
    # stole cls_tokens impl from Phil Wang, thanks
    # cls_token由(1, 1, 768)->(B, 1, 768), B是batch_size
    cls_token = self.cls_token.expand(x.shape[0], -1, -1)
    # dist_token是None,DeiT models才会用到dist_token。
    if self.dist_token is None:
        # x由(B, N, E)->(B, 1+N, E)
        x = torch.cat((cls_token, x), dim=1)
    else:
        # x由(B, N, E)->(B, 2+N, E)
        x = torch.cat((cls_token, self.dist_token.expand(x.shape[0], -1, -1), x), dim=1)
    # +pos_embed:(1, 1+N, E)，再加一个dropout层
    x = self.pos_drop(x + self.pos_embed)
    x = self.blocks(x)
    # nn.LayerNorm
    x = self.norm(x)
    if self.dist_token is None:
        # 不是DeiT，输出就是x[:,0]，(B, 1, 768)，即cls_token
        return self.pre_logits(x[:, 0])
    else:
        # 是DeiT，输出就是cls_token和dist_token
        return x[:, 0], x[:, 1]

这里在Patch 那个维度加入了一个cls_token，可以这样理解这个存在，其他的embedding表达的都是不同的Patch的特征，而cls_token是要综合所有Patch的信息，产生一个新的embedding，来表达整个图的信息。而dist_token则是属于DeiT网络的结构。

4.4 Feed Forward Neural Network

forward features -> 最终输出。

    def forward(self, x):
        #（B，C，H，W）-> (B, 1, 768)
        # (B,C,H,W) -> (B, 1, 768), (B, 1, 768)
        x = self.forward_features(x)
        
        if self.head_dist is not None:
            # 如果num_classes>0, (B, 1, 768)->(B, 1, num_classes)
            # 否则不变
            x, x_dist = self.head(x[0]), self.head_dist(x[1])
            if self.training and not torch.jit.is_scripting():
                return x, x_dist
            else:
                # during inference, 
                # return the average of both classifier predictions
                return (x + x_dist) / 2
        else:
            # 如果num_classes>0, (B, 1, 768)->(B, 1, num_classes)
            # 否则不变
            x = self.head(x)
        return x

4.5 MLP

MLP 全称 multi-layer perceptron，里面使用非线性激活函数去做分类的预测。

4.6 Encoder代码实现

Encoder在ViT中的实现细节如下面代码所示（layer normalization -> multi-head attention -> drop path -> layer normalization -> mlp -> drop path），换了个名字，叫block了：

class Block(nn.Module):
    def __init__(self, dim, num_heads, mlp_ratio=4., qkv_bias=False, drop=0., attn_drop=0.,
                 drop_path=0., act_layer=nn.GELU, norm_layer=nn.LayerNorm):
        super().__init__()
        # 将每个样本的每个通道的特征向量做归一化
        # 也就是说每个特征向量是独立做归一化的
        # 我们这里虽然是图片数据，但图片被切割成了Patch，用的是语义的逻辑
        self.norm1 = norm_layer(dim)
        self.attn = Attention(dim, num_heads=num_heads, qkv_bias=qkv_bias, attn_drop=attn_drop, proj_drop=drop)
        # NOTE: drop path for stochastic depth, we shall see if this is better than dropout here
        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()
        self.norm2 = norm_layer(dim)
        mlp_hidden_dim = int(dim * mlp_ratio)
        # 全连接，激励，drop，全连接，drop,若out_features没填，那么输出维度不变。
        self.mlp = Mlp(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer, drop=drop)
    def forward(self, x):
        # 最后一维归一化，multi-head attention, drop_path
        # (B, N, C) -> (B, N, C)
        x = x + self.drop_path(self.attn(self.norm1(x)))
        # (B, N, C) -> (B, N, C)
        x = x + self.drop_path(self.mlp(self.norm2(x)))
        return x

在ViT中这样的block会有好几层，形成blocks：

# stochastic depth decay rule
dpr = [x.item() for x in torch.linspace(0, drop_path_rate, depth)]
self.blocks = nn.Sequential(*[
    Block(
        dim=embed_dim, num_heads=num_heads, mlp_ratio=mlp_ratio, qkv_bias=qkv_bias, drop=drop_rate,
        attn_drop=attn_drop_rate, drop_path=dpr[i], norm_layer=norm_layer, act_layer=act_layer)
    for i in range(depth)])

如果drop_path_rate大于0，每一层block的drop_path的会线性增加。depth是一个blocks里block的数量。也可以理解为blocks这个网络块的深度。

五、相关经验

ViT代码实现

极智AI | 详解 ViT 算法实现

六、FAQ

Q：为什么要处理成patch？

你可能想问，为什么一定要先分patch，再从patch转token呢？

第一个原因，是为了减少模型计算量。

在Transformer中，假设输入的序列长度为N，那么经过attention时，计算复杂度就为，因为注意力机制下，每个token都要和包括自己在内的所有token做一次attention score计算。

在ViT中，，当patch尺寸P越小时，N越大，此时模型的计算量也就越大。因此，我们需要找到一个合适的P值，来减少计算压力。

第二个原因，是图像数据带有较多的冗余信息。

和语言数据中蕴含的丰富语义不同，像素本身含有大量的冗余信息。比如，相邻的两个像素格子间的取值往往是相似的。因此我们并不需要特别精准的计算粒度（比如把P设为1）。这个特性也是之后MAE之类的像素级预测模型能够成功的原因之一。

Q：ViT的Attention到底看到了什么？

实验图刻画了ViT的16个multi-head attention学到的像素距离信息。横轴表示网络的深度, 纵轴表示“平均注意力距离”, 我们设第 $i$ 个和第 $j$ 个像素的平均注意力距离为 $d_{ij}$ , 真实像素距离为 $d_{ij}^{\prime}$ , 这两个像素所在patch某一个head上的attention score为 $a_{ij}$ , 则有: $d_{ij}=a_{ij}*d_{ij}^{\prime}$ 。当 $d_{ij}$ 越大时, 说明ViT的attention机制能让它关注到距离较远的两个像素, 类似于CNN中的“扩大感受野”。

图中每一列上，都有16个彩色原点，它们分别表示16个head观测到的平均像素距离。由图可知，在浅层网络中，ViT还只能关注到距离较近的像素点，随着网络加深，ViT逐渐学会去更远的像素点中寻找相关信息了。这个过程就和用在CNN中用卷积逐层去扩大感受野非常相似。

下图的左侧表示原始的输入图片，右侧表示ViT最后一层看到的图片信息，可以清楚看见，ViT在最后一层已经学到了将注意力放到关键的物体上了，这是非常有趣的结论：

Q：ViT的位置编码学到了什么？

图像的空间局部性（locality），即有相关性的物体（例如太阳和天空）经常一起出现。CNN采用卷积框取特征的方式，极大程度上维护了这种特性。其实，ViT也有维护这种特性的方法，上面所说的attention是一种，位置编码也是一种。

我们来看看ViT的位置编码学到了什么信息：

上图是ViT-L/32模型下的位置编码信息，图中每一个方框表示一个patch，图中共有7_7个patch。而每个方框内，也有一个7_7的矩阵，这个矩阵中的每一个值，表示当前patch的position embedding和其余对应位置的position embedding的余弦相似度。颜色越黄，表示越相似，也即patch和对应位置间的patch密切相关。

注意到每个方框中，最黄的点总是当前patch所在位置，这个不难理解，因为自己和自己肯定是最相似的。除此以外颜色较黄的部分都是当前patch所属的行和列，以及以当前patch为中心往外扩散的一小圈。这就说明ViT通过位置编码，已经学到了一定的空间局部性。

Q：ViT的意义何在？

在工业界，人们的标注数据量和算力都是有限的，因此CNN可能还是首要选择。但是，ViT的出现，不仅是用模型效果来考量这么简单，今天再来看这个模型，发现它的意义在于：

证明了一个统一框架在不同模态任务上的表现能力。在ViT之前，NLP的SOTA范式被认为是Transformer，而图像的SOTA范式依然是CNN。ViT出现后，证明了用NLP领域的SOTA模型一样能解图像领域的问题，同时在论文中通过丰富的实验，证明了ViT对CNN的替代能力，同时也论证了大规模+大模型在图像领域的涌现能力（论文中没有明确指出这是涌现能力，但通过实验展现了这种趋势）。这也为后续两年多模态任务的发展奠定了基石。
虽然ViT只是一个分类任务，但在它提出的几个月之后，立刻就有了用Transformer架构做检测（detection）和分割（segmentation）的模型。而不久之后，GPT式的无监督学习，也在CV届开始火热起来。
工业界上，对大部分企业来说，受到训练数据和算力的影响，预训练和微调一个ViT都是困难的，但是这不妨碍直接拿大厂训好的ViT特征做下游任务。同时，低成本的微调方案研究，在今天也层出不穷。长远来看，2年前的这个“庞然大物”，已经在逐步走进千家万户。

你可能感兴趣的:(深度学习,transformer,深度学习,ViT)

使用 MistralAI 平台进行开源模型托管与调用 VYSAHF python
MistralAI是一个提供开放源码模型托管的平台，致力于帮助开发者更轻松地使用和管理开源模型。通过该平台，你可以方便地调用强大的深度学习模型，并将其集成到你的应用中。本文将带你了解如何利用MistralAI提供的服务来进行模型的托管和调用。技术背景介绍MistralAI的服务包括了如聊天模型和嵌入模型等，这些模型适用于聊天机器人、文本嵌入等各种场景。使用这些模型需要注册并获取一个有效的API密钥
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
H800核心性能优化技术智能计算研究中心其他
内容概要作为新一代AI加速卡的核心创新载体，H800通过异构计算架构与动态能效管理技术的协同设计，实现了从硬件底层到应用层的系统性优化。其技术突破聚焦于张量核心重构带来的计算密度提升、混合精度运算对资源利用率的增强，以及智能散热方案在复杂负载场景下的稳定性保障。这些创新不仅显著提升了30%以上的能效比，更通过精细化任务调度机制，解决了深度学习训练中高并发数据处理与模型参数同步的效率瓶颈。值得关注的
TikTokenizer 项目常见问题解决方案齐飞锴Timothea
TikTokenizer项目常见问题解决方案tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目基础介绍TikTokenizer是一个开源项目，主要用于文本处理，特别是将文本转化为可用于深度学习的格式。该项目是基于TensorFlow和Keras开发
DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
YOLO11改进-模块-引入频率谱动态聚合模块FSDA 去除噪声一勺汤 YOLOv11模型改进系列目标检测魔改模块 YOLO YOLOv11 YOLOv11改进改进
在图像去雾领域，深度学习在白天图像去雾方面成果显著，但夜间雾图研究较少。夜间雾图面临诸多挑战，其中包括雾、辉光和噪声因多个低强度有源彩色光源而具有复杂特性，以及模拟与真实数据的域差异导致的亮度问题。为解决这些，我们使用FSDA模块，处理频率不一致特性。FSDA先对频谱信息聚合，再计算通道权重并应用，最后映射回空间域，以此优化频谱信息，使模型更好处理复杂干扰。本文将其与YOLOv11相结合，增强YO
基于多头注意机制的多尺度特征融合的GCN的序列数据（功率预测、故障诊断）模型及代码详解清风AI 深度学习算法详解及代码复现人工智能神经网络深度学习 python conda pip pandas
GCN基础在深度学习领域中，图卷积网络(GCN)是一种强大的图数据处理工具。它将卷积操作扩展到图结构上，能够有效捕捉图中节点之间的关系信息。GCN的核心思想是通过聚合邻居节点的特征来更新目标节点的表示，这种局部聚合机制使得GCN能够学习到图的拓扑结构和节点属性。GCN的主要构成要素包括节点特征矩阵、邻接矩阵和卷积核。通过多次迭代，GCN可以逐步学习到图中节点的高阶表示，为后续的分类、预测等任务提供
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
开源模型应用落地-qwen模型小试-调用Qwen2-7B-Instruct-进阶篇（十二）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言经过前五篇“qwen模型小试”文章的学习，我们已经熟练掌握qwen大模型的使用。然而，就在前几天阿里云又发布了Qwen2版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。本文将介绍如何使用Transformers库进行模型推理（相较于qwen1系列，使用方式上有较大的调整），现在，我们赶紧跟上脚步，去体验一下新版本模型
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
图生视频技术的发展与展望：从技术突破到未来图景 Liudef06 Stable Diffusion 音视频人工智能深度学习 stable diffusion
一、技术发展现状图生视频（Image-to-VideoGeneration）是生成式人工智能（AIGC）的重要分支，其核心是通过单张或多张静态图像生成动态视频序列。近年来，随着深度学习、多模态融合和计算硬件的进步，图生视频技术经历了从基础研究到商业落地的快速演进。早期探索与GAN的奠基早期图生视频技术主要基于生成对抗网络（GAN），通过对抗训练生成低分辨率的视频片段。例如，DeepMind的DVD
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
uniapp工程中解析markdown文件 pvfhv uni-app
在uniapp中如何导入markdown文件，同时在页面中解析成html，请参考以下配置：1.安装以下3个依赖包npminstallmarkedhighlight.jsvite-plugin-markdown2.创建vite.config.js配置文件//vite.config.jsimport{defineConfig}from'vite';importunifrom'@dcloudio/vit
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task neverwin6 llama python 服务器
Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候，要用lm_eval模型，而对于像是llama3/Mistrual等比较新的模型，较低的Transformers不能适配，所以要升级到0.40.0以上才行，但是如果升级的话，那么直接在沿用老版本的lm_eval评测就会出现：Traceback(mostrecentcalllast):File"main.py"
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D