MT_Joy

ViT论文逐段精读【论文精读】-跟李沐学AI

视频链接：ViT论文逐段精读【论文精读】_哔哩哔哩_bilibili

ViT：过去一年，CV 最有影响力的工作

推翻了 2012 Alexnet 提出的 CNN 在 CV 的统治地位
有足够多的预训练数据，NLP 的 Transformer 搬运到 CV，效果很好
打破 CV 和 NLP 的壁垒，给 CV、多模态挖坑

ViT效果有多好？

CV 任务刷榜

paperwithcode网站霸榜 ImageNet （基于 ViT）和 COCO ,目标检测（Swin Transformer ICCV 21 best paper：多尺度的 ViT ）的模型

图 1 的四种情况 ViT 都能处理

遮挡、数据分布的偏移（纹理的去除）、鸟头部+对抗的patch、图片打散重新排列组合

1 标题

02:45

An image is worth 16*16 words

每一个方格都是 16 * 16 大小，图片有很多 16 * 16 方格 patches --> an image is worth 16 * 16 words

Transformers for image recognition at scale

transformer 去做大规模的图像识别

作者来自 Google research 和 Google brain team

2 摘要

03:15

Transformer 在 NLP 是基本操作，i.e., BERT, GPT3, T5, 但 transformer 在 CV 的应用有限。

CV 里的 attention 是怎么用的呢？

attention + CNN, or attention 替换 CNN components 但依然保持 CNN 整体结构。

如何理解 CNN 整体结构不变？

ResNet 50 有 4 个 stages (res2 res3 res4 res5), stage 不变，attention 取代每一个 stage 每一个 block 里的这个操作。

本文怎么看 CV 里的 attention?

attention 不用和 CNN 绑在一起，和我 transformer 组队，在 CV 领域大杀四方。

esp, 大规模数据集做预训练，mid-sized or small 数据集做微调，ViT SOTA

ViT fewer computational resources to train, really?

少的训练资源 == TPUv 3 + 2500 天。

"fewer" 相对来说

3 引言

05:07

self-attention 架构， esp Transformers，是 NLP 必选模型。主流方式是 BERT 提出的，大规模数据集预训练，在特定领域的小数据集做微调。 Transformer 的计算高效和可扩展性，1000亿参数都还没有性能饱和的现象。

i.e., MT-N;P 5300亿参数，SOTA，也没有性能饱和的现象。

Transformer 应用在 CV 有难点吗？

计算像素的 self-attention，序列长，维度爆炸

Trnasformer 的计算复杂度是序列长度 n 的平方 O（n^2）

224 分辨率的图片，有 50176 个像素点，（2d 图片 flatten）序列长度是 BERT 的近 100 倍。

呼应摘要+文献：CNN 在 CV 领域火， Transformer, self-attention 在 NLP 领域火。CV 如何用 attention 呢？

CNN 结构 + self-attention or attention 替代卷积

CVPR Wang et al. 2018, Local Network, 网络中的特征图输入 Transformer

ResNet 50 最后一个 stage, res4 的 feature map 14 * 14， 196

降低序列长度的方式：用特征图做 transformer 输入（Wang et al 2018）, replacing the convolutions entirely (Ramachandran et al., 2019 stand-alone attention 孤立自注意力; Wang et al., 2020 axial attention 轴注意力)

stand-alone attention 孤立自注意力

用 local window 局部小窗口控制 transformer 的计算复杂度，有点像卷积，卷积也有 locality，局部窗口卷积。

axial attention 轴注意力 --> 2 个 1d 顺序操作，降低计算复杂度

图片的序列长度 n = H * W

2d 矩阵拆分为 2个1d 向量，先在 H 高度 dimension 做一次 self-attention，再 W 宽度 dimension 做一次 self-attention

replacing the convolutions entirely 好不好呢？

理论高效，但硬件无法加速 --> 此类模型都还没有太大。

本段（第二段）总结：在大规模的图像识别上，ResNet 还是效果最好的。

本文 ViT 的工作是什么？

现状：attention 已经在 CV 领域有应用，甚至也有 attention 替代卷积的操作

讲故事的角度： Inspired by the Transformer scaling 可扩展性 success in NLP, we experiment with applying a standard Transformer directly to images, with the fewest possible modifications.

标准 Transformer 直接应用于图片，做最少的修改，不做任何针对视觉任务的特定的改变。

The fewest possible modifications 是什么呢？

把图片划分成很多 patches，每个 patch 元素是 16 * 16，序列长度 14 * 14 = 196个元素

每一个 patch 经过一个 FC layer(fully connected layer)得到一个 linear embedding，patches 的 linear embeddings 是 Transformer 的输入。

一个 224 * 224 图片变成一个 196 个的 16 * 16 图片块（words in NLP）。

为什么 transformer 的训练是 supervised fashion？

NLP 的 Transformer 无监督训练 by language model LM or mask language model MLM；CV 任务的 benchmark 使用有监督训练。

ViT 把 CV 任务当成 NLP 任务，模型使用的是 BERT, Transformer encoder 简洁框架。Transformer 在视觉也有很好的效果。

Transformer in CV，之前有人做吗？

ICLR 2020 从输入图片里抽取 2 * 2 patches。 2 * 2 size enough：CIFAR-10 32 * 32 图片，16 * 16 会过大。抽好 patch 之后，在 patches 上做 self-attention。 --> 技术上的 Vision Transformer

ViT 和 ICLR 2 * 2 patches 的区别？

ViT证明了大规模数据集预训练（NLP 常用）之后的 Transformer，不需要做针对视觉任务的修改，比最好的 CNNs 效果差不多 or 甚至更好。
2 * 2 patches applicable only to small-resolution images, ViT handles medium-resolution images as well.
ViT 告诉大家，Transformer 在 vision 领域能拓展到有多好。large 数据集 + large 模型，transformer 能否取代 CNN 地位？
弹幕的 money is all you need 哈哈哈

引言的最后：

最想说的结论 or 最想展示的结果：卖点，不用看完整篇论文，就知道此篇论文的贡献。

ViT 任何情况都很强吗？

mid-sized datasets ImageNet without strong regularization，ViT 比 ResNet of comparable size 弱几个点。

Why 弱？ expected

Transformer 比 CNN 少 inductive biases 归纳偏置

inductive biases 归纳偏置：先验知识 or 提前的假设

CNN 的 inductive biases 是 locality 和平移等变性 translation equaivariance（平移不变性 spatial invariance）。

locality: CNN用滑动窗口在图片上做卷积。假设是图片相邻的区域有相似的特征。i.e., 桌椅在一起的概率大，距离近的物品相关性越强。

translation equaivariance：f (g(x)) = g( f(x) )

f 和 g 函数的顺序不影响结果。

f：卷积 g：平移; 无论先做平移 g 还是先做卷积 f , 最后结果一样。

CNN 的卷积核像一个 template 模板，同样的物体无论移动到哪里，遇到了相同的卷积核，它的输出一致。

CNN 有 locality 和 translation equivariance 归纳偏置，--> CNN 有很多先验信息 --> 需要较少的数据去学好一个模型。

Transformer 没有这些先验信息，只能从图片数据里，自己学习对视觉世界的感知。

怎么验证 Transformer 无 inductive bias 的假设？

在 1400万(ImageNet-21K) - 3000 万(JFT-300)得到图片数据集上预训练 trumps inductive bias, ViT +足够训练数据，CV SOTA。

VTAB 融合了 19 个数据集，检测模型的稳健性，ViT的 robustness 也很好。

19:23

引言总结：

第一段：Transformer 在 NLP 扩展的很好，没有因为大模型和大数据集而饱和，performance 一直有提升，Transformer 在 CV 里能不能也有大幅度的提升呢？

第二段：前人工作。这么好的 idea 有哪些人做过呢？要讲清楚自己的工作和 related works 的区别

之前的工作是 CNN + attention 或者 attention 替代 convolutions，没有工作将 transformer 用到 CV 领域，没有得到很好的扩展效果。

第三段：Vision Transformer 是 standard Transformer with the fewest possible modifications

对图片的最少修改是什么？

图片变成 16 * 16 的像素块 patches，经过一个 fc layer 得到的 linear embeddings 输入 transformer

ViT 融合了 CV 和 NLP 领域。

第四+五段：show 结果

足够多的数据集，ViT 能 SOTA

4 结论

explored the direct application of Transformers to image recognition. 直接用 NLP 的 Transformer 来处理图片。

和其它 self-attention in CV 的工作不同：除了将图片转成 16 * 16 patches + 位置编码之外，没有额外引入图像特有的 inductive bias

没有图片的 inductive bias 的好处是什么？

不需要对 vision 领域的了解，不需要 domain knowledge，直接把图片理解成 a sequence of patches, i.e., 一个句子里的很多单词。

An image is worth 16 * 16 words.

直接用 NLP 里的 Transformer encoder， simple yet scalable，大规模预训练数据集，效果非常好。

ViT 效果有多好？

image classification SOTA, relatively cheap to pre-train

ViT 没有解决的问题？

文章挖坑：新问题 or 新模型

ViT 挖坑：新模型 ViT

future directions: 新问题 —— CV 除了 image classfication 其他的任务，行不行呢？分割、检测

DETR (Carion et al. 2020) 目标检测的力作，改变了目标检测出框的方式。ViT 做其它 CV 任务应该效果也很好。

2020年 12 月(ViT 1.5月之后)

ViT-FRCNN 检测 detection

SETR 分割 segmentation （CVPR 论文 11.15完成写作投稿）

（3个月后）Swin Transformer 融合 Transformer 和多尺度设计

Transformer 是 CV 领域的一个通用的骨干网络 backbone

另外一个未来工作方向，自监督的预训练方式。

NLP 大的 transformer 模型使用自监督预训练，ViT有 initial experiments 证明自监督预训练也可以，但和有监督的训练有差距 still large gap。

把 ViT 变得很大，would likely lead to improved performance。scaling ViT, ViT-G, ImageNet 90 +%

ViT 挖坑：

视觉领域 CV
多模态，一个 transformer 处理 CV 和 NLP

5 相关工作

24:38

Transformer 在 NLP 领域的应用：BERT, GPT

Transformer 先在大规模语料库上做预训练，再根据具体的任务数据集进行微调。

BERT: denosing mask挖词、完形填空，把masked的词预测出来

GPT: language modelling, 预测下一个词 next word prediction

完形填空 or 预测下一个词，人为设定。语料句子是完整的，去掉某些词（完形填空） or 最后词（预测下一个词） --> 自监督的训练方式。

self-attention 在视觉领域的应用

25:38

self-attention to each pixel：❌

224 * 224 image: O(n^2 = 50176)

1k, 4k image: 维度爆炸

self-attention to each image with approximations：

不用整张图，只用 local neighborhoods，降低序列长度

sparse transformer

全局注意力的近似
只对稀疏的点做注意力

scale attention by applying attention in blocks of varying size

把自注意力用到不同大小的 blocks
in the extreme case only along individual axes 极端情况，只关心轴， axial self-attention，横轴 + 纵轴

小结：以上 self-attention + CV 效果不错，但工程实现加速很难。可在 cpu gpu跑，但大规模训练不行。

和 ViT 最相似的工作：

ICLR 2020 2 * 2 patches for CIFAR-10 32 * 32 图片

ViT 胜在哪里: 更大的 patches 16 *16 + 更大的训练数据集

CV 中检测、分类、视频处理、多模态 self-attention with CNNs

另一个相似工作：image GPT

GPT 是 NLP 的生成模型，image GPT 无监督预训练，生成模型。

image GPT 也用了 transformer 图片（降低分辨率和 color space）。用训练好的 image GPT or 直接把 image GPT 当成特征提取器， ImageNet 准确率 72%；ViT ImageNet 准确率 88.5%

ps：最近爆火的 MAE

在 BEiT 或 MAE 论文之前，生成式网络在 CV 比判别式网络弱很多。

MAE 生成式模型在 ImageNet-1k 做训练，比判别式模型好。分类 ✔，目标检测 ✔ （transfer learning）

还有其它和 ViT 相似的工作吗？

用比 ImageNet 还大的数据集做预训练，大力出奇迹
Sun et al 2017 JFT-300M 数据集，CNN 的效果随数据集增加而提升
Djolonga et al 2020 研究大数据集预训练迁移到小数据集的效果
在 ImageNet-21K 或 JFT-300M 数据集做预训练，迁移到 ImageNet 或 CIFAR-100 效果怎么样

本文 ViT 和这些相似论文的关系？

ViT 关注 ImageNet-21K 或 JFT-300M 数据集，不训练 ResNet，训练 Transformer

Related work 写作总结：

方方面面相关的都写到了，也列举了非常相似的工作 ICLR 2020 2*2 patches, image GPT 生成模型，大数据集 BIT 相关的文章

Related work 目的：

让读者知道在你的工作之前，别人做了哪些工作，你跟他们的区别在哪里

related work 章节的详细不会降低论文的创新性，反而加分，让整个文章变得更简单易懂。

6 ViT模型

30:05

ViT 尽可能使用 original Transformer，享受 Transformer efficient implementations。

NLP 中 Transformer 很火，有很多 Transformer 的高效实现

3.1 Vision Transformer 模型图

图1：Model overview

好图：以图读论文，讲解 ViT 直接复制

31:13

Input: 1 张图

Process: 九宫格 9 patches --> Flattened Patches (3 * 3 --> 1 * 9 拍平) --> Linear Projections ---> Patch embedding

Why need position embedding?

self-attention 所有元素两两算自注意力，和顺序位置无关。但图片的 patches 是有顺序的，+ position embedding

Patch embedding + position embedding == token 包含图片 patch 信息和 patch 在原图中的位置信息。

ViT 对图片的操作：划分 patches，flatten patches 的线性投影 + patches 的位置信息，得到输入 transformer 的 tokens

得到 tokens 之后，对 visual tokens 进行 NLP 操作：

tokens 传入 Transformer encoder，得到很多输出。

Q: 每一个 token 都有输出，用哪个输出分类呢？[CLS]

借鉴 BERT， extra learnable {class} embedding --> [CLS], a special classification token, * in figure 1.

[CLS] 也有 position embedding, 0(永远是0)

Q: Why [CLS] works？self-attention O(n^2)

self-attention in transformer encoder，所有的 tokens 在做两两的交互信息。因此，[CLS] 也会和所有的图片 patches 的 token 交互，从而 [CLS] 从图片 patches + position 的 embedding 学到有用信息，最后用 [CLS] 做分类判断。

Q: 从 [CLS] 怎么得到最后的分类？通用MLP Head

[CLS] 输入一个通用的 MLP Head，得到 Class，cross-entropy 损失函数训练模型。

Q: ViT 用了标准的 transformer 结构，ViT的特点是什么？

图片 patches 化 + position embedding 转化为 tokens

ViT 前向过程

Vision 问题变成 NLP 问题

33:29

图片 X： 224 * 224 * 3 (RGB, 3 channels)

patches 数 N： 224 ^ 2 / 16 ^ 2 = 14 ^ 2 = 196

每一个 patch 的维度：16 * 16 * 3 (RGB, 3 channels) = 768

Linear Projection 全连接层 E: 768( 不变，patch 计算而来 ) * D(embedding_dim) 768 或更大

图片 X * E = patches (196 patches 个数 * 768 每个 patch 的维度) * E ( 768 * D ) = 196 * D (768)

Vision to NLP done!

a 2d image --> a sequence 1d tokens

Q: 进入 transformer encoder 的序列长度？

196 * 768(图片对应的 tokens) 拼接 concatenate [CLS] token (1 * 768) = 197 * 768

Q: position embedding 怎么加 patch embedding？sum()

图1 的 1-9 不是真正使用的 position embedding，实际的 position embedding 表，1 - 5 行代表图1 的 1 - 5 值。

每行向量的维度是 1 * 768

相加 sum：

patch embedding（197 * 768） + position embedding （(1 CLS + 196 patches) * 768）= （197 * 768）

ViT base: 12 heads

MLP：放大 4 倍，再缩小到原维度大小

Transfomer encoder 输入输出维度一致，可以直接叠加 L 个

3.1 Vision Transformer正文

38:22

公式的具体值计算，参考上一小节。

有了具体含义的公式字符，也不那么可怕了呢 o(*￣▽￣*)ブ

ViT 用的是 BERT 1d position embedding，图片 2d aware position embedding 结果也差不多。

D.3 Head type and class token 作者的消融实验

ViT 除了标准的 transformer，关键部分是怎么对图片进行预处理和怎么对图片最后的输出进行后处理。

40:16

class token：证明标准的 transformer 做视觉，没问题！

控制和 NLP 的差异：使用 BERT 的 CLS，CLS 在 NLP 理解为一个全局的对句子理解的特征；ViT 的 CLS 理解为一个图像的整体特征。

CLS token + MLP (tanh acitvation) == 分类

CV 通常的全局特征：i.e., Res50

feature map (14 * 14) --> GAP globally average-pooling 全局平均池化 --> a flatten vector 全局的图片特征向量 --> MLP 分类

类似的，Transformer 的输出元素 + GAP 可以用做全局信息 + 分类吗？ Ok.

CV 的 CLS GAP 和 NLP 的 CLS 效果差异不大。

CLS-Token 和 GAP 的适用参数不一样。

位置编码： 1d 2d relative 无所谓

43:18

1d：NLP 1, 2, 3, ..., 9 D

2d：D / 2 * D / 2

11 12 13

21 22 23

31 32 33

relative: offset

绝对距离转相对距离，1 - 9 和 -4, ..., 0, ..., 4

表 8 位置编码的效果

45:02

为啥都是 0.64 左右，无所谓？

ViT 直接作用于 14 * 14 patches，而不是 224 * 224 像素。较少数量的 patches 之间的相对位置信息，容易学到。

3.1 ViT 正文 CLS continued

45:55

CLS 可用 GAP global average pooling 替换

1d position embedding 可用 2d or relative 替换

ViT 对齐标准的 transformer，选用 NLP 里常用的 CLS 和 1d position embedding

Appendix: Transformer multi-head 解释，i.e., 卷积解释 in CNN papers

公式总结 ViT 的前向传播过程

46:31

Inductive bias

47:60

CNN 的 inductive bias: locality 局部性, translation equivalence 平移等变性。在 CNN 模型每一层都有所体现，==》模型的先验知识从头到尾，贯穿整个模型。

ViT 比 CNN 的 inductive bias 少, only MLP

In ViT, only MLP layers are local and translationally equivariant, while the self-attention layers are global.

ViT 的 inductive bias in images：

图片切成 patches；+ position embedding（随机初始化，没有携带 2d 位置信息）

ViT 的 patches 块的 2d 位置信息 + spatial relations 图像块之间的场景信息，都需要重新学。 ==》 ViT 没有很多 inductive bias ==》中小型数据集训练 ViT 效果不如 CNN

Hybrid architecture

Transformer: 全局建模能力强

CNN: data-efficient 不用那么多训练数据

前 CNN + 后 Transformer --> Hybrid archtecture

不同的图片预处理方式：不划分 patches，采用 CNN (Res50 的 feature map 14 * 14 = 196)，过全连接层 E Linear projections 得到图片的 embedding

ViT 的图片预处理方式：

把一张图划分成 patches，直接过全连接层 fc

3.2 Fine-tuning and higher resolution

50:20

微调时用大图片尺寸 i.e., 256 * 256， 320 * 320 而不是 224 * 224，效果更好

Q: 预训练好的 ViT 可以在更大尺寸的图片上为条码？

if patch size 不变 16 * 16，更大尺寸的图片 --> 序列长度的增加 i.e., 14 * 14 --> 20 * 20 in 320 * 320 image

Transformer 理论上，可以处理任意长度。

But，提前训练好的 position embedding 可能失效

1 - 9 的九宫格图片 patches 位置编码 --> patches 增多，1 - 25 位置编码

Q: patches 数增多，如何使用已预训练好的位置编码呢？

2d 插值，torch 的 interpolate 函数实现；但也不是任意长度增加都能保持效果。

256 --> 512 --> 768 长度的增加，直接使用差值，最后效果掉点。（采样定理）

插值 interpolate 临时解决方案，ViT 微调时的一个局限。

ViT 用了图片 2d 结构的 inductive bias 地方：resolution adjustment 尺寸改变和 patch extraction 抽 patches

7 实验

52:20

对比 ResNet, ViT, Hybrid ViT (CNN 特征图，不是图片直接 patch 化) 的 representation learning capabilities 表征学习能力。

为了了解每个模型预训练好到底需要多少数据，在不同大小的数据集上预训练，然后在很多 benchmark tasks 做测试。

考虑模型预训练的计算成本时，ViT performs very favourably 表现很好， SOTA + fewer resource 训练时间更少

ViT 的自监督训练，可行，效果也还不错，有潜力；一年之后，MAE 用自监督训练 ViT 效果很好。

4.1 Setup

datasets:

53:02

ImageNet-1K: 1000 classes, 1.3M images

ImageNet-21K: 21000 classes, 14M images

JFG-300: 303M images Google 不开源

下游任务：分类 CFIAR etc.

Model variants

ViT Base, Large, Huge

Layers, Hidden size D, MLP size, Heads 相应增加

模型变体 = (Base, Large, Hugh) + (patch size 表示)

ViT-L/16 使用 Large 参数和 patch 16 * 16 输入

Q: Why patch size in name of model variants?

ViT 模型的 patch size 变化时, i.e., 16 * 16 --> 32 * 32 or 8 * 8, 模型的位置编码会变化

transformer 输入的序列长度与 patch size 成反比
patch size 越小，一张图片的 patches 数越多，训练越贵 because of 序列长度的增加

结果

54:50

表 2

ViT-H/4 秀肌肉刷榜

和 CNN 的工作 BiT-L, Noisy Student 做对比

BiT-L: CNN比较大的模型，ViT论文作者团队自己的工作

Noisy Student: ImageNet 当时表现最好的方法。用伪标签 pseudo-label 去 self-training

ViT-H/14 训练比 ViT-H/16 贵，效果和 BiT-L 差不多，优势不明显。怎么突出 ViT 的好呢？

ViT 训练更便宜。TPUv3 天数：ViT-H/14 2.5K, BiT-L 9.9K, Noisy Student 12.3K

ViT 优点：效果好 + 训练快

结果分析

56:47

Vision Transformer 到底需要多少数据才能训练好？

图3 灰色区域 ResNet 的效果，圆圈 ViT 的效果

Take home message: 图3

如果想用 ViT，至少需要 ImageNet-21K 14M 大小的数据集

小于整个数据量，CNN 更合适，更好的利用 inductive bias，ViT 没有特别多 inductive bias 需要更多数据训练。

数据集规模比 ImageNet-21K 更大时，Vision Transformer 效果更好，因为可扩展性 scaling 更好。

图 4 Linear few-shot evaluation

图 3 ViT 和 ResNet 比，加了强约束：dropout、weight decay、label smoothing，约束了 ViT 的发挥

linear evalution: 把 ViT 预训练好的模型直接作为特征提取器，不 fine-tune，+ 一个 logistic regression 得到分类结果。

Few-shot：5-shot，在 ImageNet 做 linear evaluation 时，每类图片随机选取 5 个 samples，evaluation 很快，做消融实验。

linear few-shot evaluation 采用 JFT 数据集 10M, 30M, 100M, 300M。来自同一个数据集，数据没有 distribution gap，模型的效果更能体现 Vision Transformer 本身特质。

ViT 图4 效果和图3 差不多。如何用 ViT 做小样本学习，未来研究方向之一。

图 5 用 ViT 比 CNNs 便宜的实验支持

大家的印象：Transformer 又大又贵，很难训练

average-5：ImageNet-real, Pets, Flower, CIFAR10, CIFAR100 平均

ImageNet 单独的对比

同等计算复杂度：ViT 比 ResNet 效果好，印证了 ViT 训练更便宜

Q: Hybrid 模型，CNN 抽取出来的特征，能不能帮助 Transformer 更好的学习呢？

小模型，Hybrid 模型吸收 CNN 和 Transformer 的优点，效果好。不需要很多的数据预训练，达到 Transformer 的效果
大模型，Hybrid 模型和 Transformer 差不多，甚至不如 Transformer 模型。Why？
如何预处理图像，如何做 tokenization 很重要，后续论文有研究

整体趋势：模型增加，除了 Hybrid 模型有点饱和（饱和：增加到一个平台值后，不增加了）。ResNet 和 Transformer 都没有饱和。

4.5 Inspecting Vision Transformer

01:03:33

可视化分析 ViT 内部表征 internal representations: Patch embedding, position embedding

ViT 第一层 Linear projection E 学到了什么？

Figure 7 (left) embed RGB value 前 28 个主成分

Vision Transformer 和 CNN 学到的很像，类似 gabor filter 有颜色、纹理，可以做 plausible basis functions，可以描述每个图像块的底层信息 a low-dimensional representation of the fine structure within each patch.

Position embedding 能学到一些表示位置距离的信息

patch 自己本身相似度高黄色 1
学到了距离的概念
(4, 4) 黄色中心点，越边缘，相似度越低，颜色越蓝
学到了行和列的距离规则
同行同列，颜色条的表示
虽然是 1d 的 position embedding，但已经学到了 2d 的图像位置概念；所以换成 2d position 提升不多。

Self-attention 有没有起作用？

01:05:30

用 Transformer 的原因：自注意力能模拟长距离的关系。

NLP 一个很长的句子里，开头的一个词和结尾的一个词可能互相有关联。
CV 里很远的两个像素点之间也能做自注意力。

ViT 的 self-attention 是不是很远的像素点也能有交互？

ViT-L/16 有 24 层（横坐标值），五颜六色的点：transformer 每层 multi-head 的heads，ViT-L 16 heads, 每一列有 16 个点

纵轴是 mean attention distance

d_ab = l_ab * A_ab = ab 两点 pixel 之间的距离差 * ab 两点之间的attention weights

d_ab 的大小，反映模型能不能注意到很远的 2 个 pixels

self-attention 刚开始能注意到 10 - 110 pixels
self-attention 刚开始就注意到全局的信息；CNN 刚开始第一层的感受野 receptive filed 很小，只能看到附近的 pixel

网络加深，模型学到的特征越来越 high level，越来越有语义信息，像素的自注意力距离越来越远，不是靠邻近的像素点做判断。

证明自注意力有学到很远距离的 pixel 信息，证明 by 图6

ViT 最后一层 output 的 token 的 self-attention 折射（逆向映射）回原来的输入图片。ViT 真的学到了一些概念：狗、飞机

Globally 全局来说，输出的 token 是融合全局的特征信息，ViT 模型可以关注到和 classfication 分类相关的图像区域。

4.6 self-supervision

01:08:07

如何用自监督的方式训练一个 vision transformer？

很重要，22页全文，别的结果都在 appendix，自监督的结果在正文。

因为 NLP 的 transformer 都是用 large scale self-supervised pre-training 大规模、自监督的方式预训练的。

NLP 的自监督：BERT 完形填空 Mask language model，GPT 生成，预测下一个词 by language model

ViT 借鉴 BERT，创建一个专属于 vision 的目标函数，masked patch prediction。一张图片的某些 patches 随机抹掉，ViT 重建缺失的patches

Note：从模型、目标函数上，CV 和 NLP 的大一统。

但是，ViT-B/16 with masked patch prediction 在 ImageNet ~80% 准确率。~80% 比从头训练 ViT 好 2%，比 supervised pre-training 低 4%。

ViT 和 contrastive pre-training 的结合： future work i.e., MOCOv3, DINO

contrastive learning: 2020 年 CV 最火的 topic，是所有自监督学习方法表现最好的。

8 评论

01:09:53

写作：简洁明了、有轻有重（重要结果放正文），图表清晰。

内容：Vision Transformer 挖了一个大坑：各个角度的分析，提升 or 推广

task 任务角度：ViT 只做了分类，检测、分割、其它领域的任务 future work

ViT 结构的角度：

改刚开始的 tokenization
改 transformer block, i.e., self-attention 换成 MLP works
MetaFormer 认为 transformer work 的原因是 transformer 的架构，不是 transformer 某些特殊的算子
MetaFormer，self-attention 改成（不能学习的）pooling 池化操作；甚至改成 Identity，不用注意力

改目标函数：有监督、or 不同的自监督训练方式

ViT 的大坑：

打通了 CV 和 LP 之间的鸿沟
挖了一个更大的多模态的坑
视频、音频、基于 touch 的信号
各种 modality 的信号都可以拿来用

你可能感兴趣的:(多模态or跨模态——文献笔记,深度学习相关文献专用笔记,python,NLP,transformers,VIT,人工智能)

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option