v1dv1dv1d

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning（TubeViT论文翻译）

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning

AJ Piergiovanni Weicheng Kuo Anelia Angelova
论文链接

Abstract

我们提出了一个将ViT编码器变成一个有效的视频模型的方法，它可以无缝地处理图像和视频输入。通过对输入进行稀疏采样，该模型能够从图像和视频输入中进行训练和推理。该模型易于扩展，可以适应大规模的预训练的vit，而不需要完全的微调。该模型在多个数据集上实现了SOTA，并且代码会在将来开源。

1. Introduction

Visual Transformers(ViT)一直是视觉表示学习的一个无处不在的主干，促进了在图像理解，多模态任务和自监督学习等方面的许多进步。然而，对视频的改编既具有挑战性，也受到计算资源的限制。所以视频版本被专门设计成处理更多的帧。例如，ViViT，MultiView，TimeSFormer等。

视频理解是计算机的基本视觉任务，目前已经开发了大量成功的视频架构。先前的 video 3D CNNs 架构通过学习时空信息来处理视频来处理视频数据；他们经常借鉴从图像中学习特征的机制。例如，使用预先训练好的针对于图像数据的CNN的权重，通过将核膨胀至3D的方法使其适用于视频。然而，一旦适用到视频中，这些内核就不再适用于图像。

此外，以前的大多数工作将图像和视频视为完全不同的输入，为视频或图像提供独立的方法，因为设计一个能够同时处理这两者的模型是具有挑战性的。同时，图像和视频输入本质上是相关的，一个单一的视觉主干应该能够处理任何一个或两个输入。以前的共同训练图像和视频的方法调整了架构，以为每个输入设计网络的重要部分。 Perceiver和Flamingo等方法通过重新采样输入，并将其压缩为固定数量的特征来解决这个问题。然而，这种重采样对于长视频来说仍然是昂贵的，并且Flamingo将视频视为以1 FPS采样的单个帧，这可能造成时间信息的缺失。对于依赖于运动和时间理解的数据集（Something-Something或者用来识别快速和简短的动作的数据集）来说，如此低的FPS采样和建模往往是不够的。另一方面，使用上述一种具有密集帧的方法在计算上是不可行的。

为了解决这些限制，我们提出了一个简单但有效的模型，名为TubeViT。能够无差别的将图片和视频输入到标准的ViT模型中。我们提出了Sparse Video Tubes，这是一种轻量级的联合图像和视频学习的方法。我们的方法是从视频中稀疏地采样各种大小的三维时空tube，以生成可学习的token，然后将token输入到ViT中(Figure 1)。使用Sparse Video Tubes，该模型可以很容易适用于任何一个输入，并且可以更好地利用其中一个或两种数据源来进行训练和微调。Sparse Video Tubes可以自然地处理原始的视频信号和图像信号，这对理解视频中的动作和其他时空信息至关重要。

视频模型的训练成本也很昂贵，以前的工作已经研究了利用已经训练过的模型的方法，比如使用冻结层或使模型适用于视频数据。我们扩展了这些想法，并使用Sparse Video Tubes将更大的ViT模型适用到视频中来进行轻量级的训练。因此，我们用少量的资源创建了强大的大型视频模型。

我们在Kinetics-400, Kinetics-600, Kinetics-700, 和SomethingSomething V2数据集上评估该方法，其性能超过了（SOTA）方法。我们的模型是没有额外预训练或在ImageNet-1k和Kinetics数据集上进行额外预训练训练的，其性能甚至优于从非常大的数据集进行额外预先训练的方法。我们的模型也优于针对视频预训练的模型，如MAE。

我们的关键发现是，通过Sparse Video Tubes，我们能够更好地共享从图像和视频中学习到的权重。这与之前膨胀内核或添加新的特定时间层的模型形成了对比。此外，稀疏抽样使token的数量变低，对于减少计算量和提高性能都很重要。

我们的贡献是构建Sparse Video Tubes，它通过使用不同大小的三维tube对视频进行稀疏采样获得。于是我们实现了（1）一个能够将ViT模型应用到视频的通用视觉框架。（2）能够无缝地使用图像和视频输入进行特征提取。（3）易于扩展的视频理解方法，并且可以利用已经训练过的（大型）ViT模型。

2. Related work

视频理解是计算机视觉中的一个重要课题。早期的工作都是通过手工设计的轨迹特征来了解运动和时间。随着神经网络的不断发展，许多不同的方法已经发展出来，如将图像帧和运动信息的光流作为双流CNN网络的输入。通过对三维CNN进行研究发现时间核的学习是重要的，但这需要大量的数据作为支持。许多现有的视频CNN架构，都是专门用于处理视频的，这些架构并不再适用于图像。

随着transformer模型和自注意的引入，vision transformer在基于图像的任务中展现出了卓越的性能。然而，由于自注意计算中的平方复杂度和密集采样，vision transformer在视频中的使用中需要不同的元素，如时空注意力分解。这些vision transformer并没有真正在较长的视频上进行测试，而且大多是在短片中进行评估。处理大量输入帧和理解长期行动及其关系的能力至关重要，但当前的模型无法承受如此高的复杂度。

之前的研究发现，transformer只关注少数几个tokens，可以通过池化或者重组tokens的方法建立模型。许多针对视频工作都发现帧包含冗余信息，因此提出了对帧进行采样的策略。其他的工作已经研究了减少输入vision transformer 中的token数量的方法。然而，所有这些工作仍然需要对原始的视频进行密集采样，然后使用一些启发式方法来减少输入的数量。在我们的工作中，我们会更稀疏地采样输入，提高效率。

其他最近的工作研究了将视频MAE任务作为预训练，他们同样将视频视为tube，并研究了掩码方面的稀疏性，并且发现掩码方面的稀疏性是有益的。然而，他们使用的tube形状是单一的并且创建的patch是不重叠的。此外他们尚未在图像联合训练时进行研究。

这项工作还与使用来自输入数据的多个视图或流的方法有关，例如MultiView Transformers, SlowFast Networks等，这些方法都发现了多个视图和流对模型是有利的。MultiView Transformers和我们的模型一样都是用的各种不同形状的tube。关键的区别是，我们使用的稀疏采样样本输入到一个单一的ViT编码器模型，而不是多个更小的，每个视图的编码器。这进一步将该方法与图像结合起来。

在视频理解方面的另一项工作是在预训练期间利用图像数据集。这是有价值的，因为对只有图像处理的数据集更好被注释并且提供丰富的语义信息。一种方法是从图像预先训练过的模型中引导视频模型，通常是通过膨胀内核。该模型首先对图像数据进行预训练，然后只在视频上进行训练。其他工作也提出了联合训练图像和视频的方法。这些方法调整了架构，以处理可能效率低下的两种输入，例如，将图像输入视为1帧的视频，或者使用单独的网络首先对输入进行编码。

与之前的工作相比，我们的方法简单而直接。一组关键的区别是，我们将稀疏tube地应用于原始输入，这些tube形状不同、可能重叠，并使用一个单一的、共享的主干网络，不同于以前的所有方法。这就使得模型更有效和更准确。其次，更重要的是，该模型完全在图像和视频模式之间共享。这是一个重要的区别，因为它不仅提高了两个任务的性能，而且更普遍地适用于视觉任务。

3.Method

3.1 Preliminaries

标准的ViT架构将图像转换并转换为patch，例如，使用16×16 卷积内核，16×16步幅的卷积操作。这产生了一系列的patch作为图像的表示，例如，对于一个224×224的输入图像产生了196个patch。给定一个视频 $\in \mathbb{R}^{T*H*W}$ ，之前的方法要么使用相同的、密集的2维patch(例如TimeSFormer)要么使用密集的三维内核（例如ViViT)。在这两种情况下，这都将导致显著的更多的token，例如，T∗196，其中T是帧数。然后，这些tube或patch被线性地投影到一个嵌入空间中。然后，这个token序列由Transformer编码器处理，使用标准组件，MSA -多头自注意和MLP -标准Transformer映射层（LN表示Layer Norm）。对于一系列的层 $l\in [0,1,...L]$ ，我们计算表示 $y_{i}^{l}$ 和所有 $z_{i}$ 每一层token特征 $z_{i}^{l}$

为了降低计算成本，先前的方法对注意机制进行分解，例如空间注意力机制和时间注意机制或使用更小的视图级Transformer的多个视图。

3.2 Sparse Video Tubes

我们提出了一种简单而直接的方法，它可以无缝地适用于图像和视频。我们的方法遵循图像的标准ViT标记化方法：使用核为16x16大小的二维卷积操作。我们建立在稀疏性对视频是有效的观察的基础上。我们没有遵循之前的工作，密集地标记化视频，而是使用相同的时间步幅较大的二维内核，例如，对每16帧应用一次卷积操作。因此，对于32×224×224的输入视频片段，这只产生了了392个token，而不是TimeSFormer中的6k或ViViT中的1-2k。

然而，这种稀疏的空间采样可能会丢失信息，特别是对于快速或简短的动作。因此，我们创建了不同形状的稀疏tube。例如，一个16×4×4的tube，以从低空间分辨率的许多帧中获取信息。这些tube可以有任何形状，我们通过实验探索了它们的影响。重要的是，这些tube也有很大的步幅，在不同的视图中稀疏地采样视频。我们还可以选择向起始位置添加一个偏移量，这样patch就不总是从（0,0,0）开始，这样就可以减少tube之间的重叠。这一点如图2所示。不同尺寸的tube也用于多视图方法的视频分类，但它们被多个Transformer密集采样和处理，从而产生了更大的计算开销。

此外，与之前的工作相比，我们也允许tube之间的重叠。具体来说，我们可以将核形状表示为（T×H×W），（Ts、Hs、Ws）表示为核的时空步幅，以及（x、y、z）作为卷积起始点的偏移量。

通过提出的设计，我们的方法使图像和视频视觉信息无缝融合。稀疏空间采样允许共享图像和帧的token，稀疏视频tube创建少量的视频特定token。这使得可以在图像和视频之间更好地共享ViT模型。

3.3 Positional embedding for sparse video tubes

我们的方法的一个关键方面是位置嵌入的实现。在语言模型中，相对位置嵌入是一种常见而有效的方法。然而，在这里，两个token之间的相对位置没有太大的意义，我们不知道真正的参考patch/tube在原始视频或图像中的位置。ViT模型和类似的TimeSFormer和ViViT 对patch使用了可学习的位置嵌入。这种方法可能不适用于我们设计的这种模型，因为这些学习到的嵌入并不一定反映出patch在原始视频中的来源，特别是在patch重叠的情况下。

相反，我们使用一个固定的正弦/余弦嵌入。重要的是，当应用位置嵌入时，我们考虑了每个tube的步幅、核形状和偏移量。这确保了每个patch和tube的位置嵌入具有该tube的全局时空位置。

具体来说，我们计算嵌入如下。这里的 $\tau$ 是一个常量的超参数（我们使用了10,000）。对于j我们从0到d//6取值(d为特征数量)，对于t,x,y我们从0到T，H，W取值。其中 $Z_{i} \in R^{T*H*W*D}$ ：

这将每个时空位置嵌入添加到token $z_{i}$ 的特征维度中。根据之前的工作，将对每个通道的不同长度进行此操作。使用d/6，因为我们有6个元素（每个x、y、t的正弦和余弦值），这将为表示的每个通道创建一个位置值。

重要的是，这里的 $z_{i} [t,x,y]$ 表示tube的中心，考虑到在tube结构中使用的任何步幅和偏移量（通道尺寸在这里没有显示）。

在标记化步骤之后，我们将所有token连接在一起，并输入到标准Transformer结构中。这个简单的结构允许模型在所有输入之间共享大部分的权重，我们发现这是相当有益的。

3.4 Sparse Tube Construction

我们探索了几种创建视觉tube的方法。我们的核心方法包括2种tube：1×16×16×d的tube用于标记图像和一个8×8×8×d的tube另外用于视频。两者的步幅都为16×16×16。这个基本标记器有着强大的性能，但是我们研究了它的几个变体。

Multi-Tube。我们在不同尺寸的核心方法中添加了多个tube。例如，我们可以添加时间长和空间的小的tube，如16×4×4来学习长动作，或者更多空间聚焦的tube，如2×16×16tube。我们通过实验来研究了多种不同形状和步幅的tube。

Space-to-Depth。另一种扩展核心方法的方法是受深度到空间启发的方法。这里，我们减少了tube中的通道数量，例如，减少2倍。因此，tube的形状变成了T×H×W×d/2。接下来，我们沿着通道轴连接2个token。然后我们也可以减少tube的步幅。这就产生了与原始token数量和维度都相同的新token，但在不改变参数数量的情况下有效地增加了内核大小。例如，当时间轴上的步幅减少时，token现在表示T∗2×H×W个位置，但只使用T∗H∗W参数。在实验中，我们研究了不同的设置。时间密度更大 vs 空间密度更大 vs 深度到空间的系数（2，4，8等）。

Interpolated Kernels。对于这个设置，我们不是为每个tube设置一个独一无二的内核，而是从一个8×8×8形状的3D内核开始学习。使用三线性插值将内核重塑到不同的大小，例如，4x16x16或32x4x4，等等。这取决于tube的配置。任何大小的内核都可以从这个单一的内核中创建。这种方法有几个优点。(1)它减少了仅在视频流上使用的学习参数的数量。(2)它可以更灵活地使用内核，例如，它可以在时间维度变大来处理更长的视频，或者在空间维度变大来找到小对象。

TubeViT方法包括上述Multi-Tube和Space-to-Depth思想的结合，确切的设置在补充材料中提供。我们利用Interpolated Kernels来进行消融实验。

3.5 Image and Video Joint Training

如上所述，我们的方法可以无缝地适应图像、视频或两种输入。虽然图像+视频联合输入很少，但在训练的同时同时使用它们的能力非常重要，因为许多具有有价值注释的数据集（如 ImageNet, Kinetics）要么来自图像源要么来自视频源，但不是两者都有。用我们的方法进行联合训练是很容易的——图像由二维内核标记，视频由二维patch（具有较大的时间步幅）和Sparse Tubes标记。然后将其输入到到标准ViT模型中，在任何一种情况下都将提供位置嵌入。为了使联合训练有效，还需要采用位置嵌入的方法。我们在实验第4节中演示了我们的方法对联合训练的好处。

3.6 Image-To-Video Scaling Up of Models

我们还提出了一种更有效的扩展模型的方法（图3）。训练大型ViT模型的计算成本是昂贵的，特别是对于视频。由于我们的模型的几乎所有组件都是在图像和视频之间共享的，所以我们探索了一种方法，可以利用大型模型，而不进行大量的微调。

首先，我们在图像和视频上联合训练一个更小的模型。这就给了我们一组tube的权重。然后我们取一个大的，由图像预训练完毕的ViT，进一步添加tube的数量。这些tube使用与较小模型相同的内核权值，因此我们可以避免进一步训练它们。由于较大的ViT通常比较小的ViT使用更多的信道维度，因此我们在这里再次使用 space-to-depth 转换来创建具有适当信道维度的token，而不需要新的权重。

接下来，我们在网络中选择一个点，并冻结它之前的所有层，例如，ViT-H中32层中的第26层。在这一点上，我们向网络添加一个门控连接：

其中，s是网络冻结在ViT模型（例如，26）的层， $z^{0}$ 是来自tube的原始输入token，α是学习到的门控参数，初始化为0。在训练的第一步中，这个门对表示没有影响，因此ViT是没有变化的。然而，它可以经过学习在这一点上合并原始tube，并进一步优化后来的权重。

4.Experiments

我们在几个流行的数据集上评估了这种方法：Kinetics 400, Kinetics 600, Kinetics 700，SomethingSomething V2。这些数据集涵盖了各种各样的视频理解难题，并在文献中建立起来。主要结果在ImageNet-1k（120万张图像）和视频数据上联合训练得出来的，详见补充资料。我们使用标准的Top 1和Top 5的评估指标，并在罗列出了我们模型以及前面提到的其他的模型的参数量。我们的模型尺寸是：参数量为90M的基础版(B)，参数量为311M的大版(L)。参数量为635M的巨大版(H)是通过 Image-to-Video 的缩放来“创建”的。

4.1 Main results

对于主要的结果，我们使用了4个tube，分别是如下配置（顺序为t,h,w）:(1) 8×8×8步幅为（16、32、32）；(2) 16×4×4步幅为6×32×32，偏移量为（4、8、8）；(3) 4×12×12步幅为（16、32、32），偏移量为（0、16、16)；(4)1×16×16步幅为（32、16、16）。对于32×224×224大小的输入数据，这一经过处理只会产生559个token，明显少于其他方法。在补充材料中,我们对许多tube的结构进行了详细的实验。我们想弄清楚的是，随着数据的增强，如随机空间和时间裁剪，在多个训练时期，模型将看到视频的不同部分，即使进行了稀疏采样。

于SOTA进行比较。首先，我们将我们的最终方法与以前的最优秀的（SOTA）方法进行了比较。表1、2和3显示了我们的模型与最先进的模型在 Kinetics-400 Kinetics-600和Kinetics-700数据集上的性能。这些结果表明，我们的方法在准确性和效率方面都优于SOTA。我们在图像和视频的协同训练方面也优于其他方法，以及具有强视频预训练的方法。

我们注意到，我们构造的各种规模的模型都表现良好，尽管其他模型更大或使用更大的预训练（例如，CoCa有1B参数和1.8B的预训练数据，MerlotSereke有644M参数并使用YT-1B数据集）。表4显示了我们的模型在数据集（SSv2）上的结果。这个数据集通常用于评估更动态的活动。

联合图像+视频训练。我们进一步探讨了在图像+视频数据集上进行协同训练的效果。发现这是非常有效的，如表5所示。表5在一个仅使用Kinetics（视频）与使用Kinetics和ImageNet数据集进行预训练的并排实验中评估了这一点。我们看到，使用我们的方法进行共同训练可以提升性能。我们看到，两阶段训练，即首先在一个数据集上训练，然后在第二个数据集上训练，也比联合训练弱，因为两个数据集在训练过程中不能交互。我们还与之前的方法进行了比较，如只使用密集的2Dpatch的TimeSFormer，或使用inflated的3D内核（如ViViT [3]）架构。在这两种情况下，我们都看到了提出的的联合训练方法的明显好处。我们还注意到，由于通过密集采样获得了大量token，这些先前的方法有明显更多的计算量。我们观察到图像和视频的共同训练是有益的，这与之前的工作一致；这里的不同之处在于，我们有一个单一的紧凑的模型来做到这一点。

作为完整性检查，我们还比较了我们的模型在ImageNet-1k上的性能（没有任何超参数调整或添加）：我们只在ImageNet上训练的ViT-B模型具有78.1的精度。当使用Kinetics-600进行联合训练时，该模型得到正确率为81.4，提高了3.4个百分点，这也显示了仅针对图像任务的联合训练的好处。这也显示了仅针对图像任务的联合训练的好处。虽然其他模型在ImageNet上获得了更高的性能，但它们经常使用专门的数据增强、学习策略和其他我们没有使用的技巧。相反，我们纯粹是在研究同时使用视频和图像的好处。

使用sparse video tubes进行缩放视频训练。在表6中，我们演示了如何利用一个小的TubeViT模型调整成只在图像上利用一个大的和（通常是独立的）仅对图像的预训练模型。我们首先利用一个大型的，经过图像预训练的ViT，这里是ViT-H。然后，我们从TubeViT-B中获取学习到的tube，并将它们与ViT-H图像标记器一起从视频中生成一组标记。然后将这些数据作为ViT-H的输入，我们只对模型的后一部分进行调整。这些结果表明，这是一种有效的扩展和利用大型ViT模型的方法，而不需要较高的计算成本来完全微调模型。我们也看到了公式8中的门口单元是有效的。我们还发现，在这种情况下，训练时间减少了43%，因为模型没有太多可以更新的参数了。

过多token的不利影响。接下来，我们研究了模型中使用的token数量的影响，如图4所示。这个结果是关于为什么我们的方法如此有效的另一个关键见解：由于有太多的token，模型性能会下降，特别是当只使用Kinetics数据时。出现这种情况的原因可能有很多，例如，自我注意机制可能难以学习较长的序列，或者可能没有足够的数据来学习较长的序列，或者可能模型与较长的序列过拟合。这一结果表明，对于当前的数据集，稀疏采样是一种有效的视频处理方法。此外，有可能存在的使用长，密集采样序列受到影响，这可能是需要分解注意模块的另一个原因。

4.2 Ablations

在本节中，我们将介绍一些消融实验来确定为什么这种方法是有效的。实验使用数据集为Kinetics 600。

Main ablations。首先，我们研究了位置偏差的选择对性能的影响（表7a）。我们发现，添加固定余弦位置嵌入比其他嵌入效果更好。直观地说，这是有意义的，因为我们是稀疏地采样可能重叠的token，这种方法能够最好地捕获token位置。

接下来，在表7b中，我们研究了所使用的tube的数量。我们发现这与之前的多视图观察一致，即有多种tube有助于视频理解。

接下来，在表7c中，我们研究了网络的 depth-to-space 版本。在这里，我们减少了从D/S中生成的token的通道，例如，减少了2倍或4倍。然后在生成新的token之后，我们沿着通道轴将它们连接起来。我们研究了在空间和时间维度上增加标记的数量对模型性能的影响。我们发现这是一种有效的方法，因为它可以使更密集的样本，而不增加参数或token的数量。

表7d比较了比模型训练的更多patch的效果。为了做到这一点，我们减少了内核的步幅。最初，这改善了结果，但在增加了2倍后，性能开始下降，可能是因为评估数据与训练数据的差异太大。

在表7e中，我们研究了插值单核的效果。也就是说，我们是构建一个 8×8×8 3D内核，并使用插值来生成不同形状的tube。有些令人惊讶的是，我们发现这工作得相当好，同时也减少了网络中可学习参数的数量。

在表7f中，我们比较了不同时间和空间切片数量的影响。我们发现，即使是单一切片也能提供很强的性能，标准的4×3的性能几乎与10×10性能的相同，这表明稀疏样本是相当合适的。

Factorized attention ablations。在表8中，我们进一步研究了在ImageNet预训练的ViT模型中添加一个新的注意层的效果。在这里，我们使用tube方法来标记输入，但不是使用一个分解的注意模块，我们只是简单地添加了一个额外的自注意层。这与因式分解的注意方法有类似的效果，即将新的，未初始化的K，Q，V投影添加到预先训练的ViT（例如，TimeSFormer和ViViT）。这些结果表明，由于这些新的层，这些方法不能最好地利用图像预训练的网络权值。由于稀疏tube产生很少的额外token，它们可以直接使用相同的ViT模型而不需要分解注意力，从而能够更好地利用图像训练的权重。请注意，这些结果之间仍然有差异，例如token减少的数量。然而，我们认为这一观察结果是成立的，并且这可能解释了为什么ViVit中的时空注意在某些数据集上表现得更好。

Model scaling ablations。表9提供了从一个Tiny级别的模型扩展到一个Base级别的TubeViT模型的消融实验结果。即使仅仅训练最后的几层也是有效的，并且几乎可以匹配完全微调的性能。这与我们在表6中对ViT-H的观察结果一致。

图5对经过学习的3D tube和2D patch进行可视化。

5.Conclusion

我们提出了用于视频识别的sparse video tubes。利用sparse video tubes，一个ViT编码器可以转换为一个高效的的视频模型。该方法简单，可以与图像和视频进行无缝联合训练，并提高了跨多个数据集的视频识别。我们演示了我们提出的视频模型的简单缩放。我们进行了广泛的消融实验，以确定为什么该方法有效，发现联合训练、减少token数量和更好地利用共享图像+视频权重的组合为我们的方法有效的关键因素。我们得到了SOTA或以上的性能。

A.Implementation Details

我们的超参数总结在表10中。对于所有的数据集，我们采用了随机的空间和时间采样。对于大多数数据集，这些设置都是相同的。对于Charades数据集，我们减少了批处理的大小，但使用了更长的128帧进行剪辑，因为Charades数据集视频大约有30秒长，而Kinetics数据集视频只有10秒长。

当使用更大的ViT模型时，我们也发现了一些训练的不稳定性。当使用ViT-L或ViT-H模型时，我们必须降低weight decay值和学习率，否则我们发现训练精度下降到0，损失保持不变。

对于一些较小型的数据集，例如Charades 和 SSv2，我们必须增加数据增强的设置。

对于所有的数据集，我们应用了RandAugment，因为我们发现这是有益的。我们还保持了所有数据集的训练轮数不变。

ImageNet和Kinetics联合训练。当在两个（或多个）数据集上进行联合训练时，我们使用一个单独的全连接层来输出预测。例如，对于ImageNet和Kinetics-600，我们使用了一个具有1000和600个输出的FC层。然后，我们计算相关的头的损失，并反向传播它。在联合训练期间，我们使用了与表10中列出的相同的设置。我们使用了Kinetics-400、Kinetics-600和Kinetics-700的联合训练。对于Charades和SSv2，我们使用Kinetics-600+ImageNet预训练模型，并在数据集上进行微调。

全部的模型设置。我们的模型是基于标准的ViT模型，因此该方法的核心与之前的ViTs相同。我们在表11中总结了这些设置。在表12中，我们详细介绍了每个tube的设置。

B. Additional Experiments on Charades

我们包括在 Charades数据集上训练的结果，以显示这种方法在较长的视频上的有效性，因为Charades视频平均有30秒长。然而，Charades数据集也是一个多标签的数据集，我们发现它需要不同的设置来有效地训练，所以我们在这里包含了所有这些细节。

首先，我们发现core multi-tube方法表现不如之前的一些方法。由于Charades数据集有很多与对象相关的动作，并且包含更长的视频和更多的时间信息，所以我们修改了核心模型，使其更适合这些数据。首先，我们使用了插值的方法来增加tube的形状到：1 × 16 × 16，16 × 16 × 16，32 × 8 × 8，4 × 32 × 32。

我们注意到两个重要的因素。首先，由于我们使用插值来创建更大的内核，因此学习到的参数的数量是相同的，并且为其他数据集从相同的内核进行初始化。其次，由于步幅数保持不变，所以这个结果是相同数量的token。重要的是，这种变化对网络及其参数的影响很小，但使模型能够更好地捕捉Charades数据集信息。

在表13中，我们报告了结果。core MultiTube表现得相当好，但是通过插值内核，能够与最先进的 TokenLearner性能相当，同时仍然稀疏地采样视频。我们也使用明显更少的数据进行类似的操作，例如，用JFT-300M对TokenLearner进行预训练的效果和我们在没有如此大规模数据的情况下完成相同的性能。

你可能感兴趣的:(人工智能,深度学习,计算机视觉)

「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
Python深度学习：3步实现AI人脸识别，效果堪比专业软件！小筱在线 python 人工智能 python 深度学习
引言：AI人脸识别的时代已经到来在当今数字化时代，人脸识别技术已经从科幻电影走进了我们的日常生活。从手机解锁到机场安检，从银行身份验证到智能门禁系统，这项技术正以前所未有的速度改变着我们的生活方式。而令人振奋的是，借助Python和深度学习技术，普通人也能构建出专业级的人脸识别系统。本文将带领您通过三个关键步骤，使用Python深度学习技术实现一个准确率高达99%的人脸识别系统。这个系统不仅原理简
Spring AI 第二讲之 Chat Model API 第八节ZhiPu AI Chat 疼死老夫了人工智能
SpringAI支持知普人工智能的各种人工智能语言模型。您可以与知普人工智能语言模型互动，并基于知普人工智能模型创建多语言对话助手。先决条件您需要与ZhiPuAI创建一个API，以访问ZhiPuAI语言模型。在ZhiPuAI注册页面创建账户，并在APIKeys页面生成令牌。SpringAI项目定义了一个名为spring.ai.zhipuai.api-key的配置属性，你应将其设置为从APIKeys
Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！中杯可乐多加冰前沿资讯分享科技人工智能算法计算机视觉机器学习深度学习
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。一、赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事件在全球范围内激增，严重威胁个人隐私和公共数据安全。第十届信也科技杯全
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
OPENAI中Assistants API的实现原理及示例代码python实现 dzend aigc python ai
OPENAI中AssistantsAPI的实现原理及示例代码前言OPENAI是一家人工智能公司，致力于研究和开发人工智能技术。其中，AssistantsAPI是OPENAI推出的一项人工智能服务，可以帮助开发者快速构建智能助手。本文将介绍AssistantsAPI的实现原理，并提供使用Python实现的示例代码。AssistantsAPI实现原理AssistantsAPI的实现原理主要包括以下几个
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
使用大模型预测胃穿孔的全流程系统技术方案大纲
目录一、项目概述二、项目背景三、建设目标四、建设内容（一）建设架构（二）核心功能（三）核心技术（四）预期成效（五）方案总结五、系统架构方案流程图六、实验验证证据七、健康教育与指导一、项目概述本项目旨在构建一套基于大模型的胃穿孔预测及全流程管理系统，通过整合术前、术中、术后各环节数据，利用先进的人工智能技术，实现对胃穿孔疾病的精准预测、手术方案优化、并发症风险预警以及术后护理指导等功能，为医疗决策提
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
表观遗传风暴：深圳AI-BioFab终极防御战全纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站⚡《表观遗传风暴：深圳AI-BioFab终极防御战全纪实》副标题：抗癌疫苗灌装倒计时90秒惊现组蛋白叛乱，中国启动虫洞计算化解文明级生物危机2025年7月2日14:26光明科学城急电当第184支抗癌疫苗注入冷链罐的瞬间，B3层突爆刺眼蓝光！培养舱内数千细胞染色体疯狂解旋，量子钟在14:26:03
医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题——2025年临床转化瓶颈突破与多中心验证报告残酷现实：FDA2025Q1报告显示，87%的AI影像工具因临床转化失败止步于III期试验破局曙光：斯坦福-梅奥联合研究证实，多模态融合使肺结节良恶性判别AUC提升至0.98（单模态上限0.91）一
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南》副标题：基于2025年英特尔Loihi3芯片的工业级部署实战（附能耗对比&代码库）封面建议：脉冲神经网络动态脉冲传导图覆盖在神经形态芯片显微结构上，标注「能效比：传统GPU的1/800」一、2025生物启发AI的临界点突破生物神经特性事件
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
语言模型之谜：提示内容与格式的交响诗步子哥 AGI通用人工智能语言模型人工智能自然语言处理
当代人工智能领域中，语言模型（LLM）正以前所未有的规模和深度渗透到各行各业。从代码生成到数学推理，从问答系统到多项选择题，每一次技术的跃进都离不开一个看似简单却充满玄机的关键环节——提示（prompt）的设计。而在这场提示优化的探索中，内容与格式的双重奏正逐渐揭开其神秘面纱，谱写出一曲宏大的交响诗。本文将带您走进“内容格式集成提示优化（CFPO）”的奇幻世界，揭示如何透过细腻的内容雕琢和精妙的格
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep