瞳瞳瞳呀

SiameseFC超详解

SiameseFC

前言
- 论文来源
- 参考文章
论文原理解读
- 首先要知道什么是SOT？（Siamese要做什么）
- SiameseFC要解决什么问题？
- SiameseFC用了什么方法解决？
- SiameseFC网络效果如何？
- SiameseFC基本框架结构
- SiameseFC网络结构
- SiameseFC基本流程
- SiamFC完整的跟踪过程
论文的思考与优化
- SiameseFC的优点：
- SiameseFC的不足：（Siamese一直有鲁棒性不好的问题）
论文代码解读
- 训练阶段：
- 1.backbones.py分析
- 2.heads.py分析
- 3.train.py分析
- 4.transforms.py分析
- 5.ops.py分析（train相关部分）
- 6.datasets.py
- 7.siamfc.py分析（重点：train相关部分）
- tracking部分：
- siamfc.py（tracking部分）
论文翻译+解读
- Abstract
- 1 Introduction
- 2 Deep Similarity Learning for Tracking
- 2.1 Fully-Convolutional Siamese Architecture
- 2.2 Training with Large Search Images
- 2.3 ImageNet Video for Tracking
- 2.4 Practical Considerations
- 3 Related Work
- 4 Experiments
- 4.1 Implementation Details
- 4.2 Evaluation
- 4.3 The OTB-13 Benchmark
- 4.4 The VOT Benchmarks
- 4.5 Dataset Size
- 5 Conclusion

前言

论文来源

论文：Fully-Convolutional Siamese Networks for Object Tracking
项目官方地址（包括论文下载地址、源码地址等）：这里

参考文章

论文阅读：SiameseFC
精读深度学习论文(31) SiameseFC
【SOT】siameseFC论文和代码解析
浅谈SiameseFC的优点与不足
siamfc-pytorch代码讲解（一）：backbone&head
SiamFC完整的跟踪过程
其余的文章参考较少，在文中时会给出参考文章。

论文原理解读

首先要知道什么是SOT？（Siamese要做什么）

SOT的思想是，在视频中的某一帧中框出你需要跟踪目标的bounding box，在后续的视频帧中，无需你再检测出物体的bounding box进行匹配，而是通过某种相似度的计算，寻找需要跟踪的对象在后续帧的位置，如下动图所示（图中使用的是本章所讲siameseFC的升级版siameseMask），常见的经典的方法有KCF[2]等。

SiameseFC要解决什么问题？

而目前基于深度学习的方法，要不就是采用 shallow methods（如：correlation filters）利用网络的中间表示作为 feature；要不就是执行 SGD 算法来微调多层网络结构。但是，利用 shallow 的方法并不能充分发挥 end-to-end 训练的优势，采用 SGD 的方法来微调也无法达到实时的要求。

将DL用于tracking中，有两点制约其发展：

1、训练数据的稀缺。由于跟踪目标事先未知，只能通过最初的框选定，无法预先准备大量训练数据。

2、实时的约束。对于跟踪问题来说，基于DL的做法虽然能有效提升模型的丰富度，能够很好的提升跟踪的效果，但是在时效性这一方面却做的很差，因为DL复杂的模型往往需要很大的计算量，尤其是当使用的DL模型在跟踪的时候需要对模型进行更新的话，需要在线SGD调整网络参数，限制了速度，可能使用GPU都没法达到实时。

SiameseFC分别针对这两点，利用ILSVRC15 数据库中用于目标检测的视频来训练模型（离线训练），在跟踪时，不更新模型（也就没有fine-tuning），保证速度够快。成为了使用了CNN进行跟踪，同时又具有很高的效率的跟踪算法。并因其速度很快，效果很好，成为之后很多算法（例如CFNet、DCFNet）的baseline。

SiameseFC用了什么方法解决？

使用孪生网络（Siamese Net）结构来进行相似度比较，对比模版图片（在训练前应该指定好）和需比较的目标图片之间的相似度。

SiameseFC网络效果如何？

速度是SiameseFC的最大优势。
可以用于追踪任意物体（不需要预先训练）。
在当时某几个benchmark上达到了最优。

SiameseFC基本框架结构

图中z代表的是模板图像，算法中使用的是第一帧的groundtruth；x代表的是search region，代表在后面的待跟踪帧中的候选框搜索区域；ϕ代表的是一种特征映射操作，将原始图像映射到特定的特征空间，文中采用的是CNN中的卷积层和pooling层；66128代表z经过ϕ后得到的特征，是一个128通道66大小feature，同理，2222128是x经过ϕ后的特征；后面的代表卷积操作，让2222128的feature被66128的卷积核卷积，得到一个17*17的score map，代表着search region中各个位置与模板相似度值。score越大，相似度越大，越有可能是同一个物体。

总体来说，卷积网络将search image作为整体输入，直接计算两个输入图像的feature map的相似度匹配，节省了计算。计算得到相似度最高的位置，并反向计算出目标在原图中的位置。

算法本身是比较搜索区域与目标模板的相似度，最后得到搜索区域的score map。其实从原理上来说，这种方法和相关性滤波的方法很相似。其在搜索区域中逐个的对目标模板进行匹配，将这种逐个平移匹配计算相似度的方法看成是一种卷积，然后在卷积结果中找到相似度值最大的点，作为新的目标的中心。

上述互相关运算的步骤，像极了我们手里拿着一张目标的照片（模板图像），然后把这个照片按在需要寻找目标的图片上（搜索图像）进行移动，然后求重叠部分的相似度，从而找到这个目标，只不过为了计算机计算的方便，使用AlexNet对图像数据进行了编码/特征提取。

上图所画的ϕ其实是CNN中的一部分，并且两个ϕ的网络结构是一样的，这是一种典型的孪生神经网络，并且在整个模型中只有conv层和pooling层，因此这也是一种典型的全卷积（fully-convolutional）神经网络。

如果上面没看懂，下面给出另一种我觉得也很棒的解释：

孪生结构网络是卷积神经网络中的一种特殊结构。其结构如上图所示，它由两个结构相同的子网络构成，网络的输入是两张像，其中一张称为模板图像，通常选取的是序列第一帧，另外一张称为搜索图像，选取的是后续帧，每一个子网络负责处理一张图像，通过子网络的前向计算，可以提取图像的特征，最后将两者特征通过相似性度量函数，最终计算得到一个17×17×1的热力图，代表着搜索图像中各个位置与模板图像的相似度值。并根据以下函数计算相似度（卷积函数）：

其中z是模板图像，x是搜索图像，
φ代表的是一种特征映射操作，将原始图像映射成特定的空间特征，这里采用的是卷积神经网络里的卷积层和池化层，f是相似性度量函数，这里代表的是卷积函数。模板图像虽然使用的是视频序列的第一帧，但是它是经过裁剪而来的，以待跟踪目标为中心，把原图像裁剪成127×127的尺寸。
也是经过裁剪而来的，它是以网络上一次输出的目标位置的中心点作为裁剪的中心，裁剪成固定的255×255的尺寸。
在这里就相当于充当一个待跟踪目标的外观模型，与后续图像帧里面的对象进行配对，热力图最里面分值最高的那个点则认为是与待跟踪对象外观模型最相似，就认为它是后续帧里的待跟踪对象。

SiameseFC网络结构

用模板的CNN特征与搜索图像的特征进行卷积，得到整个图像的相似图。网络结构如下：（有的博客中说整个网络结构类似与AlexNet，但是没有最后的全连接层，只有前面的卷积层和pooling层。）

整个网络结构入上表，其中pooling层采用的是max-pooling，每个卷积层后面都有一个ReLU非线性激活层，但是第五层没有。另外，在训练的时候，每个ReLU层前都使用了batch normalization，用于降低过拟合的风险。

SiameseFC基本流程

一，获取输入数据：
SiameseFC需要的输入数据有模版图片z和候选图片x。

模版图片z的构建：
1. 构建模版图片时，知道当前帧的bbox。
  1. 训练时，所有图片的bbox都是已知的。
  2. 预测时，第一帧bbox已知的，且预测是顺序预测，因此，预测过程中，预测帧前一帧的bbox是已知的。
2. 总体过程：
  1. 以bbox的中心为中心，构建一个面积为127*127的区域，如果超出范围则通过平均值进行pad。
  2. 将该区域resize为127*127。（上一步中的长宽可能不是127）
3. 构建127127区域的方式如下：其中A=127127，h和w代表bbox的长宽：
候选图片x的构建：
1. 构建时已知其上一帧bbox的信息。
2. 总体过程：
  1. 以上一帧bbox的中心为中心，构建一个面积为255*255的区域，如果超出范围则通过平均值进行pad。
  2. 将该区域resize为255*255。（上一步中的长宽可能不是255）
  3. 构建255*255区域与构建模版图片z时采用相同的缩放比例。

二，通过分数矩阵获取追踪结果

总体过程：

首先，对分数矩阵进行线性变换，变换到原始图片的大小。
如图中，将图片1717分数矩阵转换为255255。
然后，结合位置信息，获取最终得分信息。
最后，选择得分最高的位置作为中心，获取最新的bbox。
bbox的长宽跟之前一帧的长宽一致。

三，通过分数矩阵进行训练

使用交叉熵作为损失函数。对于score map中每个点，损失函数如下：
1. 其中，其中v是score map中每个点真实值，y∈{+1,−1}是这个点所对应的标签。
总体损失函数如下：
6×6和22×22的feature map“卷积”得到17×17的score map。对于每个score map，计算其loss为每个卷积得到的6*6小图的loss的均值。即：

这里的u∈D代表score map中的位置。卷积网络的参数由SGD方法最小化上图损失函数得到。这里采用的是卷积神经网络里的卷积层和池化层，f是相似性度量函数，这里代表的是卷积函数。
构建标签y
比较预测bbox中心点与 ground truth 的bbox中心点之间的距离。
计算相似度（卷积函数）
根据以下函数计算相似度（卷积函数）：

其中z是模板图像，x是搜索图像， φ代表的是一种特征映射操作，将原始图像映射成特定的空间特征

四，多尺寸处理

思路：

模版图片z保持不变。
对搜索图片x进行尺寸变换，同样提取255*255的区域，计算相似度，获取相似度最大点的坐标。
对于最终bbox进行等比例变换（比例就是对搜索图片x进行变换的比例）。

五，训练的一些细节

训练采用的框架是MatConvNet
训练采用的优化算法就是batch SGD，batch大小是8
跟踪时直接对score map进行线性插值，将1717的score map扩大为272272，这样原来score map中响应值最大的点映射回272*272目标位置。
对训练的数据库中数据进行一些处理
1. 扔掉一些类别： snake，train，whale，lizard 等，因为这些物体经常仅仅出现身体的某一部分，且常在图像边缘出现；
2. 排除太大或者太小的物体；
3. 排除离边界很近的物体。

SiamFC完整的跟踪过程

参考：SiamFC完整的跟踪过程

准备两路输入图像：模板图像和检测图像。
1. 设置模板图像和检测图像的边长，分别用z_sz和x_sz表示。
  1. 设置content，前后文信息
    
    即
  2. 设置z_sz = sqrt(Az)
    
    即
  3. 设置x_sz=sqrt(Ax)
2. 对模板图像而言：在第一帧以z_sz为边长，以目标中心为中心点，截取图像补丁（如果超出第一帧的尺寸，用均值填充）。之后将其resize为127x127x3.成为模板图像
3. 对检测图像而言：在第二帧及以后，分别以x_sz*1.0375^{[-2,-0.5,1]}为边长，以前一帧目标中心为中心点，截取图像补丁（如果超出第一帧的尺寸，用均值填充）。之后将三个图像补丁都resize为255x255x3.成为检测图像
将模板图像和检测图像输入CNN网络中，分别得到6x6x128和22x22x128的特征图。
最后使用交叉相关，将模板图像的特征图当做卷积核，对检测图像的特征进行滑窗检测，最后得到3x1x17x17的得分图（三个尺度）。交叉函数如下所示：
f(x,z)=φ(z)∗φ(x)+bi
使用双三次线性插值生成277x277的图像： 3x277x277.
获得三个得分图中最大值的位置（x，y）。
获得最大值位置与上一帧目标中心的相对位移。
因为之前是crop，再resize得到检测图像，之后CNN（包含交叉卷积）得到得分图，最后上采样得到[3,277,277]。所以将第（6）步得到的相对位移进行逆运算，最终获得视频帧之间的相对位移。
根据相对位移更新目标的中心点。
获得目标尺寸变换的比例（最大值所在的尺度（三个尺度中的一个））：
1. 更新目标尺寸：target_sz*scale
2. 更新x_sz：x_sz*scale
3. 更新z_sz：z_sz*scale
画出跟踪框。

这是我详细debug的记录：里面也有对其的一些理解：

论文的思考与优化

SiameseFC的优点：

1、实时性（>24帧/s）：
SiamFC-3s FPS : 86帧/s
SiamFC-5s FPS : 58帧/s

该网络把跟踪任务转换成一个模板匹配的问题而不是一个常见的二分类问题，整个跟踪过程中不需要更新模板，使得算法的速度大幅度提高。这也是深度学习领域神经网络在目标跟踪一直以来难以到达的一个关键点，直到孪生网络应用于目标跟踪使得在跟踪精度较高的条件下还达到了实时性，在深度学习领域不愧为重大的突破，继此网络后，基于此网络为基本框架的目标跟踪算法层出不尽并且精度、速度能达到一个兼顾，占据深度学习应用在目标跟踪中的主流方向。

2、小范围晃动

对于小范围晃动，背景信息变化不大使得模板匹配的结果较好

3、运动模糊

4、短时局部遮挡
模板匹配对短暂性局部遮挡处理较好

SiameseFC的不足：（Siamese一直有鲁棒性不好的问题）

SiameseFC是一个模板匹配的任务，在跟踪过程中并不更新目标模板和网络权值，这造成如下问题：

（1）当目标发生较大的形变时，会造成目标候选框与目标模板出现较大差异，从而导致跟踪失败。网络权值不更新导致要使用同一套网络结构和网络参数适应所有的跟踪场景，这是很难做到的。

（2）对于没有处于复杂背景下的跟踪来说，该算法能基本平衡实时性与准确性要求，但是跟踪目标一旦发生遮挡、快速运动、相似外观，搜索图像的大小可能就覆盖不了目标，通过最后的相似性度量函数得出来的结果就是错误的，随着跟踪过程中发生的错误累加，导致跟踪不可恢复，所以孪生结构网络的跟踪性能在背景复杂的情况下会下降。

失败原因：

目标特征不够具体、突出、全面（AlexNet提取特征不够细致）
没能利用好空间信息、运动信息（运动模型不够合理）
搜索域方法的局限性（多尺度增加计算量，无法适应尺度变化）
匹配与分类的本质差别（分类对背景前景区分较好）

解决思路：

加入在线更新的策略（增加目标信息，牺牲速度或者增强特征的提取）
需要对首帧标注图像做处理（抑制背景信息，增加前景和背景的区分度）
SiamFC选用第一帧作为模板并不予更新，因此首帧目标信息为关键信息，而SiamFC模型中，最后采用相似度学习，如果不能降模板图像中背景信息的干扰，则必然会对结果造成影响。因此应当对标注图像进行进一步的目标提取，并对背景信息进行抑制。
利用空间信息，估计运动模型
在存在较多相似目标的场景中，可能特征匹配难以准确地判断哪个才是真正的目标。而人在这种场景下追踪目标的策略往往是根据
（1）目标的空间信息，例如一队人中的第几个，或者目标周围有哪些参照物。这一点可以通过对目标旁边的背景进行建模实现。
（2）根据目标的运动轨迹进行预测，因为目标的变化(无论是位置还是外观)在序列中往往是连续可微的。

论文代码解读

这里主要参考：siamfc-pytorch代码讲解（三）：demo&track
更简洁的请参考：【SOT】siameseFC论文和代码解析讲的也很棒~

训练阶段：

1.backbones.py分析

功能分析：

这个module主要实现了3个AlexNet版本作为backbone，开头的__all__ = [‘AlexNetV1’, ‘AlexNetV2’, ‘AlexNetV3’]主要是为了让别的module导入这个backbones.py的东西时，只能导入__all__后面的部分。
后面就是三个类AlexNetV1、AlexNetV2、AlexNetV3，他们都集成了类_AlexNet，所以他们都是使用同样的forward函数，依次通过五个卷积层，每个卷积层使用nn.Sequential()堆叠，只是他们各自的total_stride和具体每层卷积层实现稍有不同（当然跟原本的AlexNet还是有些差别的，比如通道数上）：
AlexNetV1和AlexNetV2：
共同点：conv2、conv4、conv5这几层都用了groups=2的分组卷积，这跟原来的AlexNet会更接近一点
不同点：conv2中的MaxPool2d的stride不一样大，conv5层的输出通道数不一样
AlexNetV1和AlexNetV3：前两层的MaxPool2d是一样的，但是中间层的卷积层输入输出通道都不一样，最后的输出通道也不一样，AlexNetV3最后输出经过了BN
AlexNetV2和AlexNetV3：conv2中的MaxPool2d的stride不一样，AlexNetV2最后输出通道数小很多。
其实感觉即使有这些区别，但是这并不是很重要，这一部分也是整体当中容易理解的，所以不必太去纠结为什么不一样，最后作者用的是AlexNetV1，论文中是这样的结构，其实也就是AlexNetV1：

代码分析

1.def __init__(self, num_features, *args, **kwargs):中*args和**kwargs到底是什么
参考Python中*args、**args到底是什么、有啥区别、怎么用
*args的用法：当传入的参数个数未知，且不需要知道参数名称时。
**args的用法：当传入的参数个数未知，但需要知道参数的名称时(立马想到了字典，即键值对)

也就是说**args在输入的时候一般是键值对，而*args任意。
注意：这里的args不是必须的，也就是说可以换成kwargs等等，但是星号是必须的。

2.BatchNorm2d函数分析：
参考：BatchNorm2d原理、作用及其pytorch中BatchNorm2d函数的参数讲解
例如BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

num_features：一般输入参数为batch_sizenum_featuresheight*width，即为其中特征的数量，即为输入BN层的通道数；
eps：分母中添加的一个值，目的是为了计算的稳定性，默认为：1e-5,避免分母为0；
momentum：一个用于运行过程中均值和方差的一个估计参数（我的理解是一个稳定系数，类似于SGD中的momentum的系数）；
affine：当设为true时，会给定可以学习的系数矩阵gamma和beta

3.nn.ReLU(inplace=True)代码分析
参考：PyTorch------nn.ReLU(inplace = True)详解
inplace = False 时,不会修改输入对象的值,而是返回一个新创建的对象,所以打印出对象存储地址不同,类似于C语言的值传递
inplace = True 时,会修改输入对象的值,所以打印出对象存储地址相同,类似于C语言的址传递
即当inplace = True 时，在原地改变值而不是赋予新值。

4.output stride = 4解析：
output stride为该矩阵经过多次卷积pooling操作后，尺寸缩小的值（这个还保留疑问）

5.__all__ = ['AlexNetV1', 'AlexNetV2', 'AlexNetV3']中__all__解析
参考：python中【all】的用法
__all__是一个字符串list，用来定义模块中对于from XXX import 时要对外导出的符号，即要暴露的接口，但它只对import *起作用，对from XXX import XXX不起作用。
控制 from xxx import * 的行为

6.nn.Conv2d(384, 32, 3, 1, groups=2))这个groups=2

这个groups=2，是将卷积分为两组：

2.heads.py分析

from __future__ import absolute_import

import torch.nn as nn
import torch.nn.functional as F


__all__ = ['SiamFC']


class SiamFC(nn.Module):

    def __init__(self, out_scale=0.001):
        super(SiamFC, self).__init__()
        self.out_scale = out_scale
    
    def forward(self, z, x):
        return self._fast_xcorr(z, x) * self.out_scale
    
    def _fast_xcorr(self, z, x):
        # fast cross correlation
        # x size 8,256,20,20
        # z size 8,256,6,6
        nz = z.size(0)  #size(0)即取第一个shape值
        #nz = 8
        nx, c, h, w = x.size()
        #nx = 8,c = 256,h = 20,w = 20
        x = x.view(-1, nz * c, h, w)
        #x.shape = [1,2048,20,20]
        out = F.conv2d(x, z, groups=nz)
        # out.shape = [1,8,15,15]
        #输入是4维，输出也是4维，高层补1
        # print(out.size())
        out = out.view(nx, -1, out.size(-2), out.size(-1))
        # out.shape = [8,1,15,15]
        return out

功能分析：
为什么这里会有个out_scale，根据作者说是因为， z zz和x xx互相关之后的值太大，经过sigmoid函数之后会使值处于梯度饱和的那块，梯度太小，乘以out_scale就是为了避免这个。
重点：nn.conv2d和nn.function2d解析
_fast_xcorr函数中最关键的部分就是F.conv2d函数了，可以通过官网查询到用法：

torch.nn.functional.conv2d(input, weight, bias=None, stride=1, padding=0, dilation=1, groups=1) → Tensor
input – input tensor of shape (\text{minibatch} , \text{in_channels} , iH , iW)(minibatch,in_channels,iH,iW)
weight – filters of shape (\text{out_channels} , \frac{\text{in_channels}}{\text{groups}} , kH , kW)(out_channels, groups in_channels ,kH,kW)
bias – optional bias tensor of shape (\text{out_channels})(out_channels). Default: None
stride – the stride of the convolving kernel. Can be a single number or a tuple (sH, sW). Default: 1
padding –implicit paddings on both sides of the input. Can be a string {‘valid’, ‘same’}, single number or a tuple (padH, padW). Default: 0 padding=‘valid’ is the same as no padding. padding=‘same’ pads the input so the output has the shape as the input. However, this mode doesn’t support any stride values other than 1.

这里nn.Con2d要与nn.function.conv2d区分开：
参考：pytorch中nn.Conv2d和nn.function.conv2d的区别

nn.Conv2d
torch.nn.Conv2d(in_channels,out_channels,kernel_size,stride=1,padding=0,dilation=1,groups=1,bias=True,padding_mode=‘zeros’)
in_channels-----输入通道数
out_channels-------输出通道数
kernel_size--------卷积核大小
stride-------------步长
padding---------是否对输入数据填充0
nn.function.conv2d
torch.nn.functional.conv2d(input,weight,bias=None,stride=1,padding=0,dilation=1,groups=1)
input-------输入tensor大小（minibatch，in_channels，iH, iW）
weight------权重大小（out_channels, in_channels/groups, kH, kW）
注意：权重参数中，第一个卷积核的输出通道数，第二个是输入通道数

这里针对nn.function.conv2d讨论
例如：torch.nn.functional.conv2d(self, input, weight, bias=None, stride=1, padding=0, dilation=1, groups=2)
input：
minibatch：batch中的样例个数
in_channels：每个样例数据的通道数
iH：每个样例的高（行数）
iW：每个样例的宽（列数）

weight（就是filter）：
out_channels：卷积核的个数
in_channels/groups：每个卷积核的通道数
kH：每个卷积核的高（行数）
kW：每个卷积核的宽（列数）
groups作用：对input中的每个样例数据，将通道分为groups等份，即每个样例数据被分成了groups个大小为(in_channel/groups, iH, iW)的子数据。对于这每个子数据来说，卷积核的大小为(in_channel/groups, kH, kW)。这一整个样例数据的计算结果为各个子数据的卷积结果拼接所得。

举例：

import torch.nn.functional as F
inputs = torch.arange(1, 21).reshape(1, 2, 2, 5)
filters = torch.arange(1, 7).reshape(2, 1, 1, 3)
print(inputs)
print(filters)
res = F.conv2d(input=inputs, weight=filters, stride=(1, 1), groups=2)
print(res)

输出如下：

tensor([[[[ 1,  2,  3,  4,  5],
          [ 6,  7,  8,  9, 10]],

         [[11, 12, 13, 14, 15],
          [16, 17, 18, 19, 20]]]])

tensor([[[[1, 2, 3]]],

        [[[4, 5, 6]]]])
        
tensor([[[[ 14,  20,  26],
          [ 44,  50,  56]],

         [[182, 197, 212],
          [257, 272, 287]]]])

样例数据：

[ [ [ 1,  2,  3,  4,  5],
    [ 6,  7,  8,  9, 10] ],

  [ [11, 12, 13, 14, 15],
    [16, 17, 18, 19, 20] ] ]

被分成：

[ [ [ 1,  2,  3,  4,  5],			 [ [ [11, 12, 13, 14, 15],
   [ 6,  7,  8,  9, 10] ] ] 	和		[16, 17, 18, 19, 20] ] ]

卷积核：

[ [ [ [ 1, 2, 3 ] ] ],

[ [ [ 4, 5, 6 ] ] ] ]

被分成：

[ [ [1, 2, 3] ] ]	和	 [ [4, 5, 6] ] ]

结果中：

[ [ 14,  20,  26],
 [ 44,  50,  56] ]

是

[ [ [ 1,  2,  3,  4,  5],
   [ 6,  7,  8,  9, 10] ] ]	和	 [ [ [ 1, 2, 3 ] ] ]	卷积所得。

3.train.py分析

作者使用了GOT-10k这个工具箱，train.py代码非常少
具体可以参考官方文档：Downloads - GOT-10k

4.transforms.py分析

顺着代码流看到调用了siamfc.py中类TrackerSiamFC的train_over方法，在这个类里面就是进行数据增强，构造和加载，然后进行训练，这里先讨论transforms：

SiamFCTransforms是transforms.py里面的一个类，主要是对输入的groung truth的z, x, bbox_z, bbox_x进行一系列变换，构成孪生网络的输入，这其中就包括了：
RandomStretch：主要是随机的resize图片的大小，其中要注意cv2.resize()的一点用法，可以参考这篇博客：cv2.resize()的一点小坑
CenterCrop：从img中间抠一块(size, size)大小的patch，如果不够大，以图片均值进行pad之后再crop
RandomCrop：用法类似CenterCrop，只不过从随机的位置抠，没有pad的考虑
Compose：就是把一系列的transforms串起来
ToTensor：就是字面意思，把np.ndarray转化成torch tensor类型
代码分析：

torch.from_numpy(img).float().permute((2, 0, 1))中permute(2,0,1)分析
参考：Pytorch之permute函数
permute(dims)：将tensor的维度换位。

>>> x = torch.randn(2, 3, 5) 
>>> x.size() 
torch.Size([2, 3, 5]) 
>>> x.permute(2, 0, 1).size() 
torch.Size([5, 2, 3])

if isinstance(size, numbers.Number):中isinstance分析
参考Python isinstance() 函数
isinstance() 函数来判断一个对象是否是一个已知的类型，类似 type()。
isinstance() 与 type() 区别：
type() 不会认为子类是一种父类类型，不考虑继承关系。
isinstance() 会认为子类是一种父类类型，考虑继承关系。
如果要判断两个类型是否相同推荐使用 isinstance()。
在这里，isinstance是判断size是否为正常数。
np.random.choice
参考：理解python中的random.choice()
random模块在python中起到的是生成随机数的作用，random模块中choice()可以从序列中获取一个随机元素，并返回一个（列表，元组或字符串中的）随机项。
图像处理: 五种插值法
参考：图像处理: 五种插值法

下面具体讲里面的_crop函数：
因为GOT-10k里面对于目标的bbox是以ltwh(即left, top, weight, height)形式给出的，上述代码一开始就先把输入的box变成center based，坐标形式变为[y, x, h, w]，结合下面这幅图就非常好理解：

5.ops.py分析（train相关部分）

crop_and_resize

代码分析：

 img = cv2.copyMakeBorder(img, npad, npad, npad,
  npad,border_type,value=border_value)

参考：OpenCV-Python: cv2.copyMakeBorder()函数详解

6.datasets.py

现在继续回到train_over方法，里面构造dataset的时候用了Pair类，所以从代码角度具体来看一下，因为继承了Dataset类，所以要overwrite __getitem__和__len__方法：
getitem：分析代码，这个方法就是通过index索引返回item = (z, x, box_z, box_x)，然后经过transforms返回一对pair(z, x)，就需要像论文里面说的：The images are extracted from two frames of a video that both contain the object and are at most T frames apart 。
_filter：通过该函数筛选符合条件的有效索引val_indices，这里不详细分析，因为我也不知道为什么会有这样的filter condition。
_sample_pair：如果有效索引大于2个的话，就从中随机挑选两个索引，这里取的间隔不超过T=100
len：这里定义的长度就是被索引到的视频序列帧数×每个序列提供的对数

7.siamfc.py分析（重点：train相关部分）

train_step
现在来到siamfc.py里面最后一个关键的地方，数据准备好了，经过变换和加载进来就可以训练了，下面代码是常规操作，具体在train_step里面实现了训练和反向传播：

而train_step里面难度又是在于理解_create_labels，具体的一些tensor的shape可以看我的注释，我好奇就把他打印出来了，看来本来__getitem__返回一对pair(z, x)，经过dataloader的加载，还是z堆叠一起，x堆叠一起，并不是(z, x)绑定堆叠一起

而且criterion使用的BalancedLoss，是调用F.binary_cross_entropy_with_logits，进行一个element-wise的交叉熵计算，所以创建出来的labels的shape其实就是和responses的shape是一样的：

创建标签，论文里是这么说的：

因为我们的exemplar image z zz 和search image x xx都是以目标为中心的，所以labels的中心为1，中心以外为0。
对于np.tile、np.meshgrid、np.where函数的使用：
参考：np.tile、np.meshgrid、np.where学习总结
最后出来的一个batch下某一个通道下的label就是下面这样的：

还有train_over部分，就是保存模型，没什么说的。

tracking部分：

现在就来看一下类TrackerSiamFC下的track方法。这个函数的作用就是传入video sequence和first frame中的ground truth bbox，然后通过模型，得到后续帧的目标位置，可以看到主要有两个函数实现：init和update，这也是继承Tracker需要重写的两个方法：

siamfc.py（tracking部分）

init(self, img, box)：
init：就是传入第一帧的标签和图片，初始化一些参数，计算一些之后搜索区域的中心等等

update：
update：就是传入后续帧，然后根据SiamFC网络返回目标的box坐标，之后就是根据这些坐标来show，起到一个demo的效果。

补充一些函数：
1.getatter()：
参考：Python getatter() 通过方法名字符串调用方法
getattr()这个方法最主要的作用是实现反射机制。也就是说可以通过字符串获取方法实例。
获取函数/属性/从模块获取类
2.enumerate()
参考：python中enumerate()函数的用法
enumerate(sequence, start=0)，返回一个枚举对象。sequence必须是序列或迭代器iterator，或者支持迭代的对象。enumerate()返回对象的每个元素都是一个元组，每个元组包括两个值，一个是计数，一个是sequence的值，计数是从start开始的，start默认为0。

论文翻译+解读

Abstract

1 Introduction

2 Deep Similarity Learning for Tracking

全卷积在我另一篇文章有一个简单的分析:FCN全卷积网络随笔

2.1 Fully-Convolutional Siamese Architecture

这里讲解一下:

The position of the maximum score relative to the centre of the score map, multiplied by the stride of the network, gives the displacemen of the target from frame to frame.

我们假设有三个帧,第二帧的中心截取是按照第一帧的目标位置来截取的,如果要进行第三帧的中心截取,那我们需要按照第二帧对于第一帧的相对位移,来获取第三帧的截取位置–也就是帧与帧之间的位移.网络步长是指缩小的倍数.再经过一系列的卷积层之后,图像缩小了一定的倍数,这个倍数就是网络步长.当我们得到第二帧的map中目标点位置时,要与网络步长相乘,就能知道第二帧目标相对第一帧的目标位移,第三帧就通过这个位移来进行中心截取.

2.2 Training with Large Search Images

2.3 ImageNet Video for Tracking

2.4 Practical Considerations

这里来讲解一下这个公式
实际上,s是缩小的倍数,(h,w)是指长宽,而p是指边框厚度,其结果A就是面积

3 Related Work

4 Experiments

4.1 Implementation Details

双三插值的理解请看这个:插值（五）Bicubic interpolation（双三次插值)

4.2 Evaluation

4.3 The OTB-13 Benchmark

4.4 The VOT Benchmarks

4.5 Dataset Size

5 Conclusion

你可能感兴趣的:(目标跟踪论文,深度学习,pytorch,自然语言处理)

DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
Transposed convolution（2016 IEEE）刘若里论文阅读人工智能计算机视觉学习网络笔记
论文标题FullyConvolutionalNetworksforSemanticSegmentation论文作者EvanShelhamer,JonathanLong,TrevorDarrell发表日期2016年05月01日GB引用>ShelhamerEvan,LongJonathan,DarrellTrevor.FullyConvolutionalNetworksforSemanticSegme
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
【论文复现】——基于SIFT特征点结合ICP的点云配准方法点云侠点云配准专题开发语言计算机视觉算法 3d c++
目录一、论文概述二、代码实现三、结果展示1、初始位置2、配准结果四、实验心得一、论文概述在点云配准过程中，针对迭代最近点(ICP)算法对点云初始位置依赖性强且迭代速度慢的问题，提出一种基于尺度不变特征变换(SIFT)特征点结合ICP的点云配准方法。首先利用SIFT算法提取待配准点云和目标点云的特征点;接着计算出特征点的快速点特征直方图(FPFH)特征;然后依据该特征使用采样一致性初始配准(SA
Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod dkgee linux pytorch 运维
报错内容：OSError:Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer版本不对，需要升级pipinstall--upgradehuggingface_hubpipinstalltransformers[torch]其
Description of a Poisson Imagery Super Resolution Algorithm 论文阅读青铜锁00 论文阅读 Radar 论文阅读
DescriptionofaPoissonImagerySuperResolutionAlgorithm1.研究目标与意义1.1研究目标1.2实际意义2.创新方法与模型2.1核心思路2.2关键公式与推导2.2.1贝叶斯框架与概率模型2.2.2MAP估计的优化目标2.2.3超分辨率参数α2.3对比传统方法的优势3.实验验证与结果3.1实验设计3.2关键结果4.未来研究方向（实波束雷达领域）4.1挑战
《基于自适应正负样本对比学习的特征提取框架》-核心公式提炼简洁版 2022年neural networks 阳光明媚大男孩学习深度学习人工智能论文笔记
论文源地址以下是从文档中提取的关于“基于对比学习的特征提取框架（CL-FEFA）”中正负样本对比学习实现的技术细节，包括详细的数学公式、特征提取过程以及特征表示方式的说明。1.正负样本的定义与构造在CL-FEFA框架中，正负样本的定义是动态且自适应的，基于特征提取的结果，而不是预先固定的。这种自适应性是CL-FEFA区别于传统对比学习（如SimCLR、SupCon）的一个关键点。定义方式：指示矩阵
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
【图像去噪】论文精读：CVPR 2025 | DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup Tables 十小大图像去噪深度学习计算机视觉人工智能图像处理论文阅读论文笔记
请先看【专栏介绍文章】：【图像去噪（ImageDenoising）】关于【图像去噪】专栏的相关说明，包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总（更新中）文章目录前言Abstract1.Introduction2.Relatedworks2.1.ColorImagedenoising2.2.ReplacingCNNwithLUT3
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
QHDBO基于量子计算和多策略融合的蜣螂优化算法算法小狂人算法改进智能优化算法量子计算算法
2.DBO基本的蜣螂算法通过模拟蜣螂在自然界中的四种行为（滚动、产卵、觅食和偷窃）来执行种群位置更新。2.1滚动蜣螂在自然界中，蜣螂必须通过太阳导航，使其球滚动的路线尽可能直线。方程(1)用于原始论文中更新滚动蜣螂的位置：xi(t+1)=xi(t)+α⋅k⋅xi(t−1)+b⋅Δx(1)x_i(t+1)=x_i(t)+\alpha\cdotk\cdotx_i(t-1)+b\cdot\Deltax\
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
基于roop/insightface将视频中包含指定人脸的视频片段提取并合并成新视频阆遤 python roop pytorch insightface
利用insightface.app.FaceAnalysis提最一个视频中包含指定人脸的视频片段，并将其合并成一个新视频，使用“buffalo_l”模型，模型需安装在代码当前目录下的.\models中。需要roop或其他支持pytorch、insightface、moviepy的环境。pytorch安装请见我其他文章。#cython:language_level=3str#-*-coding:ut
维普AIGC降重方法有哪些？ hjehheje AIGC
在学术写作和论文创作中，重复率过高是许多人面临的一大难题。随着科技的发展，维普AIGC为我们提供了一系列有效的降重方法。那么，维普AIGC降重方法有哪些呢？接下来就为大家详细介绍。语义理解与改写维普AIGC具备强大的语义理解能力。例如，当我们面对一段论述市场趋势的文字时，它能精准把握核心含义。假设原文是“当前智能手机市场呈现出快速增长的趋势，消费者对高性能手机的需求日益旺盛”，维普AIGC可能会将
关于pytorch3d的安装诚威_lol_中大努力中人工智能 pytorch 人工智能 python
更新1：2025_2_04今天发现，原来的pytorch3d不见了，在我的aaa1环境中。重新安装，我发现最好用的还是去github下载最新的pytorch3d的zip，unzip之后，进去pipinstall-e.然后安装成功！1、参考文章1：windows安装PyTorch3D详细指南-哔哩哔哩(bilibili.com)这篇文章巨好2、参考文章2：pytorch3d/INSTALL.mdat
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
【零基础入门】一篇弄懂nn.Sequential以及ModuleList的使用（呕心沥血版）十二月的猫 PyTorch深度学习 pytorch 零基础入门
个人主页：十二月的猫-CSDN博客系列专栏：《PyTorch科研加速指南：即插即用式模块开发》CSDN博客十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录1.前言2.Sequential类的使用2.1序列容器简单注入2.2序列容器字典注入2.3序列容器函数注入2.4序列容器修改2.5序列容器删除3.nn.ModuleList()的使用3.1定义模型3.2使用模型4.总结1.前言《
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
统一的视频动作模型三谷秋水计算机视觉机器学习人工智能计算机视觉深度学习机器学习人工智能
25年3月来自斯坦福大学的论文“UnifiedVideoActionModel”。统一的视频和动作模型对机器人技术具有重大意义，其中视频为动作预测提供丰富的场景信息，而动作为视频预测提供动态信息。然而，有效地结合视频生成和动作预测仍然具有挑战性，当前基于视频生成的方法在动作准确性和推理速度方面难以与直接策略学习的性能相匹配。为了弥补这一差距，引入统一的视频动作模型（UVA），它联合优化视频和动作预
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class