lightning980729

跟踪工作Siam+时序

siamese框架分为了三个部件：特征提取模块、相关性模块、任务模块。

在训练中将其转化为相似性学习，所以只需要构建模板、搜索图像和对应任务模块输出的label即可。
在测试中还会涉及到图像裁剪尺寸、以及后处理模块。

我的思考：
1、回顾以前的方法，无论是单帧还是多帧记忆的时序建模方法，都缺乏对帧之间的建模，而最近提出的transfomer很好的解决了这个问题。我们进一步对transfomer结构进行解析，用于模板特征增强的部分，attention-map是nHM*nHM也就是说在空间和时间上计算的相似度。
2、今年的CVPR涨点都是transformer密集建模，如pixel层，还很粗糙，总体给我的下一步的工作感觉是关系建模。
3.每个视频序列的目标都有独特的尺寸信息，包括长宽比。
除了引入时序后，每个模板都会做resize，那么前景和背景都有变形，也丢掉了目标在视频中长宽比的变化；学习模板帧之间的联系，resize后再concatenate会不会引入特征对齐的问题，在空间pixel维度上。

motivation：
（背景）：在线学习的方法通过复杂的效率低的优化方法导致应用场景受限，而最近基于Siamese的离线学习的方法在效率和精度上能够取得有效的平衡，所以拟采用基于Siamese的框架。由于单帧模板的信息有限，并且为了适应视频目标和背景的变化，在Siamese的框架也有很多利用时序信息的方法。
（分析）：经过分析，基于Siamese进行时序关系建模的方法没有有效地利用前背景信息，大多只使用前景crop进行相似性学习，而抛弃了背景中有用的信息，导致模型在嘈杂或者变化复杂的环境下表现得不好，而背景信息对提高模型的判别力有潜在的帮助。
（现有方法）：在线学习的方法在跟踪过程中通过采样正负样本学习一个更优的模型参数。最近也有一些基于Siamese进行时序关系建模的方法将背景信息考虑进来，但是应用都比较粗糙，有的通过加mask-label进行监督，或者收集负样本做线性减法，在嘈杂的背景下跟踪器表现得不好，还可以有很大挖掘空间。
总结起来就是：怎么有效地利用历史帧中前后景信息提高模型的判别力和泛化性？
（我们的方法）：
1、前后景关系建模
2、历史帧关系建模

下一步：基于Siamese进行时序关系建模的方法有transfomer，用于模板特征增强的部分，attention-map是nHM*nHM也就是说在空间和时间上计算的相似度。首先进行时间和空间的结构，那么他对前后景都是pixel-level平等的对待，而缺乏对前后景的关系建模。再然后对时序上前后景的关系也可以进行建模。
实验部分：先跑一遍transformertracking，训一遍。
设计部分：先设计单帧的前后景关系建模。

方法一二分别在两个维度上，一个是前后景关系建模，另一个是前后景分离做匹配。
方法一：
1、背景和前景特征进行增强。选做部分是因为可以不用选点，这样就可以对每个点进行加强。

在所有pix中根据self相关性HWHW，对背景/前景的pixel求平均得到HW，选择相关性更强的前个点做代表。（选做）
对选择的pixel计算与区域内其他点的相关性。
对选择的pixel计算与区域外其他点的相关性。
反作用与区域内所有点。（选做）
2、时序上的交互，前面的方法不仅可以在空间上做，也可以在历史帧上做交互，当然也可以决定到底需不需要选点。

方法二：在自己做完增强后，用各个前景和背景分别对搜索图像作交互，再concatenate起来。（分别交互感觉很粗糙，是否有效需要验证）（可以和方法一结合起来，在整体增强后的前后景特征分别交互）

动机和方法再思考

动机：在目标跟踪中，绝大部分可观测的信息来自背景，如果利用背景信息，对跟踪性能有着很大影响。
早期跟踪主要使用生成式模型，不使用背景信息，直到判别式方法出现，跟踪问题成为了区别目标与背景的分类问题，判别式模型将背景当作负样本进行训练。
现有的深度学习方法一般采用判别式架构，又分为在线学习和离线学习的方法，在线学习在跟踪过程中利用目标和背景学习跟踪参数，而离线学习在跟踪过程中不更新参数，缺乏对背景信息的利用，对未知环境未知目标的适应性差。
目前比较热门的研究是孪生网络，其本质类似于相似性匹配，通过提取第一帧目标特征，对搜索图像做密集匹配。现有的基于孪生网络的利用背景信息的方法主要是抑制之前帧出现的背景信息，例如学习一个负样本记忆网络，但是抑制背景信息并没有充分发挥背景信息在目标跟踪全过程中的作用。近期也有一些方法将目标及其周围背景看作一个整体，线性乘一个高斯mask来潜在的利用目标与背景的联系，但是这些方法都缺乏在有效的监督下直接利用目标周围的上下文信息探索目标和背景联系，导致对未知环境、未知目标的适应性差。
为了进一步提高孪生网络在跟踪过程中的适应性，在建立目标和背景联系的基础上，还需要建立起时序上的关系。

比之前的说法：已经有时序上的关系了，但是缺乏目标和背景的联系。这里是直接说缺乏目标和背景的联系。实际应用上也是这样。
贡献：
1.提出了前后景关系建模的方法，利用背景信息辅助增强前景特征。
2.提出了目标和背景协同建模的时序模型，学习目标个背景之间的关系随时间变化的规律。
3.在实验上，取得了不错的成绩。

第一部分：对比baseline和原始版本的super_dimp

移开transfomer就是Baseline-SuperDimp，按理说应该水平差不多，实际上把差距拉开了，这是为什么呢，参数都是一样的。唯一的区别就是Super_dimp我要自己训一次看看。除此之外就是代码的问题，两者还有不同。
而且本身我的baseline训出来的结果就比原文好一个点，虽然原文的点和Super_dimp给的模型也不一样。
重要发现：训练参数不一致，原文把训练的batch_size改到40,samples_per_epoch,max_gap都更大。
下一部分工作：按bathc_size=40训Super_dimp。

在我跑的实验结果该不该这些条件都差不多，没有明显的波动，但是和Super_dimp放出来的模型还是稍微有区别。
也说明了作者对super_dimp基本没有大的改动。涨点确实是由模块产生的作用。

第二部分：原文的消融实验（探究encoder的作用）

论文的消融实验

我跑的消融实验：

我补充了一个只有decoder的工作，原文没给，从这个实验看encoder的作用和原文不一致没有，在siam和dimp下表现不一致，但整体是没有太多的作用，反而可能掉点。原文只给了encoder和baseline的对比涨点也不多。
补充：为了统一结果，全部换成running_tracker.py生成结果提交官网，结果同一个模型涨点很明显，对比表格如下。

探究在线训练和不在线训练的区别（filter_upd），全部替换siamese，可以先和TransT的代码对比。

探究测试和训练不一致，测试过程中没有对encoder后的特征再decoder，可以在训练中去掉encoder。

结果发现是一致的，这是因为对encoder后的特征生成了memory，再decoder是为了初始化filter，测试过程中filter只用到了第一帧来生成，所以后续不再对模板进行decoder操作，而只保留了memory。

第三部分：改进baseline（和Transt对比）

1.学习TransT怎么转化为Siamese的训练结构，看代码，学习可以参考的地方。

2.重点研究classer是怎么取代的，这样就可以不做迭代了，和Dimp划分关系。

3.重点研究回归是怎么做的，是否比现在的ATOM好。

第四部分：改进encoder替换relation_encoder

前面说到自监督一点用没有。那么我就可以主攻这一点，提我的encoder有用的点。
实验：

对各个图单独的建立前后景关系，舍弃了时序信息。

1.1、不选点。
1.2、选点，先选每个区域选8个试试。

改进，除了各个图，还要把时序引进来，建立时序上的前后景关系。

2.2、历史帧所有前后景的点建模。

实验过程：训练方式提升了一个量级，用torch.where替换检索的方式。
结果如下：

整体感觉没有太大的作用。当然是对比实验设计的也不好。
结论：

目前的方式前后景关系建模没有明显的作用。
选top8导致性能下降。
加上decoder指标下降了，decoder部分是涨点的关键，需要联合重点研究。

后续改进：

只在有decoder下进行训练
分别对siam和dimp进行测试
不考虑top8

探究实验：加上decoder指标下降了

Ori_encoder loss曲线：

MIne_encoder loss曲线：

对比loss曲线，回归分支都收敛到了同一个位置，但是clf有差距，主要是init_clf有差距，说明加了encoder不好。

消融实验（都在有decoder情况下实验）

1. concat替换成加

在第40到50个epoch，init_loss上升，有点过拟合的征兆。

2. 单帧替换成多帧

多帧的前后景特征点更多了，这种交互越多反应在实验上效果就越差，也越容易过拟合，loss的波动更明显了。是因为选特征点或者结构设计不合理吗？

从上面的loss曲线上看都没有解决本质问题，还是应该从数据本身入手，去了解它的训练和测试图像是怎么生成的，为什么会导致loss的上升。

第五部分：对训练流程的研究

1.总的训练流程

分类和回归是两个分支，所以这里不考虑回归分支。

2.图像预处理

sampler复制从图片中读取数据和标注信息，没有任何处理。只是先选base_ids，然后再选择train_img和test_img的序号。
先统一转化为灰度图，然后stack成3维，随后按照一定的概率随机翻转。
crop：允许最大放大原图的1.5倍
对训练图像，scale_jitter=0.25, center_jitter=3,离目标中心最大3倍长宽的偏移，最后已这个bbox放大6倍作为crops图像。
对测试图像，scale_jitter=0.5, center_jitter=5.5,离目标中心最大5.5倍长宽的偏移，最后已这个bbox放大6倍作为crops图像。
transformer：转tensor，jitter brightness=0.2，随机翻转，正则化。

测试集：基本一致，只少了一些数据增强，每隔5帧测试一次。

感想：这个训练图像放大倍数为6，包含了很多背景信息，这也是super_dimp涨点的地方。但我这里需不要这么多背景，导致前景比例变小了很多，可能导致类别不平衡的问题。

3.特征提取

输入为预处理后的图片，分辨率为3523523。

backbone采用res50，提取的是layer_3的特征，分辨率为22X22X256。
clf_head采用res结构，分辨率为22X22X512。

4.transfomer_encoder

输入22X22，原来是在thwXthw做个self-attention

1完成了前后景特征相似分数的计算，具有指导后续特征重要性的意义。rcb部分没有提前用卷积指导。
2.完成重要性分数对初始特征的指导，并不断用前后景特征进行交互。
3.本质是计算比较重要的点之间的交互，但这里没有选点，所以还是所有点之间的交互，感觉有些重复。
4.利用前一部分的特征，完成对初始特征的增强。

5.transfomer_decoder

训练图像和测试图像都会过同一个attention模板，这是为了在做cross-attention之前都在同一特征子空间。

ins norm可以参考。
说明在做decoder之前保证训练图像和测试图像在同一特征子空间比较重要。这也是因为他们的图像所有参数基本是一致的，不像其他的siamese网络，模板会更小，可能不同的网络更好。

感想：1.一个重要的点就是需不需要保证训练图像和测试图像在同一子空间？不需要的话，就可以同时调整训练图像中目标的占比，调整训练头分开训。
2.目前看来encoder后面再加mask有带你重复，可以考虑改进一下decoder。

6.filter_init\update

init实际上是RrROlPool，在在所有图像上求平均。
update就是利用init_weigt在训练图像上计算loss，迭代五次。

7.final_scores

最后在测试图像上计算得分。完成一次前传

8.总结主要流程

从这个图可以看出在模板分支过了encoder之后还过了一次decoder，是否有必要？直观上需要的，因为这样才对前后景加mask进行监督了。
而且原文是和测试时保持一致，如果有新的图片，也会过一次decoder然后更新，所以模板分支后面这部分必须和搜索图像分支一致。
其实也可以改动，就是在测试的时候不能直接用测试图像decoder出来的特征，而是要重新走一遍encoder分支。

9.调整

1.网络上既然要动self-attention，那么必然涉及到两个分支特征子空间的不一致，所以clf_head网络结构最好要分开训，然后替换encoder部分的self-attention。其次我的前后景交互需要改进结构，加conv和减第4步。
2.是否需要简化decoder？encoder使用label监督了两次，是否会造成不稳定，直观上不会，因为就把训练图像当作测试图像过decoder，也会引入mask。如果简化的话，测试的时候，如果用dimp的方法，需要调整一下update，和测试时encoder部分保持一致。

接第四部分：encoder探究

1. cls_label对不对

对Roi-pooling和ROI-Align基本原理学习，避免特征无法对齐的问题。
之前抽取的前后景特征点没有考虑特征对齐的问题，存在较大的偏差，所以现在需要先做特征对齐，将前后景的特征前分离再计算相似rib，rcb。
参考ROI-Align或者将边界的特征点当作另外一类，分为前后景和边界特征。
实验过程中出现梯度消失的问题，原因是label生成的有误（没有label=1），主要原因是我写的方法没有考虑到：
1.边界是负数的情况
2.目标很窄，例如使用3：3是没有值的，
已修正，不考虑目标。
结果如下：

没有实质性的变化，loss还是降不下去，但也没有那种过拟合的现象。
思考，后面改结构是否可以修正一下，排除掉框在外部的训练数据，这样就剔除了脏数据。这个是对第三部分原始框架的改进。

2.对结构的改进，是分支头的问题

前面分析了encoder是为了确保训练和测试数据在同一特征子空间，为了替换掉encoder，引入前后景建模的事项，所以将前面的卷积头不共享权重。
同时在encoder结构上剪掉了冗余的第三部分。
根据不共享权重的部分，一共训练了三组：

结果如下

0.ori_encoder

1.encoder-decoder head
实验结果最高，但siam情况不好。loss也没有下降到比较好的位置。

2.train-test head
结果不好，loss上看有点过拟合了，train_loss降到了很低的水平，但是val_loss却在上升。

3.Trihead and train-test decoder head
其中第三组收敛的结果最好，但是测试结果还没有第二组好，没有达到理论的水平，需要进一步研究。
检查了一下流程，没有错误，就是更加复杂了，encoder直走encoder-head，train_img走train_img-head，然后走decoder-train，再过filter，test_img走test_img-head，然后走decoder-test。

对比原始的dimp：
最终的loss位置都差不多，收敛的比较好，除了test_iter_clf稍微高了0.015个点，其他loss都一致。
但整体上看在0-10个epoch存在震荡的现象，在第40-50个epoch下降很平缓。
4.加上时序

40个epoch时val_loss出现了一个震荡，但是不影响，在45和50个epoch属于正常。结果基本上和不加时序一致。

3.补充实验：对训练数据的改进

时序上目前loss下降情况不是很好，我认为是由于数据前后景的数量不平衡导致的，所以可以将训练数据的放大比例缩小。当然还要评估这样对训练数据的影响，例如生成filter的影响，可以先减小区域在v1上试一试。
1.生成新的有待crop的jittered_anno时，减少偏移量。保证目标在视野范围中。例如TransT全改为0，都在中心。
2.训练图像改为目标的3倍，但尺寸还是和训练图像一样为352。
3.测试时，添加params.template_area_scale = 3，修改self.init_sample_scale（第414行），就完成了初始模板的修改。
4.测试更新时，需重新crop和生成bbox指引生成scale=3的模板更新。

结果还较差，还要看看测试时是否有问题，可以看一下loss
1.ori_encoder上加改动
loss收敛的还可以，虽然val-loss高了一点。

2.mine_encoder（trihead and duel-decoder）上加改动
也还可以。

loss看起来都还可以，我怀疑是测试的部分哪里出现了问题。

除了分类的loss，修改模板尺寸还对回归的loss加粗样式造成了影响，变得更高了。

4.补充实验：对是否采用dimp在线更新的探究实验

在后面实验结果上看，init_loss的结果就很好，使用了更新之后反而结果表现得更差。
那么在训练时，是否还需要进行迭代就可以进一步研究。

不利用在线更新siam结果也下降了

接第四部分：探究不tri-head和train-test-head

1.tri-head结果不好的原因

目前情况是loss下去了，结果不好。
说明训练是没有问题的，那就只有测试时可能出现问题。

第一：检查不同epoch结果是否一致

在第45个epoch最好，但是dimp普遍也都不高。即使可能存在波动也很难上到0.68。
测试第45个epoch的波动性：

结合最开始的结果差距还挺大的，为什么波动这么大？是因为还是要测三组吗？

dimp分数更高了，但还是有一定的波动性。
打算拿GOT本身的模型试试。
结果仍然一样，都差不多，表现得不好。

第二：流程是否正确

检查了一遍，没有问题，保持和测试时一致。

第三：数据是否正确

检查更新时图像和bbox和cls_label是否对齐。
有一个问题，在于生成cls_label没有使用深拷贝，导致在初始化时filter有偏差。
所有的v2、v3、v4、v5都要重新测试。

第四：表现较差的结果是哪些，对这些做一点可视化，或者放入val集

结论

测试时由于target_box没有深拷贝，导致后面生成filter的位置出错，所以初始化结果很差，之前几个重要的消融实验都是重新测试的。

再测试波动性

没有提升。

2.train-test-head

思考：
tri-head和train-test-head对比：
虽然train-test-head的train-loss降得很低，但是val-loss一直在上升，tri-head的val-loss收敛更好，但是结果表现得更差，只有可能是这样训练出来的泛化性能较差，在train数据集上过拟合了。
那么可以比较一下两者在val集上是不是tri-head更好。

结果在val测试集上，traintesthead表现得比原来的文章的self-attention好，有1%的提升，但是在test测试集上点不高，但从结果上来看是泛化性不高，可以再在其他的数据集上测试一下。
1.虽然val-loss没有收敛，但前面已经在got10k_val数据集上验证了方法的有效性，下面在更多的数据集上进行测试结果如下：

在trackingnet数据集上有所涨点
2.疑惑：traintesthead的train-loss降得更低，但是val-loss还是飘得，怀疑是震荡的原因，再重复训练实验。

重复训练后的loss曲线如下：

和之前的大差不多，val稍微平稳一点。

3.train-test-head-decoder

改进加入train-test decoder

loss也降得足够低，基本和不区别decoer的一致，并且val也表现的很平稳，但是在test数据集上实验结果没有不区分decoder好。和loss曲线表现的不一致。
思考，loss曲线好像不是很有指导意义，总是出乎我的意料。

4.消融实验

5.训练不迭代会对siam的结果有影响吗

结果如下

loss曲线如下：

6.加时序

loss曲线如下：

接第四部分：基于RANET改进train-test-head encoder

RIB：计算attention_table，在特征图2222上计算每个点的相关性，本质上就是self-attention中key-value的点乘，最后的尺寸是484484。计算过程是，先在维度上过一个mlp生成key-value，同时也完成降维，然后点乘，最后过一个softmax。
怀疑attention_table是否有指导意义，做个可视化。

我测试结果和论文一致：

我的attention_map学出来的可视化：

可以说获取的有用的信息很少。

RCB：前后景区域的相关建模。
首先从attention_table和foreground_tables，区分前后景的相似性，只计算各个点对同一区域点的相似性，做累加，得到各个点在区域内重要性，得到代表性分数representative_score。
然后就是将特征点乘相似性分数（反复4次），之后过一个卷积，相当于各个点通过重要性进行了加权。
将加权后的分数点乘相似性分数，再和初始特征进行反复点乘，最后再过一次卷积。
其中的反复点乘是为什么？需要深入理解RANet的公式。

1改进attention_map生成方式

一开始是我拍脑袋自己想的，所以结果看上去很差。现在应该完全参照self-attention的方式生成。
完全参照self-attention只有在temporal下可以实现。
结果同上：

下面通过直接调用RANet的生成方式，（主要解决了之前无法导入cuda函数的问题）
通过可视化可以看到attention_table有比较丰富的信息了

但结果仍不好，怀疑是后面需要调整两点因素，一方面是RCB的结构，另一方面是RIB和RCB的学习率。

总体来说，改进RIB的实验，主要是先对attention_map的生成方式进行了改进，呈现出如图所示的效果，但是从实验结果上来看，导致loss上升，实验结果也不好。所以是一个负反馈。
init_clf_loss橙色的train线最后是0.14，而原版的在0.088左右，所以收敛结果不理想。

2改进后续RCB点乘

在RIB和前面一致的基础上，RCB的结构保持和RANet一致，结果如下

可视化图：

loss曲线如下：

相比于前一阶段的成果，这里是比之前做的了正反馈。
尤其是val_Loss蓝色的收敛比较好，保持在橙色的trian_loss下面。但是橙色的train_loss比原版还是高0.01个点，但val_loss差不多。
思考，在原版和现在RANet的版本中学习率是否要精调以去的好的结果。
下一步，将负反馈的RIB去掉，看看直接上原版RCB会不会更好：

3不改attention_map生成方式，直接加原版RCB

结果如下：

val_loss开始上升，但是train_loss收敛的更好，主要表现在iter上面。但是train_loss在init上表现没有最开始的train-test-head好，而且val-loss没有下降了。

结论：改进RIB可以让val-loss不上升，但是会让trian-loss下限升高一点点，导致结果变差一点点。
在前面三组实验中，只有RIB和RCB结合的第二组实验最接近baseline，可以调整。

8.使用原版Vcount

不做其他的改进，只将vcount替换成RANet的方式

依旧不痛不痒

9.回归train-test-head 解决过拟合的问题，调整超参（同下）

结论：不理想，本质上还是模型的问题

第六部分对decoder的研究

6.1decoder分开匹配前景和后景（直接在baseline上面实验）

先对decoder具体作用进行研究

只需要在特征层面乘上mask和（1-mask）就可以区分然后再分别匹配得到结果。
原来时通过memory可以直接生成decoder_feat，现在memory*label可以只传导前、后景的特征值引导生成decoder_feat，所以生成两部分。
下一步的工作是需要进行融合
baseline的loss曲线：

方法有add，结果如下。

方法有concat和conv降维，结果如下。

还可以引入前后景信息指引，前后景像素点通过avapooling生成通道级权重，对decoder_feat加权，之后再add和insnorm，或者concat和conv降维。

总体结果上来看，conv比add好，加入attention后，loss比baseline更低了。

实验结果不如人意，loss虽然低，但是结果反而更差了，需要进一步研究，过拟合的原因。
从来loss看唯一不合理的地方就是train-val-loss两者差距比较小。
Plus：最后再加上原特征形成一个残差连接的结构。

loss降得更低了。

重要分析

在对训练做改进前，应该分析结果为什么有所反差。
baseline和superdimp的训练方式没有差别，所以训练是没有问题。而baseline最大的区别就是训练时完全没有考虑多帧，但是在测试的时候可以利用多帧的时序信息，所以就会涉及到超参的问题。
虽然我的设计loss降得更低，但是对比原文的消融实验和我自己消融实验可以看到，原文的方法可以有效地利用时序信息，所以在间隔为5更新模板能取得最好的效果。

我的方法在不更新时取得的结果是最好的，说明更新引入的模板会引起错误累计的后果，损害了模型的性能。
进一步分析我的对比实验可以看出，interval越大越好，因为这是趋于不更新是结果是最好的。size整体趋势也是越大越好。

下面就要针对错误累计的改进方法

测试时引入静态的模板，即保留一部分不更新模板。

从不更新的结果来看，增加静态模板数量提升空间并不大。
需要保持一定的更新模板的比例很重要。
筛选更可靠的模板：

结果都不是很好。
前景区域扩大，引入部分背景信息，提高误差的包容性。
loss如下，相比之前有所提升。
训练时引入噪声（center_jitter），中心的偏移噪声。
loss如下：
相比只加入尺寸的扩大，loss升高的更加明显。

结果仍旧不好。

对输入数据的探究

之前的文章对训练数据的采样间隔有所不同，所以这里设置了4组不同的值进行对比，结果如下。

从loss曲线上看，间隔为100和30时最低，但是结果最差，这是因为test也是间隔比较小，更容易过拟合。但是200的loss结果并不好，目前结果最佳，当然也可能是由超参数共同影响。
这也说明loss下降，但是实验结果不好，其实loss不管上升或者在下降，本质上并没有较大的差距，有可能只是模型变大了，lloss降得比较低，但是测试并不见好。

完成的对比实验

1.50000-200的几组对比试验

2.jitter_center0.25_size1.5的几组对比试验

3.addnorm模型的对比实验

在其他数据集的测试

结论

做的几次实验表明结果都不理想，甚至重复实验结果都下降了。
不在这个模型上面继续研究了，我猜想的还是因为模型变复杂了，所以导致loss下降，但是测试并不好。
本质上还是模型设计的不科学。

第7部分 decoder再改进思考怎么和前后景融合

decoder需要进行大调整，不能把base的mask也融合混杂在一块。
思考每一部分的作用，decoder分为了两部分，feature transformer和mask transformer，这里不应该影响mask transformer，因为它的作用是预测下一帧目标的位置。
我这里本意是对前后景做特征上的加权，所以应该把feature transformer拆分为两部分，所以将其mask改为前后景的mask，从而实现三个分支的transformer。
原本是高斯核加权交互的feature transformer，原先乘mask是为了镇压模板背景，相当于舍弃了背景信息，我这里直接利用起来。一部分提高前景的响应，另一部分抑制背景的响应，最后再三个分支add_norm。
7.1.同一个corss-attention模型参数实现tgt = tgt2 + tgt4 - tgt6

loss不是很好
7.2.不同的corss-attention模型参数实现tgt = tgt2 + tgt4 + tgt6

这个工作的loss看起来还可以
疑惑之处在于计算corss-attention，query是搜索图像，key是模板图像，value是模板图像乘mask。相似性矩阵是query*key，value才是加权后的相似性矩阵点成的对象。
我这里就是搜索图像和前景计算相似性，然后加权作用在整个模板图像上，得到前景和搜索图想的共同影响的模板图像，背景功能同理。得到加权的模板图像再和搜索图像相加得到更关心的权重。
那么重要的就是key和query的相似性计算，这里将前后景区分开了。

调节超参

涨点了！！！！！！！
7.3在decoder内部再引入instance-level attention

结果没有进一步的涨点，反而掉了，还需要再思考一下如何接入涨点。
loss稍微低了一点点，几乎可以忽略不计。

7.4 由于0-1的label会引入不确定性，且缺乏空间信息流动，所以在decoder部分换回原来的高斯label，
然后新增的那部分取反，多一个分支。
结果loss稍微低了一点，预计比原来结构还要好。

总结：改变的decoder比较有限，但是验证了有效性。
大的框架没有变，需要思考怎么和另一部分工作联系。
baseline做过的实验都可以验证，比如原来去掉encoder能涨点。

第七部分思考各个部件的结构和关系

首先，我们只对分类分支做改动。
第一部分encoder完成模板图像的编码，为了在decoder做cross-attention在同一特征子空间。
第二部分模板和搜索图像经过decoder，本质上是一样的，这是为了在做互相关的时候也都在同一特征子空间，同时也为了后续在线更新的时候不需要做太多的改变。
其实训练和测试是这个图

改动1：确定有涨点的实验，decoder内部的分解，但是外面的所有结构都没有被打破。
改动2：encoder改动被我换成了bf_relation，那么在decoder内部cross-attention就不在同一特征子空间。

思考：
1 train-test head的作用，那这就把后续做互相关操作的模板和搜索图像分支在同一特征子空间破坏了，并且测试时没有简化了。
2 template分支decoder作用，既然都是自己和自己交互加mask，是不是可以直接替换到我的前后景交互分支。
3 search分支decoder作用，首先self-attention作用，前面说是为了在cross-attention在同一特征子空间，那么模板分支去掉了，搜图分支还需要保留吗？
之前的实验是
这样破化了decoder内部统一特征子空间结构。有个问题在于生成filter交互了两次，如果去掉template decoder就是下面的idea2

下面看idea1和2：
idea1、2区别在于要不要保留原有结构
idea1：保留原有在search分支的结构，encoder不变。

idea2：filter和mem都在加权了前后景信息之后和decoder交互。

第四部分：针对encoder改进大的结构位置

1.按照idea1改进

两种结果对比下，还是ranet的结构更优，但是本质上涨点还是不明显。
2.按照idea2改进


idea2的实现结果普遍更差一点，怀疑模板在过完上下文交互后，再进入decoder对原有的特征空间破坏比较厉害。

总结：这两种大的结构，从loss曲线上看，都没有很显著的下降，感觉总体作用还是比较有限，需要进一步修改模型，可以直接核前面的decoder的改进放在一起再做改进了。

第八部分：融合两个模块

整体结果。

从loss来看，引入模板上下文交互的模板，反而有点拖累了原decoder的表现，原因还是模板1的网络结构设计不合理。一方面可以说是label的不准确导致的，有没有办法也用高斯mask来代替呢？另一方面，结构上，那些点乘运算还能不能坐进一步的优化。
难点还是在于模板分支，引入上下文信息和模板进行交互是否有帮助？

对上述问题的思考
1.原结构本质上也是对模板分支进行了前景加权的，只是文章中没有提到。我改进decoder后，两个分支都融入了前后景的注意力。
2.我的前后景交互模块和decoder相比，其实本质上差不多，只是方法上有些微的差别，想要改进很难绕过去一个问题，你为什么不用decoder来进行前后景交互。我可以说我将背景信息引入到前景特征中完成交互，是我的贡献点，但我的方法为什么不用decoder？不好解释。
所以前面的消融实验，后面两个才是整体结构的一致。

模板分支引入前后景交互模块到底有没有效果：
对比试验：在现有结构的基础上，搜索图像分支继续encoder、decoder。
1.模板分支不进入任何模块，直接进入直接进入filter。（验证用decoder或者bf_relation的有效性）
2.模板分支进入encoder（即baseline’论文’+decoder的改进）
3.模板分支进入bf_relation（总的实验）
4.模板分支进入encoder、decoder（和bf_relation的对比试验）

搜索图像分支引入
1.baseline‘论文’
2.baseline‘论文’+decoder（改进）
3.总的实验
4.总的框架+模板进如bf_relation

总结：
在整体框架做了改动的基础上，基于base所作的消融实验结果上，增加交互模块、改进decoder都取得了涨点，但两部分效果整体没有太大的提升空间。
在交互模块的对比实验没有体现我的方法比encoder的优越性

第八部分从头开始

首先比较了一下两种不同的框架，虽然论文中的结构是

实际上是

需要注意：模板一共有两个作用，一个是生成kernel，另一个是生成mem。
经过分析，还是应该按照原文的结构的结构来进行改进，提出了v15，也就是上图1的框架，只是把encoder换成了bf_relation,后面生成kernel和mem都单独再过一个卷积。
PLUS:改进匹配机制：
1.提取前景特征是通过ROI，后景特征额可以通过相似性计算得到代表性分数选topk个点。
2.将相关计算替换成concat，引入mask分别抑制前后景

结果很差很差，即使是换了训练数据集，对比sota也比较低。
后面探索了一下框架的因素。

结论:框架二的方式影响很大，低框架一2个点。

想得两个匹配策略，也都造成了明显的降点。

第九部分回归idea1

改进bf_relation模块，结果都不好。并在decoder添加了一个对比实验

第十部分回归原文baseline框架（v18-v19)

基于原文的encoder，类似position_embeding创建一个类别相关的embeding融合前后景信息完成全局的交互.
后面还有不同的head来改进，但是过拟合严重，loss都收敛的比较好。

后面还针对decoder进行的了增强，用cls-token的方式，在v14上面。

第十一部分回归idea1并总结（v20）

首先要完成所有的消融实验。

其次最终版只在got上的实验也要重新训。

然后，是所有数据集的实验。

论文：
1.卖点：利用背景信息-主流的Siamese方法抛弃了背景信息，这是Siamese离线学习的相似性匹配，利用背景可能引入噪声，在线跟踪的方法通过将背景作为负样本进行训练的方式，能够学习更鲁棒的特征，更好的适应视频所在的域。
2.但是在线学习的方式通过迭代反传会消耗大量的计算资源，所以在推理过程中利用背景做特征增强。
现有的方法在两个分支提取特征，所以各自有不同的特征增强的方式。
第一：模板特征大多利用时序信息做增强，结合历史帧或者光流信息，或者采集背景中的难负样本，和模板特征做线性求和或者残差连接，这种方式通过人工设置阈值的方式筛选负样本，较复杂无法进行端到端的训练，而且没有利用目标周围全局的上下文信息，效果不好。
第二：搜索图像特征大多利用空间上的变化抑制背景信息，或者近期比较火的transformer进一步融合模板特征，，但是都没有同等的对待背景进行交互学习
3.所以我们的方法能够充分利用背景信息，通过在两个分支提出的特征增强方式，实现端到端的学习。
第一：模板，我们采用了一个更大范围的模板特征没包含更加丰富的背景信息，通过划分前后景区域的方式学习代表性分数进行区域内外的交互学习，得到更加鲁棒的模板特征，用于生成匹配时的卷积核。
第二：搜图，我们采用现在比较transformer结构进行注意力学习，通过同等的对待前后景学习两部分的注意力。
4.实验结果证明了：

引言：详细介绍
1.视频跟踪任务难点和挑战（往背景信息上引）嘈杂背景、相似干扰物
2.引出离线学习的方式为什么和在线学习的差距，现有的离线学习方法缺乏对背景信息的有效利用，这是由于离线学习是通过相似性匹配的机制导致的，在提特征是只需要提取目标特征即可。现有的一些方法利用背景信息主要通过特征增强来实现，两个分支上一个生成kerenl，另一个生成搜索图像。
3.所以本文在模板分支，相比于本文的baseline，也用到了更大区域，但这是为了和搜索图像保持同一尺寸，并且为了在同一特征子空间下进行注意力学习。并且encoder的目的是加强跟踪过程中历史帧时序上的联系，这和只能利用第一帧生成更鲁棒的卷积核参数作用不同，所以本文也将其解耦开来，在第一帧生成参数的时候使用交互模块，在跟踪的过程中，利用encoder增强时序信息。不同的本文的baseline进行模板特征加权，这种像素级注意力方式可能也能构建像素之间的上下文关系，但是这种无监督的方式可能由于数据之前的关系引起网络的错分，所以本文引入了一种全新的前后景交互模块来实现模板特征增强，提高特征的鲁棒性。具体来说，我们在模板上建立起前后景区域之间信息交流的通道来增强整个图像上的像素的特征。
4.再说搜索图像分支，不同于之前的方法仅仅使用前景特征来进行嵌入学习和匹配，我们认为背景也应该被同等的对待，因此利用transformer decoder结构提出了对背景信息的注意力学习，并且通过相关性选出具有代表性的背景像素和搜索图像做匹配。
5.贡献：
1.提出了一种全新的框架，能够实现背景信息的充分利用。
2.模块1
3.模块2
4.实验

相关工作：
跟踪：
离线：特征增强手段
在线：
attention 机制：

方法：
1.框架流程
2.模块1：
代表性分数、区域内外内三层交互
3.模块2：
transformer结构图

你可能感兴趣的:(深度学习,机器学习,pytorch)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置