M-C100

SiamFC代码大乱炖 (pytorch)

写前bb

最早是看了matlab的代码，搭了环境，demo也跑了，就再也没碰过了。之后想自己把测试和训练部分全部跑通，找了个用pytorch写的代码，看的过程中发现自己还是很多细节部分不是很清楚。虽然文章写的很一笔带过，但是看着代码会发现还是很多疑问的。
代码地址： gayhub
代码的requirements：
Ubuntu
Python 2.7 (use Anaconda 2.* here)
Python-opencv
PyTorch 0.40
我用的是：
Win10
Python 3.6 (use Anaconda 3.*here)
Python-opencv
PyTorch 1.0

Part one —— ILSVRC15-curation

第一部分，ILSVRC15数据集的处理，里面有两个python file，gen_image_crops_VID.py和gen_imdb_VID.py。

gen_image_crops_VID.py
从名字上就可以很清楚，这个代码是进行图像crop操作的。

examplar_size = 127.0    #模板的尺寸
instance_size = 255.0    #实例的尺寸
context_amount = 0.5     #填充的参数

我们所crop图像需要的数据。
def get_subwindow_avg(im, pos, model_sz, original_sz):

get_subwindow_avg函数是具体进行crop subwindow窗的操作，im指输入的图片，pos指中心点的位置，model_sz指需要得到的尺寸，original_sz指图像输入前的原始尺寸。

context_xmin = round(pos[1] - c)  # floor(pos(2) - sz(2) / 2);
context_xmax = context_xmin + sz - 1
context_ymin = round(pos[0] - c)  # floor(pos(1) - sz(1) / 2);
context_ymax = context_ymin + sz - 1

其中在计算尺寸大小的时候，作者考虑到python的原始坐标的起点是（0,0），从而会做相应加减1的操作。详情见 #issue15

left_pad = max(0, 1 - context_xmin)  # in python, index starts from 0
top_pad = max(0, 1 - context_ymin)
right_pad = max(0, context_xmax - im_sz[1])
bottom_pad = max(0, context_ymax - im_sz[0])

context_xmin = context_xmin + left_pad
context_xmax = context_xmax + left_pad
context_ymin = context_ymin + top_pad
context_ymax = context_ymax + top_pad

后面这些部分的计算，是判断当我根据给定的position和size来进行crop是否会出现超出图片边缘的情况，如果超出的话计算要padding多少。更详细的解释可以参考：SiamFC代码解读 (可以直接看get_subwindow_tracking部分的解释)

if (top_pad != 0) | (bottom_pad != 0) | (left_pad != 0) | (right_pad != 0):
   im_R = np.pad(im_R, ((int(top_pad), int(bottom_pad)), (int(left_pad), int(right_pad))), 'constant',
                      constant_values=avg_chans[0])
   im_G = np.pad(im_G, ((int(top_pad), int(bottom_pad)), (int(left_pad), int(right_pad))), 'constant',
                      constant_values=avg_chans[1])
   im_B = np.pad(im_B, ((int(top_pad), int(bottom_pad)), (int(left_pad), int(right_pad))), 'constant',
                      constant_values=avg_chans[2])

这部分对应论文所提到的，若我们crop出的图片超过了图片边缘的话，则用RGB的均值进行填充。
def get_crops(img, bbox, size_z, size_x, context_amount):

这个函数是根据给的img，x和z的size然后调用上面的get_subwindow_avg函数从而进行crops的。

# for examplar
wc_z = w + context_amount * (w + h)
hc_z = h + context_amount * (w + h)
s_z = np.sqrt(wc_z * hc_z)
scale_z = size_z / s_z
im_crop_z = get_subwindow_avg(img, np.array([cy, cx]), size_z, round(s_z))

这个部分就是对应论文中所提到的，
代码中没有出现p是因为直接用 $w + h$ 替换掉了，同时用context_amount = 0.5 代替掉了公式里的二分之一。同时s_z是将原本长宽w,h的图像转换为正方形的边长，scale_z对应论文中公式的s，size_z等于127。这段代码也就是计算出s_z的大小，然后通过get_subwindow_avg函数来先得到基于[cy,cx]为中心，边长为s_z的正方形框再resize到size_z大小，最后返回该图像。

# for search region
d_search = (size_x - size_z) / 2
pad = d_search / scale_z
s_x = s_z + 2 * pad
scale_x = size_x / s_x
im_crop_x = get_subwindow_avg(img, np.array([cy, cx]), size_x, round(s_x))

这部分便是对search region进行操作了，思路是直接在我们计算到的s_z上再加上一圈pad就得到我们所需要的s_x尺寸，不过pad也要进行相应的转换得到的。
def generate_image_crops(vid_root_path, vid_curated_path):

这个函数就是最后的大头部分了~ 输入你存放lLSVRC的地址和你想处理后的图片保存的地址就大功告成了。

gen_imdb_VID.py
这个代码是用来生成imdb文件的。

for ki in range(len(tmp_keys)):
        if len(video_ids[tmp_keys[ki]]) < 2:
              del video_ids[tmp_keys[ki]]

105-107行的源代码我运行会出错，原因在于当if条件为真时，删除了相对应的ids之后,最初的for循环里面的len(tmp_keys)是不会有对应的变动的，所以我对着三行代码进行了改写。（感觉是python版本的原因导致的）

 while ki<len(tmp_keys):
      #if len(video_ids[tmp_keys[ki]]) < 2:
      if len(video_ids[list(tmp_keys)[ki]]) < 2:
          del video_ids[list(tmp_keys)[ki]]
          ki -= 1
      ki += 1

使用了while循环，度娘告诉我while循环里面的条件是会实时改变的，改完之后debug了一下，确实能成功跑下去了~这个代码运行完之后，会产生两个imdb文件，imdb_video_train和imdb_video_val，它们被安静存放在你代码文件夹里的ILSVRC15-curation这个文件里，我真的在我存放处理完的图像那个文件里找了很久，导致我以为运行失败又跑了一次！！！！！！

Part two —— Train

Train文件夹里有六个python文件，分别是：Config.py，SiamNet.py，Utils.py，DataAugmentation.py，VIDDataset.py，run_Train_SiamFC.py。

Config.py
这个文件就是写好了我们需要的参数数值，就稍微提一下两个参数，论文中给出了5个scale时的参数，代码里有给出3s的参数。
self.num_scale = 3
self.scale_step = 1.0375
SiamNet.py
就是搭SiamNet的网络框架，还是比较好理解的，我贴上打印出来的框架结构。

SiamNet(
  (feat_extraction): Sequential(
    (0): Conv2d(3, 96, kernel_size=(11, 11), stride=(2, 2))
    (1): BatchNorm2d(96, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU(inplace)
    (3): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
    (4): Conv2d(96, 256, kernel_size=(5, 5), stride=(1, 1), groups=2)
    (5): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (6): ReLU(inplace)
    (7): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
    (8): Conv2d(256, 384, kernel_size=(3, 3), stride=(1, 1))
    (9): BatchNorm2d(384, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (10): ReLU(inplace)
    (11): Conv2d(384, 384, kernel_size=(3, 3), stride=(1, 1), groups=2)
    (12): BatchNorm2d(384, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (13): ReLU(inplace)
    (14): Conv2d(384, 256, kernel_size=(3, 3), stride=(1, 1), groups=2)
  )
  (adjust): Conv2d(1, 1, kernel_size=(1, 1), stride=(1, 1))
)

可以留意一下，做卷积的时候是用了group=2的操作，之前没有接触过group convolution，就专门查了一下，就是输入分为group份，同样卷积核也分为group份，然后做完卷积操作之后把每个group的结果contact在一起，这样算下来参数量就减少到1/group倍，当group的大小等于in_channel的时候，就是在进行深度卷积depthwise操作了。
其中有行代码我不是很理解 xcorr_out = torch.reshape(out, (channel_out, batch_size_out, w_out, h_out)) 我知道这步是将out的大小resize成为（C×B×W×H），我不能理解的点是这么操作会不会对out原本的信息做出改变，因为之前的shape是（B×C×W×H），进行resize操作先把out展开然后按顺序排成所需要的shape，这样的话是不是对包含的信息结构有所改变？

Utils.py
create_logisticloss_label：
输入：label_size, rPos, rNeg
输出：logloss_label
create_label：
输入：fixed_label_size, config, use_gpu
输出：fixed_label, instance_weight

这个部分主要是在写怎么创建标签，create_logisticloss_label这个函数就是通过计算 score map上每个点与中心点的距离大小来判断点的logloss_label是否为1，否则为0。（这里好像和论文有些出入，因为论文的标签给的是1/-1，这里是1或0）。在函数def create_label(fixed_label_size, config, use_gpu)，我对label_weight这个参数不是很明白。

instance_weight[tmp_idx_P] = 0.5 * instance_weight[tmp_idx_P] / sumP
instance_weight[tmp_idx_N] = 0.5 * instance_weight[tmp_idx_N] / sumN

对label计算权重是一个什么操作，为什么要做这一步？论文里没有提到过，但是感觉好像是必须要做的一件事（哭泣，自己基础知识真的是太薄弱了，希望有大神可以指点一下）。

DataAugmentation.py
class RandomStretch
class CenterCrop
class RandomCrop
class Normalize
class ToTensor
都是data augmentation的一些操作，像randomstretch，randomcrop，normalize，totensor这些操作都有见过（但不知道为什么使用这些操作能达到一个什么样的效果，姑且认为是默认操作好了），唯独对center crop这个操作不是很明白，代码作者给的注释是 center crop for examplar z。我的内心是？？？？？为什么还有个对examplar z centercrop ，这一步不是在gen_image_crops_VID.py文件里就做完了吗？
VIDDataset.py
这个python文件就是通过输入Imdb的地址和我们处理过的图像地址，从而读取数据。在运行的过程中，有过报错。

rand_x = np.random.choice(possible_x_pos[max(rand_z - self.config.pos_pair_range, 0):rand_z] + possible_x_pos[(rand_z + 1):min(rand_z + self.config.pos_pair_range, len(video_id_z))]) 
rand_x = np.random.choice(list(possible_x_pos[max(rand_z - self.config.pos_pair_range, 0):rand_z]) + list(possible_x_pos[(rand_z + 1):min(rand_z + self.config.pos_pair_range, len(video_id_z))]))

错误出现在代码54行，将上述语句替换成第二句语句之后就可以顺利运行了。

run_Train_SiamFC.py
def train(data_dir, train_imdb, val_imdb, model_save_path="./model/", use_gpu=True):这个函数里，首先做一些data augmentation的操作：

center_crop_size = config.instance_size - config.stride    
random_crop_size = config.instance_size - 2 * config.stride

上面两行计算的size我不是很明白，是根据什么来写的？做完这些操作后，load数据然后创建dataloader（pytorch里面需要的操作，将数据放入到data loader里面），接着就是常规操作，定义训练策略。最后，进行training和validation操作，保存两个阶段的loss，每一个epoch结束，就print对应的loss。全部跑完之后，会在model文件里看到有50个model.pth文件。至此，train部分就全部结束了。
我跑的结果 ：

Part three —— Tracking

Tracking文件夹里有四个文件，Config.py，SiamNet.py，Tracking_Utils.py，run_SiamFC.py。

Config.py
和Train文件夹里的没有区别，就是一些要用到的参数。
SiamNet.py
和之前Train里面是一样的，也就不过多解释了。
Tracking_Utils.py
又出现了熟悉的身影：def get_subwindow_tracking(im, pos, model_sz, original_sz, avg_chans): ，这个函数和我们在gen_image_crops_VID.py用的很像，只不过它的avg_chans是输入量了。
接下来这个函数我觉得是代码里比较难理解的之一：def make_scale_pyramid(im, target_position, in_side_scaled, out_side, avg_chans, p): 因为在论文中没怎么提怎么构造scale_pyramid，也没说怎么用的。其实这部分代码是构造三个不同的尺度，然后根据后面不同尺度框选出来的信息好与坏来选择表现更好的尺度，从而达到对尺度的学习。（其实细节方面还是有些小迷糊）

in_side_scaled = np.round(in_side_scaled)
pyramid = np.zeros((out_side, out_side, 3, p.num_scale), dtype=np.double)
max_target_side = in_side_scaled[in_side_scaled.size - 1]
min_target_side = in_side_scaled[0]
beta = out_side / min_target_side

上面这代码中的beta我就很confuse，不是很清楚这个参数是起到一个什么作用，255和最小的边长的比值有什么物理意义？为什么是拿最小的边长进行计算？

for s in range(p.num_scale):
   target_side = round(beta * in_side_scaled[s])
   search_target_position = np.array([1 + search_side / 2, 1 + search_side / 2], dtype=np.double)
   pyramid[:, :, :, s] = get_subwindow_tracking(search_region, search_target_position, out_side,
                                                target_side, avg_chans)

然后通过get_subwindow_tracking来得到不同尺寸下的crop 图片，再把这些图片堆放在pyramid变量里。
def tracker_eval这个函数是做测试部分用到的，也就是跟踪检测阶段的最后一个部分，得到score-map之后来找最大响应的点，然后再把该点返回到原图的位置。其中，代码有几个地方我不是很明白:

if p.num_scale > 1:
   current_scale_id =np.ceil(p.num_scale/2)    #why?
   best_scale = current_scale_id
   best_peak = float("-inf")

上面的第二行为什么current_scale_id是选取右边那个值？（不知道依据是什么）。如果if s != current_scale_id:s不是最好的scale的话，该s的scale要乘一个惩罚系数，这个操作就是所谓的尺度惩罚吗，不是很清楚依据是什么，为什么会有效果。然后num_scale次都操作一遍，最后得到经过尺度惩罚之后的score-map。之后对response map进行处理，归一化（这一步操作的原因有大佬知道的话请告诉我，困惑很久了），接着加上余弦窗的影响。In the end,就是把这个最大的点返回到原图的位置了，同时返回最佳的尺度和点的位置。（具体怎么转换的就自己看代码吧，之前一直没看懂这部分，今天恍然之间理解到了~✿✿ヽ(°▽°)ノ✿tracking部分结束了）

run_SiamFC.py
最后一个代码文件，就是直接运行开跑啦~在此之前我们再来仔细看下代码到底是在干什么，加载模型，加载序列，之后就是之前出现过的操作啦。其中有个操作我不是很明白，# arbitrary scale saturation这个是什么操作？（有大神知道的话求告知一下）

    min_s_x = p.scale_min * s_x
    max_s_x = p.scale_max * s_x

之后就没有什么了，fps就是一秒处理多少帧的物理意义~ 然后在main函数中，有两种方法评估，单个视频\视频集 ~最后就木有了，就安静等数据跑完就可以了（我下的OTB10数据集有很多问题，如果你跑的时候报错，你可以看下是不是你的视频里有两个groundtruth或者groundtruth里的位置信息不是用逗号分隔的，如果有这些问题需要你手动修改 ~）

Part four ——Evaluation

暑假的时候跑过otb所以知道它对结果的要求是mat文件，这个代码跑出来的是txt文件，所以我百度搜python怎么用otb，找到说pysot-toolkit是可以用的。我就下载下来，然后根据百度教我的操作来做一遍，发现我的结果和他给的有些出入，比如涉及到视频中有两个物体，分成两个视频的话会有groundtruth的对应问题。（不是什么大问题，手动修改就好了~）然后我把结果的后缀名’_SiamFC’手动删除了，最后运行的话就OK了。

可以看出我们跑的结果没有Pysot_toolkit自带的结果好，但是我发现一个很严重的问题！就是我自己跑的视频和它的一些视频的帧数是对不上的，git上issue里有人也提过这个问题，git主说他是按照原otb工具箱来的（emmmm我不是很清楚，我otb数据也是官网下载的啊）最后我发现我用这个工具的话，plot图我是画不出来的！！！！很难受，各种报错。

反正就是画不出自带fig里面好看的图，我也各种度娘找问题，也重新装了glob,opencv-python的版本就是不行。（最后放弃了）由于以上这些问题，心里很不爽，而且感觉结果还是不太可信，所以我就准备转OTB官方工具箱了。

首先就是要把txt文件转换成mat文件，这个度娘就可以解决了~然后就是在otb工具箱添加tracker和我们转换好的结果。具体操作可以看这个：STRCF算法跑OTB调试全过程，在导入数据的时候我有担心就是结果文件名的大小写会不会有影响，结果抛出来的时候就打消了我的疑虑，是没有问题的。最后附上我弄了一下午的成果 ~

第一张和第二张是我自己跑的结果，第三张是gayhub 上code作者跑出来的结果，可以看出来，结果很近而且感觉我的值还会比他的要高一些。（有点不可思议，因为code作者说python2和3下运行的结果会有些差异，python2运行的结果会好一些emmm我反而是相反的）其实我对这个结果也是有一些疑问的，我觉得工具箱跑的是53个序列的因为anno文件夹只有53个视频的groundtruth，虽然我们放的是100个视频的测试结果。如果真的是跑OTB100应该要有100个视频的标注和属性标注（属性标注应该到哪里下载？），而且我们的数据转换成mat的话还要加上属性信息吧？（我是直接转换成mat操作，所以感觉生成的按类别的图是不是可信度会低一点？）

Siamfc应该可以说是告一段落了，之后准备跑下Updatenet和siamrpn(进度好慢啊呜呜呜)，要开始看vot的toolkit了~最后感谢下大尧哥，多亏他们实验室的电脑我才能跑完这个程序，也希望我实验室的设备赶快到吧。最后的最后，感谢我家猪，是我的精神支持和动力哈 ~

希望之后自己有一些新想法吧
2019.11.7

华丽分界线

我又来了，之前对用tracker_benchmark_v1.0画出的图有疑问，今天多靠网友的帮忙终于画出了正确的图！！！！！
我之前的疑问是对的，如果要正确画出OTB100数据集下的图的话，要把benchmark里面的anno文件和ConfigSeqs文件作相应修改，把那100个视频手动加进去~
最后画出的OPE的success图的值确实比之前下降了一些，比源代码的coder结果少一个多点。

希望之后能把pysot-toolkit的问题解决了~
2019.12.4

华丽分界线
今天把之前挖的坑给填了，之前用pysot-toolkit工具画不出plot图，看别的博客，有好心的博主告诉我是因为没装latex导致会缺少一些字体从而画不出图，我今天把miktex给装好了，然后就可以把图画出来了。刚刚把之前写过的看了一下，发现用otb的benchmark跑和用pysot-toolkit跑出来的success和precision值差很大，找下原因在哪里。
2019.12.20 希望12.30赶快到吧，想见对象了

yolov5单目测距+速度测量+目标跟踪 cv_2025 YOLO 目标跟踪人工智能计算机视觉机器学习图像处理 opencv
要在YOLOv5中添加测距和测速功能，您需要了解以下两个部分的原理：单目测距算法单目测距是使用单个摄像头来估计场景中物体的距离。常见的单目测距算法包括基于视差的方法（如立体匹配）和基于深度学习的方法（如神经网络）。基于深度学习的方法通常使用卷积神经网络（CNN）来学习从图像到深度图的映射关系。单目测距代码单目测距涉及到坐标转换，代码如下：defconvert_2D_to_3D(point2D,R,
PaddleDetection多目标跟踪报错MCMOTEvaluator is not exist, so the MOTA will be -INF ATM006 目标检测
ppdet.metrics.mcmot_metricsWARNING:gt_filename'{}'ofMCMOTEvaluatorisnotexist,sotheMOTAwillbe-INFPaddleDetection/ppdet/metrics/mcmot_metrics.pyclassMCMOTEvaluator(object):def__init__(self,data_root,seq
计算机设计大赛深度学习交通车辆流量分析 - 目标检测与跟踪 - python opencv iuerfee python
文章目录0前言1课题背景2实现效果3DeepSORT车辆跟踪3.1DeepSORT多目标跟踪算法3.2算法流程4YOLOV5算法4.1网络架构图4.2输入端4.3基准网络4.4Neck网络4.5Head输出层5最后0前言优质竞赛项目系列，今天要分享的是**基于深度学习得交通车辆流量分析**该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工
互联网加竞赛多目标跟踪算法实时检测 - opencv 深度学习机器视觉 Mr.D学长 python java
文章目录0前言2先上成果3多目标跟踪的两种方法3.1方法13.2方法24TrackingByDetecting的跟踪过程4.1存在的问题4.2基于轨迹预测的跟踪方式5训练代码6最后0前言优质竞赛项目系列，今天要分享的是深度学习多目标跟踪实时检测该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：4分更多资料,项目分享：ht
【目标跟踪】提供一种简单跟踪测距方法（c++）读书猿目标跟踪 c++人工智能
文章目录一、前言二、c++代码2.1、Tracking2.2、KalmanTracking2.3、Hungarian2.4、TrackingInfo三、调用示例四、结果一、前言在许多目标检测应用场景中，完完全全依赖目标检测对下游是很难做出有效判断，如漏检。检测后都会加入跟踪进行一些判断或者说补偿。而在智能驾驶中，还需要目标位置信息，所以还需要测距。往期博客介绍了许多处理复杂问题的，而大部分时候我们
利用YOLOv8 pose estimation 进行人的头部等马赛克 shiter 大数据+AI 赋能行业助力企业数字化转型最佳实践案例 YOLO
文章大纲马赛克几种OpenCV实现马赛克的方法高斯模糊poseestimation定位并模糊：三角形的外接圆与膨胀系数实现实现代码实现效果参考文献与学习路径之前写过一个文章记录，怎么对人进行目标检测后打码，但是人脸识别有个问题是，很多人的背影，或者侧面无法识别出来人脸，那么我们就可以用姿态估计中的关键点信息进行补充，对人头进行打码，从而进一步的保护隐私信息。目标跟踪与检测后进行OpenCV人脸识别
吉格勒定理：你是一个有目标的人吗 Garey_8132
心理学家对哈佛大学的一批毕业生进行过一次人生目标跟踪调查。在调查中，研究人员发现：这些毕业生中有3%的人曾经确立了远大的目标；有10%的人有明确的短期目标；有60%的人目标不清晰，只求过好眼下的生活；还有27%的人几乎没有目标，完全是随遇而安。20年后，研究人员惊奇地发现：曾经树立过远大目标的3%的人，大都完成了自己的既定目标，事业有成；那10%的人虽没有卓尔不群，但也是社会中的上层人士；那60%
互联网加竞赛基于深度学习的视频多目标跟踪实现 Mr.D学长 python java
文章目录1前言2先上成果3多目标跟踪的两种方法3.1方法13.2方法24TrackingByDetecting的跟踪过程4.1存在的问题4.2基于轨迹预测的跟踪方式5训练代码6最后1前言优质竞赛项目系列，今天要分享的是基于深度学习的视频多目标跟踪实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postg
第九篇【传奇开心果系列】Python的OpenCV技术点案例示例：目标跟踪传奇开心果编程 Python库OpenCV 技术点案例示例短博文 python opencv 目标跟踪
传奇开心果短博文系列系列短博文目录Python的OpenCV技术点案例示例系列短博文目录前言二、常用的目标跟踪功能、高级功能和增强跟踪技术介绍三、常用的目标跟踪功能示例代码四、OpenCV高级功能示例代码五、OpenCV跟踪目标增强技术示例代码六、归纳总结系列短博文目录Python的OpenCV技术点案例示例系列短博文目录前言目标跟踪：包括多目标跟踪、运动目标跟踪等功能。OpenCV是一个流行的计
【Visual Object Tracking】Learning notes bryant_meng CNN /Transformer 读书笔记深度学习人工智能单目标跟踪 VOT
DenseOpticalTracking:ConnectingtheDots参考学习来自：单目标跟踪Siamese系列网络：SiamFC、SiamRPN、one-shot跟踪、one-shotting单样本学习、DaSiamRPN、SiamRPN++、SiamMask单目标跟踪：跟踪效果/单目标跟踪：数据集处理/单目标跟踪：模型搭建/单目标跟踪：模型训练/单目标跟踪：模型测试单目标跟踪SiamMa
开源计算机视觉库OpenCV详解和实际运用案例黑夜照亮前行的路计算机视觉
开源计算机视觉库OpenCV是一个功能强大的工具，广泛应用于图像处理和计算机视觉领域。它包含许多优化算法，涵盖了图像处理、特征检测、目标跟踪等多个方面的功能。以下是对OpenCV的详细解释和一些实际应用案例。一、OpenCV的模块和功能OpenCV主要包含以下几个模块：核心功能模块：包含基本的图像处理和计算机视觉功能，如图像读取、显示、保存、变换等。图像处理模块：提供一系列图像处理算法，如滤波、边
室内定位系列 _49_
室内定位系列（一）——WiFi位置指纹（译）室内定位系列（二）——仿真获取RSS数据室内定位系列（三）——位置指纹法的实现（KNN）室内定位系列（四）——位置指纹法的实现（测试各种机器学习分类器）室内定位系列（五）——目标跟踪（卡尔曼滤波）室内定位系列（六）——目标跟踪（粒子滤波）
【目标跟踪】相机运动补偿读书猿目标跟踪自动驾驶目标检测
文章目录一、前言二、简介三、改进思路3.1、状态定义3.2、相机运动补偿3.3、iou和ReID融合3.4、改进总结四、相机运动补偿一、前言目前MOT(MultipleObjectTracking)最有效的方法仍然是Tracking-by-detection。今天给大家分享一篇论文BoT-SORT。论文地址，论文声称很牛*，各种屠榜，今天我们就来一探究竟。主要是分享论文提出的改进点以及分享在自己的
计算机视觉中的目标跟踪小北的北计算机视觉目标跟踪人工智能机器学习
从保护我们城市的监控系统到自动驾驶车辆在道路上行驶，目标跟踪已经成为计算机视觉中的一项基础技术。本文深入探讨了目标跟踪，探索了其基本原理、多样化的方法以及在现实世界中的应用。什么是目标跟踪？目标跟踪是深度学习在计算机视觉中广泛应用的重要应用之一。它指的是在动态环境中通过分析轨迹自动识别和跟踪物体，一旦初始位置已知。目标跟踪隐式地使用技术来识别和分类帧中的对象，并为每个对象关联一个唯一的标识。通常，
计算机视觉实战项目4（单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等）阿利同学计算机视觉目标检测单目测距目标跟踪姿态识别实力分割摔倒检测
基于YOLOv5的无人机视频检测与计数系统摘要：无人机技术的快速发展和广泛应用给社会带来了巨大的便利，但也带来了一系列的安全隐患。为了实现对无人机的有效管理和监控，本文提出了一种基于YOLOv5的无人机视频检测与计数系统。该系统通过使用YOLOv5目标检测算法，能够准确地检测无人机，并实时计数其数量，提供给用户可视化的监控界面。原文链接：https://blog.csdn.net/ALiLiLiY
【目标跟踪】3D点云跟踪读书猿目标跟踪 3d 人工智能
文章目录一、前言二、代码目录三、代码解读3.1、文件描述3.2、代码框架四、关联矩阵计算4.1、ComputeLocationDistance4.2、ComputeDirectionDistance4.3、ComputeBboxSizeDistance4.4、ComputePointNumDistance4.5、ComputePointNumDistance4.6、result_distance五
计算机视觉实战项目3（图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等）毕设阿力计算机视觉目标检测目标跟踪
车辆跟踪及测距该项目一个基于深度学习和目标跟踪算法的项目，主要用于实现视频中的目标检测和跟踪。该项目使用了YOLOv5目标检测算法和DeepSORT目标跟踪算法，以及一些辅助工具和库，可以帮助用户快速地在本地或者云端上实现视频目标检测和跟踪！教程博客_传送门链接------->yolov5单目测距+速度测量+目标跟踪（算法介绍和代码）-CSDN博客yolov5deepsort行人/车辆（检测+计数
DeepSORT算法实现车辆和行人跟踪计数和是否道路违规检测（代码＋教程）毕设阿力算法
DeepSORT算法是一种用于目标跟踪的算法，它可以对车辆和行人进行跟踪计数，并且可以检测是否存在道路违规行为。该算法采用深度学习技术来提取特征，并使用卡尔曼滤波器来估计物体的速度和位置。DeepSORT算法通过首先使用目标检测算法来识别出场景中的车辆和行人，然后使用卷积神经网络（CNN）来提取物体的特征。接着，该算法使用余弦相似度来计算物体之间的相似度，并使用匈牙利算法来匹配跟踪器和检测器之间的
yolov5 deepsort 行人/车辆（检测 +计数+跟踪+测距+测速）毕设阿力 YOLO 目标跟踪目标检测
YOLOv5和DeepSORT是两种常用的计算机视觉技术，它们可以结合使用以实现行人和车辆的目标检测和跟踪。这种技术在交通监控、智慧城市等领域中具有广泛的应用。YOLOv5是一种基于深度学习的目标检测算法，它可以实现高效的目标检测和分类。与传统的目标检测算法相比，YOLOv5具有更快的检测速度和更高的准确率。而DeepSORT则是一种基于多目标跟踪的算法，它可以对相邻帧之间的目标进行跟踪，并输出目
[MOT Challenge]官方生成多目标跟踪算法性能评价指标结果，解决test数据集没有gt文件和官网注册问题 Bartender_Jill 目标跟踪人工智能计算机视觉
文章目录⭐⭐⭐内容修正前言一、账号注册1.不要用QQ或163或gmail邮箱2.正常注册流程二、上传测试结果的流程1.使用步骤总结⭐⭐⭐内容修正我先前于2023/4/5日的时候在文章里提到：“提交到官网的文件需要包含测试后的训练集结果和测试后的测试集结果”，该结论经过测试后发现有误。个人于2023/12/8日在评论区的提醒下对MOTChallenge的内容提交进行了重新测试，发现提交到官网的文件并
数字信号处理7——点到向量的距离注释远方数字信号处理算法
目录一、前言二、点到线段的最短距离——向量法三、点到直线的最短距离——直线法四、点到直线最短距离——向量法一、前言其实在工程应用中很多情况下计算点到直线或者点到线段的距离，比如在unity3d游戏软件设计中计算任意形状路径起点和终点连线距离最远的点，比如用于雷达聚类后在多目标跟踪算法中计算哪个sensor距离track最近，另外还需要知道要计算的点位于直线的哪一侧，这些计算在游戏开发或者数字信号后
深度视觉目标跟踪进展综述-论文笔记 pzb19841116 计算机视觉目标跟踪人工智能计算机视觉
中科大学报上的一篇综述，总结得很详细，整理了相关笔记。1引言目标跟踪旨在基于初始帧中指定的感兴趣目标(一般用矩形框表示)，在后续帧中对该目标进行持续的定位。基于深度学习的跟踪算法，采用的框架包括相关滤波器、分类式网络、双路网络等。处理跟踪任务的角度，分为基于匹配思路的双路网络和基于二分类的辨别式跟踪器。最初的深度跟踪算法聚焦于相关滤波器，通过深度学习的特征+相关滤波器实现。基于双路网络跟踪算法那，
FastDeploy项目简介，使用其进行（图像分类、目标检测、语义分割、文本检测|orc部署）万里鹏程转瞬至深度学习python库使用目标检测深度学习模型部署
FastDeploy是一款全场景、易用灵活、极致高效的AI推理部署工具，支持云边端部署。提供超过160+Text，Vision，Speech和跨模态模型开箱即用的部署体验，并实现端到端的推理性能优化。包括物体检测、字符识别（OCR）、人脸、人像扣图、多目标跟踪系统、NLP、StableDiffusion文图生成、TTS等几十种任务场景，满足开发者多场景、多硬件、多平台的产业部署需求。1、FastD
基于卡尔曼滤波的平面轨迹优化点PY 机器人导航定位 c++卡尔曼滤波
文章目录概要卡尔曼滤波代码主函数代码CMakeLists.txt概要在进行目标跟踪时，算法实时测量得到的目标平面位置，是具有误差的，连续观测，所形成的轨迹如下图所示，需要对其进行噪声滤除。这篇博客将使用卡尔曼滤波，对轨迹进行优化。优化的结果为黄色线。卡尔曼滤波代码#include
RT-DETR原理与简介（干翻YOLO的最新目标检测项目）毕设阿力 YOLO 目标检测人工智能
RT-DETR（Real-TimeDetection,Embedding,andTracking）是一种基于Transformer的实时目标检测、嵌入和跟踪模型。它通过结合目标检测、特征嵌入和目标跟踪三个任务，实现了高效准确的实时目标识别和跟踪。RT-DETR的核心思想是将目标检测和目标跟踪这两个传统独立的任务进行统一建模，并利用Transformer网络进行特征提取和关联学习。相比于传统的两阶段
基于多传感器的后融合的目标跟踪如何实现？都有哪些基本流程？自动驾驶之心目标跟踪人工智能计算机视觉机器学习
点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取讲师：Edison课程内容：基于多传感器后融合的目标跟踪(0.课前导学1.自动驾驶中的融合跟踪)笔记作者：王汝嘉0.课前导学0.1主讲人介绍0.2课程关键词0.3学习资料推荐1.自动驾驶中的融合跟踪1.1自动驾驶中的感知任务1.2多传感器融合的主要方法1.3多传感器融合跟踪的基本流程1.4多目标跟踪的数据集与性能指标以上内容均出自《
【目标跟踪】多相机环视跟踪读书猿目标跟踪人工智能自动驾驶
文章目录一、前言二、流程图三、实现原理3.1、初始化3.2、输入3.3、初始航迹3.4、航迹预测3.5、航迹匹配3.6、输出结果四、c++代码五、总结一、前言多相机目标跟踪主要是为了实现360度跟踪。单相机检测存在左右后的盲区视野。在智能驾驶领域，要想靠相机实现无人驾驶，相机必须360度无死角全覆盖。博主提供一种非深度学习方法，采用kalman滤波+匈牙利匹配方式实现环视跟踪。有兴趣可以参考往期【
互联网加竞赛基于机器视觉的车道线检测 Mr.D学长 python java
文章目录1前言2先上成果3车道线4问题抽象(建立模型)5帧掩码(FrameMask)6车道检测的图像预处理7图像阈值化8霍夫线变换9实现车道检测9.1帧掩码创建9.2图像预处理9.2.1图像阈值化9.2.2霍夫线变换最后1前言优质竞赛项目系列，今天要分享的是基于深度学习的视频多目标跟踪实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/d
Unity之Cinemachine教程 passionyxt Unity unity 游戏引擎 Timeline Cinemachine 相机跟随轨迹相机拍摄相机
前言Cinemachine是Unity引擎的一个高级相机系统，旨在简化和改善游戏中的相机管理。Cinemachine提供了一组强大而灵活的工具，可用于创建令人印象深刻的视觉效果，使开发人员能够更轻松地掌控游戏中的摄像机行为。主要功能和特性包括：1.虚拟摄像机系统：Cinemachine引入了虚拟摄像机的概念，允许开发人员使用相机组件的虚拟实例，而不必直接操作实际摄像机。2.目标跟踪：Cinemac
『论文阅读|2024 WACV 多目标跟踪Deep-EloU|纯中文版』 Dymc 论文深度学习深度学习
论文题目：IterativeScale-UpExpansionIoUandDeepFeaturesAssociationforMulti-ObjectTrackinginSports论文特点：作者提出了一种迭代扩展的ExpansionIoU和深度特征关联方法Deep-EIoU，用于体育场景中的多目标跟踪，旨在解决非线性、不规则运动、相似外观的在线短时多目标跟踪问题，实验表明，提出的方法对于提高跟踪
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&