LiGe丶

Faster Rcnn算法复现

Faster Rnn 实现流程
代码
TODO

复现算法Faster Rcnn
Faster Rcnn算法原文链接： https://arxiv.org/abs/1506.01497

Faster Rnn 实现流程

Faster Rcnn是双阶段目标检测家族中的一员，由Rcnn -> Spp-net -> Fast Rcnn 再到Faster Rcnn，Faster Rcnn中首次使用深度学习的方法进行关键区域的提取，真正实现了end to end的目标检测，Faster Rcnn是双阶段目标检测系列最关键的节点，其后出现的Mask Rcnn与Cascade Rcnn都是基于Faster Rcnn而来，本次实现一个简要版的Faster Rcnn以增强自己对其的理解。
在之前参加天池比赛时，使用了Faster Rcnn和FPN，并做出了一定的改进也取得了不错的成绩，但当时是在mmdetection框架的基础上进行改进，难免无法顾及一些细节，通过这次从头开始实现Faster Rcnn和FPN，对细节方面有了更好的掌握，相信在实现了Faster Rcnn后，双步和和单步的目标检测算法我都可以进行简要版的复现，下图是Faster Rcnn的结构图。

Faster Rcnn的实现分为五个阶段：

第一阶段，根据输入的图像和标注的框信息(后续称为ground-truth)计算anchor的真实标签和位移坐标，该阶段生成的anchor的真实标签和位移坐标将用于与RPN网络预测的anchor的标签和位移坐标计算RPN网络的损失以更新RPN网络的权重。
假设输入图像大小为(800, 800)，采用vgg16作为特征提取网络，下采样16倍，得到的特征图大小为(50,
50)，对特征图上的每个点，映射回原图产生anchor，假设设置anchor_scale为(8, 16,
32)，anchor_ratio为(0.5，1，2)，那么每个位置将产生9个anchor，其中anchor_scale为anchor的大小，anchor_ratio为anchor的长宽比，需要注意的是，这里设置的anchor_scale是相对于特征图的，当映射回原图时需要乘以下采样倍数。对每个位置产生9个anchor，一共需要产生 $50 * 50 * 9$ 即22500个anchor，对这些anchor进行anchor的定位和采样，即将anchor分配给与其具有最大iou的ground_trouth(会从中采样256个，别的忽略即label为-1，正负样本比例为1:1，根据iou判断正负样本)，转换公式如式1、2、3、4。
$dx=(gt_x-anchor_x)/anchor_w \tag{1}$
$dy=(gt_y-anchor_y)/anchor_h\tag{2}$
$dw=log(gt_w/anchor_w)\tag{3}$
$dh=log(gt_h/anchor_h)\tag{4}$
其中，dx、dy、dw、dh为anchor相对于ground_truth的位移坐标，gt_x、gt_y、gt_w、gt_h为ground_truth的中心坐标和宽高，anchor_x、anchor_y、anchor_w、anchor_h为anchor的中心坐标和宽高，同时根据anchor与ground_truth的iou来生成其真实标签(0或1)，RPN网络只有前景和背景两种。该阶段的目的是对所有anchor生成其真实的位移坐标和标签，即gt_anchor_locations和gt_anchor_labels，用于联合RPN网络预测的pred_anchor_locations和pred_anchor_labels计算损失函数。
第二阶段，用RPN网络预测所有anchor的位移坐标和标签，即pred_anchor_locations和pred_anchor_labels。
下图显示了RPN网络细节如图3所示，为RPN网络的实现细节，在实际实现时，第一阶段产生的特征图大小为 $50 * 50$ , 通道数为512，RPN网络由一个 $3 * 3$ 的卷积核和两个 $1 * 1$ 的卷积分支构成， $3 * 3$ 的卷积核加入了padding=1，即不改变原特征图的尺寸大小，两个 $1 * 1$ 的卷积分支分别预测每个位置9个anchor的类别和位移坐标，因此此处输入为提取到的(50,50,512)的特征图，其中512为通道数，而输出为(50, 50,18)的类别预测和(50,50,36)的位移坐标预测。第二阶段产生的pred_anchor_labels和pred_anchor_locations将用于与第一阶段计算的gt_anchor_labels和gt_anchor_locations一起计算RPN阶段的损失loss。
第三阶段，对第二阶段预测的anchor处理，根据第二阶段预测的pred_anchor_locations中的dx、dy、dw、dh结合初始anchor信息反向计算出RPN阶段预测的ground_truth的左上坐标和右下坐标(x1,y1,x2,y2)，根据score对其进行排序，取前12000个进行nms，在nms后的剩余框中取前2000个，注意此时的pred_anchor_locations中存储的是反向推算出的预测框在原图上的位置，对剩下的这2000个框根据ground_truth进行采样和定位，计算出这2000个框相对于ground_truth的真实labels和位移坐标locations，根据iou进行采样和定位，与groud_truth的iou大于0.5的分为正样本，此时需要记录其对应的ground_truth的label，该部分标签为类别数，而不是前景背景(0,1)，定位公式同第一阶段，然后对定位后的框进行采样，该阶段采样128个，其中正样本比例为0.25，该阶段最后产生的是根据RPN网络预测的pred_anchor_locations、pred_anchor_labels与ground_truth计算出的128个gt_roi_labels和gt_roi_locations。
第四阶段，第二阶段通过RPN网络产生了pred_anchor_labels和pred_anchor_locations，第三阶段从其中采样出了128个sample_rois，对这128个sample_rois计算出了其相对于ground_truth的真实标签和位移坐标即gt_roi_labels和gt_roi_locations，第四阶段将第三阶段采样出的sample_rois先送入roi pooling层获得 $7 * 7 * 512$ 固定大小的特征图，然后将其拉平产生一个(1, 25088)的特征向量，然后送入两层全连接层得到(1,4096)的特征向量，最后通过两个全连接层分支，分别预测其类别(num_class+1)和位移坐标((num_class+1)*4)，即pred_roi_labels和pred_roi_locations。
第五阶段，根据前四个阶段计算的结果计算损失，其中RPN阶段的损失通过gt_anchor_labels、gt_anchor_locations、pred_anchor_labels、pred_anchor_locations计算，ROI阶段的损失通过gt_roi_labels、gt_roi_locations、pred_roi_labels、pred_roi_locations计算，分类损失使用交叉熵损失函数计算，回归损失通过smooth L1损失函数计算，分别计算出rpn_cls_loss、rpn_loc_loss、roi_cls_loss、roi_loc_loss，计算损失时要注意，分类损失是对所有框进行计算，而回归损失只对样本标签有意义的框计算，因此在计算总损失时要在回归损失前乘以10或者使分类损失除以10，即
rpn_loss = rpn_cls_loss/10 + rpn_loc_loss，
roi_loss = roi_cls_loss/10+roi_loc_loss，
total_loss = rpn_loss+roi_loss。
最后根据损失更新权重。交叉熵损失函数如式5所示，smooth L1损失如式6所示。
$L=-\sum_{c=1}^{M} y_{c} \log \left(p_{c}\right)\tag{5}$
$L=\left\{\begin{array}{cc}{0.5 \mathrm{x}^{2},} & {|x|<1} \\ {|x|-0.5,} & {|x| \geq 1}\end{array}\right.\tag{6}$

代码

辅助模块util.py

1.	import numpy as np  
2.	  
3.	def iou(valid_anchors, gt_box):  
4.	    # 传入两个box，左上坐标和右下坐标，大小为 n*4  
5.	    # 返回ious,(（len(valid_anchors)*len(gt_box)）)  
6.	    # 每个valid_anchor与每个gt_box都有iou，ious维度:（len(valid_anchors)*len(gt_box)）  
7.	    valid_anchors_num = valid_anchors.shape[0]  
8.	    gt_box_num = gt_box.shape[0]  
9.	    ious = np.empty((valid_anchors_num, gt_box_num))  
10.	    ious.fill(0)  
11.	    for i, anchor in enumerate(valid_anchors):  
12.	        xa1, ya1, xa2, ya2 = anchor  
13.	        area1 = (xa2-xa1)*(ya2-ya1)  
14.	        for j, bbox in enumerate(gt_box):  
15.	            xb1, yb1, xb2, yb2 = bbox  
16.	            area2 = (xb2-xb1)*(yb2-yb1)  
17.	            xx1 = np.max([xa1, xb1])  
18.	            yy1 = np.max([ya1, yb1])  
19.	            xx2 = np.min([xa2, xb2])  
20.	            yy2 = np.min([ya2, yb2])  
21.	            if(xx1 < xx2 and yy1 < yy2):  
22.	                inter_area = (yy2-yy1)*(xx2-xx1)  
23.	                iou = inter_area/(area1+area2-inter_area)  
24.	                ious[i, j] = iou  
25.	    return ious  
26.	  
27.	def nms(bboxes, thre, scores):  
28.	    # 输入为n*4的框， thre为阙值， scores为每个框对应的score  
29.	    # 输入均为numpy类型  
30.	    # 输出为nms后的剩余框  
31.	    x1 = bboxes[:, 0]  
32.	    y1 = bboxes[:, 1]  
33.	    x2 = bboxes[:, 2]  
34.	    y2 = bboxes[:, 3]  
35.	    areas = (x2-x1)*(y2-y1)  
36.	    order = np.argsort(scores)[::-1]  
37.	    keep = [] # nms后剩下的框的index  
38.	    while order.size > 0:  
39.	        i = order[0] # i为最大score的索引  
40.	        keep.append(i)  
41.	        xx1 = np.maximum(x1[i], x1[order[1:]])  
42.	        yy1 = np.maximum(y1[i], y1[order[1:]])  
43.	        xx2 = np.minimum(x2[i], x2[order[1:]])  
44.	        yy2 = np.minimum(y2[i], y2[order[1:]])  
45.	        w = np.maximum(0, xx2-xx1)  
46.	        h = np.maximum(0, yy2-yy1)  
47.	        inter = w*h  
48.	        ious = inter/(areas[i]+areas[order[1:]]-inter)  
49.	        indexes = np.where(ious < thre)[0]  
50.	        order = order[indexes+1]  
51.	    return keep

主要模块faster_rcnn.py:

1.	import torch  
2.	import torchvision  
3.	import torch.nn as nn  
4.	import torch.nn.functional as F  
5.	import numpy as np  
6.	import util  
7.	  
8.	''''' 
9.	第一阶段，根据原图的gt生成anchor的gt，生成的anchor_gt用于与RPN网络产生的roi计算损失 
10.	注意，该阶段anchor只分两类，0或1，-1表示忽略 
11.	RPN网络对特征图上的每个点上的9个anchor进行预测，预测其类别(0,1)和其相对于gt的相对位置(dx,dy,dw,dh) 
12.	此部分我们要先求出每个anchor分配后的实际类别(0,1)和相对于gt的真实位置(dx,dy,dw,dh) 
13.	以此来求loss 
14.	对于800*800的图，下采样16倍后特征图大小为50*50，每个位置9个anchor，共50*50*9即22500个anchor 
15.	对这22500个anchor，先求出其真实的类别和相对gt的位移，再与RPN网络预测的类别和位移相比较，计算损失。 
16.	该部分共采样了256个anchor，也就是真实求出的anchor labels中只有256个是1或0，别的都是-1(忽略) 
17.	'''  
18.	# 先制作一张图片，并设置其groud_truth和对应的label  
19.	image = torch.zeros((1, 3, 800, 800))  
20.	bboxes = torch.Tensor([[20, 30, 400, 500], [300, 400, 500, 600]])  
21.	labels = torch.Tensor([6, 8])  
22.	sub_sample = 16 # 下采样倍数  
23.	  
24.	# 获取vgg模型，使用vgg模型提取特征，下采样16倍  
25.	model = torchvision.models.vgg16(pretrained=True)  
26.	fe = list(model.features)  
27.	  
28.	backbone = []  
29.	img_bak = image.clone()  
30.	for i in fe:  
31.	    img_bak = i(img_bak)  
32.	    if(img_bak.shape[2] < 50):  
33.	        break  
34.	    backbone.append(i)  
35.	    out_channels = img_bak.shape[1]  
36.	backbone = nn.Sequential(*backbone)  
37.	feature_map = backbone(image)  
38.	print(backbone)  
39.	print(feature_map.shape) # 50*50  
40.	  
41.	# 对特征图生成所有anchors，特征图为50*50，将其上每个点映射回原图生成anchors  
42.	size = 800//16  
43.	centerX = np.arange(16, (size+1)*16, 16)  
44.	centerY = np.arange(16, (size+1)*16, 16)  
45.	# print(centerX)  
46.	center_x = centerX - 8  
47.	center_y = centerY - 8  
48.	print(center_x)  
49.	# anchor的参数，注意scale是针对特征图的  
50.	anchor_scales = [8, 16, 32]  
51.	anchor_ratios = [0.5, 1.0, 2]  
52.	anchor_center = np.zeros((size*size, 2)) # 2500*2  
53.	# 初始化anchor的中心， 共2500个  
54.	index = 0  
55.	for i in range(len(center_x)):  
56.	    for j in range(len(centerY)):  
57.	        anchor_center[index, 0] = center_x[i]  
58.	        anchor_center[index, 1] = center_y[j]  
59.	        index += 1  
60.	print(anchor_center.shape)  
61.	  
62.	# 生成所有的anchors  
63.	anchors = torch.zeros((size*size*9, 4), dtype=torch.float32) # 共50*50个位置，每个位置9个anchors，每个anchor4个坐标(x1,y1,x2,y2)  
64.	index = 0  
65.	for c in anchor_center:  
66.	    center_x, center_y = c  
67.	    for i in range(len(anchor_scales)):  
68.	        for j in range(len(anchor_ratios)):  
69.	            # h = np.sqrt(sub_sample*anchor_scales[i]*anchor_ratios[j])  
70.	            # w = np.sqrt(sub_sample*anchor_scales[i]*(1./anchor_ratios[j]))  
71.	            h = sub_sample * anchor_scales[i] * np.sqrt(anchor_ratios[j])  
72.	            w = sub_sample * anchor_scales[i] * np.sqrt((1. / anchor_ratios[j]))  
73.	            anchors[index, 0] = center_x - w/2  
74.	            anchors[index, 1] = center_y - h/2  
75.	            anchors[index, 2] = center_x + w/2  
76.	            anchors[index, 3] = center_y + h/2  
77.	            index += 1  
78.	print(anchors.shape)  
79.	print(anchors)  
80.	  
81.	# 获取有效的anchors的索引index， 即不超过边界的anchors  
82.	valid_anchors_index = np.where( # 有效anchors的索引  
83.	    (anchors[:, 0] >= 0) &  
84.	    (anchors[:, 1] >= 0) &  
85.	    (anchors[:, 2] <= 800) &  
86.	    (anchors[:, 3] <= 800)  
87.	)[0]  
88.	print(valid_anchors_index)  
89.	valid_anchors = anchors[valid_anchors_index] # 有效anchors  
90.	print(valid_anchors_index.shape)  
91.	print(valid_anchors.shape)  
92.	# 计算所有有效anchor和gt的iou  
93.	ious = util.iou(valid_anchors, bboxes) # （valid_anchors.shape[0], bboxes.shape[0]）  
94.	print(ious.shape)  
95.	''''' 
96.	开始分类anchor，与gt的iou最大的ancho分为前景，max iou>0.7的分为前景，否则分为背景 
97.	'''  
98.	gt_maxiou_index = ious.argmax(axis=0) # axis=0表示对列取最大，ious有两列，每一列的最大值的index  
99.	print(gt_maxiou_index)  
100.	anchor_maxiou_index = ious.argmax(axis=1) # 对ious每行取最大值，即anchor与几个gt的iou中的最大值  
101.	print(anchor_maxiou_index)  
102.	# 取出每个gt最大iou的anchor和每个anchor最大iou的gt  
103.	gt_maxiou = ious[gt_maxiou_index, np.arange(bboxes.shape[0])]  
104.	anchor_maxiou = ious[np.arange(valid_anchors.shape[0]), anchor_maxiou_index]  
105.	print(gt_maxiou.shape)  
106.	print(anchor_maxiou.shape)  
107.	gt_maxiou_index = np.where(ious==gt_maxiou)[0] # 和gt有最大iou的anchor的索引  
108.	  
109.	# 设置pos参数，即iou大于0.7的为前景，小于0.3为背景，采样256个，前景占比0.5  
110.	pos_iou_thre = 0.7  
111.	neg_iou_thre = 0.3  
112.	pos_ratio = 0.5  
113.	n_sample = 256  
114.	valid_anchor_labels = np.empty((valid_anchors.shape[0]))  
115.	valid_anchor_labels.fill(-1) # 初始化为-1， 表示忽略  
116.	valid_anchor_labels[gt_maxiou_index] = 1  
117.	valid_anchor_labels[anchor_maxiou >= pos_iou_thre] = 1  
118.	valid_anchor_labels[anchor_maxiou < neg_iou_thre] = 0  
119.	print(valid_anchor_labels.shape)  
120.	# 采样正负样本  
121.	n_pos = n_sample*pos_ratio  
122.	pos_index = np.where(valid_anchor_labels == 1)[0]  
123.	if(len(pos_index) > n_pos):  
124.	    disable_index = np.random.choice(pos_index, size=(len(pos_index)-n_pos), replace=False)  
125.	    valid_anchor_labels[disable_index] = -1  
126.	  
127.	n_neg = n_sample*(1-pos_ratio)  
128.	if(len(pos_index) > n_pos):  
129.	    pass  
130.	else:  
131.	    n_neg = n_sample-len(pos_index)  
132.	neg_index = np.where(valid_anchor_labels==0)[0]  
133.	if(len(neg_index) > n_neg):  
134.	    disable_index = np.random.choice(neg_index, size=(len(neg_index) - n_neg), replace=False)  
135.	    valid_anchor_labels[disable_index] = -1  
136.	# 此时正负样本均已采样，共采样256个  
137.	print(np.sum(valid_anchor_labels==1))  
138.	print(np.sum(valid_anchor_labels==0))  
139.	  
140.	# 开始给每个anchor分配位置，dx,dy,dw,dh,将每个anchor分配到与其具有最大iou的gt上，即anchor相对于gt的坐标  
141.	''''' 
142.	t_{x} = (x - x_{a})/w_{a} 
143.	t_{y} = (y - y_{a})/h_{a} 
144.	t_{w} = log(w/ w_a) 
145.	t_{h} = log(h/ h_a) 
146.	x, y , w, h是ground truth box的中心坐标，宽，高。x_a，y_a，h_a，w_a为anchor boxes的中心坐标，宽，高。 
147.	'''  
148.	anchor_maxiou_gtbox = bboxes[anchor_maxiou_index]  
149.	print(anchor_maxiou_gtbox.shape)  
150.	w = anchor_maxiou_gtbox[:, 2] - anchor_maxiou_gtbox[:, 0]  
151.	h = anchor_maxiou_gtbox[:, 3] - anchor_maxiou_gtbox[:, 1]  
152.	x = anchor_maxiou_gtbox[:, 0] + w/2  
153.	y = anchor_maxiou_gtbox[:, 1] + h/2  
154.	anchor_w = valid_anchors[:, 2] - valid_anchors[:, 0]  
155.	anchor_h = valid_anchors[:, 3] - valid_anchors[:, 1]  
156.	anchor_x = valid_anchors[:, 0] + anchor_w/2  
157.	anchor_y = valid_anchors[:, 1] + anchor_h/2  
158.	eps = torch.tensor(1e-10)  
159.	anchor_h = np.maximum(anchor_h, eps)  
160.	anchor_w = np.maximum(anchor_w, eps)  
161.	dx = (x-anchor_x)/anchor_w  
162.	dy = (y-anchor_y)/anchor_h  
163.	dw = np.log(w/anchor_w)  
164.	dh = np.log(h/anchor_h)  
165.	anchor_location = np.vstack((dx, dy, dw, dh)).transpose()  
166.	print(anchor_location.shape)  
167.	anchor_labels = np.zeros((anchors.shape[0]), dtype=np.int32)  
168.	anchor_labels.fill(-1)  
169.	anchor_locations = np.zeros_like(anchors, dtype=np.float32)  
170.	anchor_locations.fill(-1)  
171.	anchor_labels[valid_anchors_index] = valid_anchor_labels  
172.	anchor_locations[valid_anchors_index] = anchor_location  
173.	print(anchor_labels.shape)  
174.	print(anchor_locations.shape)  
175.	# 以上为第一部分，获取真实的anchor类别和相对gt的位移坐标。  
176.	  
177.	''''' 
178.	第二部分，用RPN网络生成预测的anchor的类别和位移坐标 
179.	'''  
180.	class RPN(nn.Module):  
181.	    def __init__(self):  
182.	        super(RPN, self).__init__()  
183.	        mid_channels = 512  
184.	        in_channels = 512  
185.	        self.conv1 = nn.Conv2d(in_channels, mid_channels, 3, 1, 1)  
186.	        self.reg_layer = nn.Conv2d(mid_channels, len(anchor_scales)*len(anchor_ratios)*4, 1, 1, 0)  
187.	        self.cls_layer = nn.Conv2d(mid_channels, len(anchor_scales)*len(anchor_ratios)*2, 1, 1, 0)  
188.	        self.conv1.weight.data.normal_(0, 0.01)  
189.	        self.conv1.bias.data.zero_()  
190.	        self.reg_layer.weight.data.normal_(0, 0.01)  
191.	        self.reg_layer.bias.data.zero_()  
192.	        self.cls_layer.weight.data.normal_(0, 0.01)  
193.	        self.cls_layer.bias.data.zero_()  
194.	  
195.	    def forward(self, x):  
196.	        x = self.conv1(x)  
197.	        pred_anchor_location = self.reg_layer(x)  
198.	        pred_anchor_cls = self.cls_layer(x)  
199.	        return pred_anchor_location, pred_anchor_cls  
200.	  
201.	rpn = RPN()  
202.	print(feature_map.shape)  
203.	pred_anchor_location, pred_anchor_cls = rpn(feature_map)  
204.	print(pred_anchor_location.shape)  
205.	print(pred_anchor_cls.shape)  
206.	pred_anchor_location = pred_anchor_location.permute(0, 2, 3, 1).contiguous().view(1, -1, 4)  
207.	pred_anchor_cls = pred_anchor_cls.permute(0, 2, 3, 1).contiguous().view(1, -1, 2)  
208.	print(pred_anchor_location.shape)  
209.	print(pred_anchor_cls.shape)  
210.	print(anchor_locations.shape)  
211.	print(anchor_labels.shape)  
212.	# pred_anchor_location与anchor_locations对应，pred_anchor_cls与anchor_labels对应  
213.	# 用于计算RPN_loss  
214.	# objectness_score中存储的是每个anchor属于正类的预测分数  
215.	objectness_score = pred_anchor_cls.view(1, 50, 50, 9, 2)[:, :, :, :, 1].contiguous().view(1, -1) # 预测每个anchor是正样本的分数  
216.	# 第二部分结束，用RPN网络预测所有anchor的类别和位移坐标，与第一部分求出的所有anchor的真实类别和位移坐标计算rpn loss  
217.	''''' 
218.	第三部分，通过rpn预测的anchor的类别和位移坐标生成roi，输入roi head进行预测 
219.	该部分对rpn预测的22500个anchor，先根据预测的位移坐标还原到anchor的坐标，再对前n1个进行nms 
220.	再在nms后的anchor中选取前n2个传入roi head进行预测。 
221.	rpn生成的是原始anchors相对与gt的偏移量。 
222.	再第一部分先根据实际gt计算出了原始anchor相对于gt的真实偏移量(256个有效的) 
223.	该部分的目的是生成送入roi head的框 
224.	'''  
225.	nms_thre = 0.7  
226.	n_train_pre_nms = 12000  
227.	n_train_post_nms = 2000  
228.	n_test_pre_nms = 6000  
229.	n_test_post_nms = 300  
230.	min_size = 16  
231.	# 先把rpn网络预测的位移坐标转换成(x1,y1,x2,y2）坐标  
232.	''''' 
233.	x = (w_{a} * ctr_x_{p}) + ctr_x_{a} 
234.	y = (h_{a} * ctr_x_{p}) + ctr_x_{a} 
235.	h = np.exp(h_{p}) * h_{a} 
236.	w = np.exp(w_{p}) * w_{a} 
237.	根据原始anchors坐标和rpn生成的dx, dy, dw, dh逆向推断出预测的gt的位置 
238.	'''  
239.	pred_anchor_location_numpy = pred_anchor_location[0].data.numpy()  
240.	objectness_score_numpy = objectness_score[0].data.numpy()  
241.	anchor_w = anchors[:, 2] - anchors[:, 0]  
242.	anchor_h = anchors[:, 3] - anchors[:, 1]  
243.	anchor_x = anchors[:, 0] + anchor_w/2  
244.	anchor_y = anchors[:, 1] + anchor_h/2  
245.	dx = pred_anchor_location_numpy[:, 0]  
246.	dy = pred_anchor_location_numpy[:, 1]  
247.	dw = pred_anchor_location_numpy[:, 2]  
248.	dh = pred_anchor_location_numpy[:, 3]  
249.	# dx1 = pred_anchor_location_numpy[:, 0::4]  
250.	# dy1 = pred_anchor_location_numpy[:, 1::4]  
251.	# dw1 = pred_anchor_location_numpy[:, 2::4]  
252.	# dh1 = pred_anchor_location_numpy[:, 3::4]  
253.	dx = torch.from_numpy(dx)  
254.	dy = torch.from_numpy(dy)  
255.	dw = torch.from_numpy(dw)  
256.	dh = torch.from_numpy(dh)  
257.	# 获得基于预测结果(位移坐标)得到的预测框在原图的center_x, center_y, w, h  
258.	pred_gt_center_x = dx*anchor_w+anchor_x  
259.	pred_gt_center_y = dy*anchor_h+anchor_y  
260.	pred_gt_w = np.exp(dw)*anchor_w  
261.	pred_gt_h = np.exp(dh)*anchor_h  
262.	print(pred_gt_center_x.shape)  
263.	print(pred_gt_center_y.shape)  
264.	print(pred_gt_w.shape)  
265.	print(pred_gt_h.shape)  
266.	# 再根据得到的center_x, center_y, w, h转换成左上坐标和右下坐标(x1,y1), (x2,y2)  
267.	rois = torch.zeros_like(pred_anchor_location[0]) # (22500, 4)  
268.	rois[:, 0] = pred_gt_center_x - pred_gt_w/2  
269.	rois[:, 1] = pred_gt_center_y - pred_gt_h/2  
270.	rois[:, 2] = pred_gt_center_x + pred_gt_w/2  
271.	rois[:, 3] = pred_gt_center_y + pred_gt_h/2  
272.	print(rois.shape)  
273.	# 将得到的框映射到原图上，即限制超过边界的坐标  
274.	img_size = (800, 800)  
275.	rois[:, 0] = torch.clamp(rois[:, 0], 0, img_size[0])  
276.	rois[:, 1] = torch.clamp(rois[:, 1], 0, img_size[1])  
277.	rois[:, 2] = torch.clamp(rois[:, 2], 0, img_size[0])  
278.	rois[:, 3] = torch.clamp(rois[:, 3], 0, img_size[1])  
279.	print(rois)  
280.	# 去除高度或宽度小于minsize的预测框  
281.	w = rois[:, 2] - rois[:, 0]  
282.	h = rois[:, 3] - rois[:, 1]  
283.	keep = np.where((h.numpy() >= min_size) & (w.numpy() >= min_size))[0]  
284.	rois = rois[keep, :]  
285.	before_scores = objectness_score[0][keep]  
286.	before_scores_numpy = before_scores.data.numpy()  
287.	print(rois.shape)  
288.	print(before_scores.shape)  
289.	print(before_scores_numpy.shape)  
290.	print(before_scores_numpy.ravel().shape)  
291.	# 对before_scores按从高到低的顺序排序，取前n1个进行nms，然后再取前n2个送入ROI head中  
292.	order = np.argsort(before_scores_numpy)[::-1]  
293.	order = order[:n_train_pre_nms] # 12000  
294.	order = torch.from_numpy(order.copy())  
295.	rois = rois[order, :] # 12000*4  
296.	scores = before_scores[order] # 12000  
297.	rois_numpy = rois.data.numpy()  
298.	scores_numpy = scores.data.numpy()  
299.	keep = util.nms(rois_numpy, nms_thre, scores_numpy)  
300.	print(len(keep))  
301.	keep = keep[:n_train_post_nms]  
302.	rois = rois[keep, :]  
303.	print(rois.shape)  
304.	# 以上取出了要送入roi head进行预测的roi(RPN网络产生的预测框)  
305.	  
306.	''''' 
307.	第四部分，对第三部分产生的rois进行进一步的采样，先对rpn预测后送进来的框进行定位， 
308.	即计算每个框和每个gt的iou，根据iou对其进行采样，并进行位移坐标定位。 
309.	'''  
310.	n_sample = 128  
311.	pos_ratio = 0.25  
312.	pos_iou_thre = 0.5  
313.	neg_iou_thre_hi = 0.5  
314.	neg_iou_thre_lo = 0.0  
315.	''''' 
316.	先采样，该部分根据输入到这里的rpn产生的roi，先计算这些roi实际的label和相对于gt的位移坐标 
317.	用于与roi head生成的对比，计算loss 
318.	'''  
319.	# 计算iou  
320.	ious = util.iou(rois, bboxes) # 2000*2  
321.	print(ious)  
322.	print(ious.shape)  
323.	# 获取每个anchor对应的最大iou,及对应的gt  
324.	gt_argroi = ious.argmax(axis=1)  
325.	roi_max_ious = ious.max(axis=1)  
326.	gt_roi_label = labels[gt_argroi] # 对每个roi分配真实label  
327.	# 分配正样本  
328.	n_pos = n_sample*pos_ratio  
329.	pos_index = np.where(roi_max_ious > pos_iou_thre)[0]  
330.	pos_roi_this_image = int(min(n_pos, len(pos_index)))  
331.	if len(pos_index) > 0:  
332.	    pos_index = np.random.choice(pos_index, size=pos_roi_this_image, replace=False)  
333.	print(pos_index)  
334.	print(len(pos_index))  
335.	  
336.	neg_roi_this_image = n_sample - pos_roi_this_image  
337.	neg_index = np.where((roi_max_ious < neg_iou_thre_hi) & (roi_max_ious > neg_iou_thre_lo))[0]  
338.	neg_roi_this_image = int(min(neg_roi_this_image, len(neg_index)))  
339.	if len(neg_index) > 0:  
340.	    neg_index = np.random.choice(neg_index, size=neg_roi_this_image, replace=False)  
341.	print(neg_index)  
342.	print(len(neg_index))  
343.	# 以上采样出了正样本和负样本的索引，对这些roi求真实label和真实位移坐标作为gt_roi  
344.	keep_index = np.append(pos_index, neg_index)  
345.	print(keep_index)  
346.	sample_rois = rois[keep_index, :]  
347.	print(sample_rois.shape)  
348.	# 计算采样的rois的真实位移坐标和真实类别  
349.	gt_for_sample_rois = bboxes[gt_argroi[keep_index]] # 获取与sample_rois对应的gt框  
350.	w = sample_rois[:, 2] - sample_rois[:, 0]  
351.	h = sample_rois[:, 3] - sample_rois[:, 1]  
352.	center_x = sample_rois[:, 0] + w/2  
353.	center_y = sample_rois[:, 1] + h/2  
354.	gt_w = gt_for_sample_rois[:, 2] - gt_for_sample_rois[:, 0]  
355.	gt_h = gt_for_sample_rois[:, 3] - gt_for_sample_rois[:, 1]  
356.	gt_center_x = gt_for_sample_rois[:, 0] + w/2  
357.	gt_center_y = gt_for_sample_rois[:, 1] + h/2  
358.	eps = torch.tensor(1e-10)  
359.	h = np.maximum(h, eps)  
360.	w = np.maximum(w, eps)  
361.	dx = (gt_center_x - center_x)/w  
362.	dy = (gt_center_y - center_y)/h  
363.	dw = np.log(gt_w/w)  
364.	dh = np.log(gt_h/h)  
365.	gt_sample_roi_locations = np.vstack((dx, dy, dw, dh)).transpose()  
366.	gt_sample_roi_labels = gt_roi_label[keep_index]  
367.	gt_sample_roi_labels[pos_roi_this_image:] = 0 # 负样本的labels设置成0  
368.	''''' 
369.	gt_sample_roi_locations与gt_sample_roi_labels是roi部分的ground truth 
370.	'''  
371.	print(gt_sample_roi_locations)  
372.	print(gt_sample_roi_locations.shape)  
373.	print(gt_sample_roi_labels.shape)  
374.	print(sample_rois)  
375.	# 以上为处理结果，gt_sample_roi_locations和gt_sample_roi_labels为每个sample_roi对应的真实label和位移坐标  
376.	# sample_rois将被送入roi head来预测label和位移结果  
377.	print(sample_rois.shape)  
378.	roi_indexes = torch.zeros((sample_rois.shape[0]), dtype=torch.int32)  
379.	print(roi_indexes.shape)  
380.	# rois是用于输入roi head的数据，再sample_rois的基础上添加了一个img的索引，在本例中只有一个image  
381.	  
382.	rois = torch.zeros((sample_rois.shape[0], sample_rois.shape[1]+1))  
383.	rois[:, 0] = roi_indexes  
384.	rois[:, 1:] = sample_rois  
385.	print(rois.shape)  
386.	print(rois)  
387.	''''' 
388.	此处处理逻辑是先把sample_rois加上一维，来表示是哪张图片的，因为实际中可能一次传入一个batch多张图片 
389.	在本代码中只传入一张，所以该维全初始化为0，然后将sample_rois下采样16倍映射到对应的feature_map上 
390.	然后传入roi pooling获得roi pooling处理后的结果，再传入roi head获得预测的结果 
391.	'''  
392.	size = 7  
393.	roi_pooling = nn.AdaptiveMaxPool2d(size, size)  
394.	out_put = [] # 用于存储roi pooling处理后的结果  
395.	# 下采样sub_sample倍，从原图映射到特征图上  
396.	rois[:, 1:].mul_(1.0/16.0)  
397.	print(feature_map.shape)  
398.	for i in range(rois.shape[0]):  
399.	    roi = rois[i]  
400.	    img_index = int(roi[0])  
401.	    feature_im = feature_map[img_index, :, int(roi[1]):int(roi[3]), int(roi[2]):int(roi[4])] # 取出对应到feature map上的图  
402.	    roi_pooling_im = roi_pooling(feature_im)  
403.	    out_put.append(roi_pooling_im[0])  
404.	out_put = torch.stack(out_put)  
405.	print(out_put.shape)  
406.	# output中存储的就是sample_rois经过roi pooling处理后的特征图  
407.	out_put_linear = out_put.view(out_put.shape[0], -1) # 后面都是全连接层  
408.	print(out_put_linear.shape)  
409.	class ROIHead(nn.Module):  
410.	    def __init__(self, num_class):  
411.	        super(ROIHead, self).__init__()  
412.	        num_class = num_class  
413.	        self.linear1 = nn.Linear(25088, 4096)  
414.	        self.linear2 = nn.Linear(4096, 4096)  
415.	        # 输入的是每个rois映射到特征图再经过roi pooling的结果，预测每个roi中物体的类别和位移坐标  
416.	        self.location = nn.Linear(4096, (num_class+1)*4) # 每个类别的位移坐标  
417.	        self.score = nn.Linear(4096, (num_class+1)) # 每个类别的分数  
418.	        self._init_weight()  
419.	  
420.	    def _init_weight(self):  
421.	        self.linear1.weight.data.normal_(0, 0.01)  
422.	        self.linear1.bias.data.zero_()  
423.	        self.linear2.weight.data.normal_(0, 0.01)  
424.	        self.linear2.bias.data.zero_()  
425.	        self.location.weight.data.normal_(0, 0.01)  
426.	        self.location.bias.data.zero_()  
427.	        self.score.weight.data.normal_(0, 0.01)  
428.	        self.score.bias.data.zero_()  
429.	  
430.	    def forward(self, x):  
431.	        x = self.linear1(x)  
432.	        x = self.linear2(x)  
433.	        pred_roi_locations = self.location(x) # (num_class+1)*4  
434.	        pred_roi_labels = self.score(x) # num_class+1  
435.	        return pred_roi_locations, pred_roi_labels  
436.	  
437.	roihead = ROIHead(num_class=20)  
438.	print(out_put_linear.shape)  
439.	pred_roi_locations, pred_roi_labels = roihead(out_put_linear)  
440.	print(pred_roi_locations.shape) # (n_sample, (num_class+1)*4)  
441.	print(pred_roi_labels.shape) # (n_sample, (num_class+1))  
442.	  
443.	''''' 
444.	第五部分，计算损失函数，本部分分两小部分，第一部分计算rpn的损失，第二部分计算roi的损失 
445.	'''  
446.	# rpn损失计算使用  
447.	loss_lambda = 10  
448.	print("RPN Loss")  
449.	print(anchor_locations.shape)  
450.	print(anchor_labels.shape)  
451.	print(pred_anchor_location.shape)  
452.	print(pred_anchor_cls.shape)  
453.	anchor_locations = torch.from_numpy(anchor_locations)  
454.	anchor_labels = torch.from_numpy(anchor_labels)  
455.	pred_anchor_location = pred_anchor_location[0]  
456.	pred_anchor_cls = pred_anchor_cls[0]  
457.	print(anchor_locations.shape, anchor_labels.shape, pred_anchor_location.shape, pred_anchor_cls.shape)  
458.	# 分类损失, 交叉熵损失  
459.	anchor_labels = anchor_labels.long()  
460.	rpn_cls_loss = F.cross_entropy(pred_anchor_cls, anchor_labels, ignore_index=-1)  
461.	print(rpn_cls_loss)  
462.	# 回归损失，smooth l1损失, 只对gt anchor labels为1的进行smooth l1损失计算  
463.	pos_index = anchor_labels > 0  
464.	print(pos_index.shape)  
465.	print(pos_index)  
466.	mask = pos_index.unsqueeze(1).expand_as(anchor_locations)  
467.	print(mask.shape)  
468.	print(mask)  
469.	# 取出label为正的anchor location计算损失  
470.	anchor_locations = anchor_locations[mask].view(-1, 4) # 18*4  
471.	pred_anchor_location = pred_anchor_location[mask].view(-1, 4) # 18*4  
472.	x = torch.abs(anchor_locations - pred_anchor_location)  
473.	print(x.shape)  
474.	rpn_loc_loss = (x < 1).float()*0.5*x**2 + (x >= 1).float()*(x-0.5)  
475.	rpn_loc_loss = rpn_loc_loss.sum() # 这是回归损失总和，要求平均  
476.	print(rpn_loc_loss)  
477.	n_reg = (anchor_labels>0).float().sum() # 总数  
478.	print(n_reg)  
479.	rpn_loc_loss = rpn_loc_loss/n_reg # 平均  
480.	print(rpn_loc_loss)  
481.	rpn_loss = rpn_cls_loss + loss_lambda*rpn_loc_loss  
482.	print("rpn loss:{}".format(rpn_loss))  
483.	  
484.	print("RPN Loss Finished")  
485.	print("-----------------------------------")  
486.	# 计算roi损失使用  
487.	print("-----------------------------------")  
488.	print("ROI Loss")  
489.	print(gt_sample_roi_locations.shape)  
490.	print(gt_sample_roi_labels.shape)  
491.	print(pred_roi_locations.shape)  
492.	print(pred_roi_labels.shape)  
493.	gt_sample_roi_locations = torch.from_numpy(gt_sample_roi_locations)  
494.	gt_sample_roi_labels = gt_sample_roi_labels.long()  
495.	# 分类损失  
496.	roi_cls_loss = F.cross_entropy(pred_roi_labels, gt_sample_roi_labels, ignore_index=-1)  
497.	print(roi_cls_loss)  
498.	# 回归损失  
499.	pred_roi_locations = pred_roi_locations.view(pred_roi_locations.shape[0], -1, 4)  
500.	print(pred_roi_locations.shape) # 128*21*4  
501.	# 取出pred_roi_locations与gt_roi_locations中对应的那一类的位移坐标进行计算  
502.	pred_roi_locations = pred_roi_locations[np.arange(0, pred_roi_locations.shape[0]), gt_sample_roi_labels] # 128*4  
503.	print(pred_roi_locations.shape)  
504.	  
505.	# 取出正标签，并计算其loss  
506.	pos_index = gt_sample_roi_labels > 0 # 正标签  
507.	mask = pos_index.unsqueeze(1).expand_as(pred_roi_locations) # 掩码  
508.	print(mask.shape)  
509.	pred_roi_locations = pred_roi_locations[mask].view(-1, 4) # 获取预测框中为正标签的部分  
510.	gt_sample_roi_locations = gt_sample_roi_locations[mask].view(-1, 4) # 同上，获取gt中的
511.	print(pred_roi_locations.shape, gt_sample_roi_locations.shape)  
512.	x = torch.abs(pred_roi_locations - gt_sample_roi_locations)  
513.	roi_loc_loss = (x < 1).float()*0.5*x**2 + (x >= 1).float()*(x-0.5)  
514.	roi_loc_loss = roi_loc_loss.sum()  
515.	print(roi_loc_loss)  
516.	n_reg = (gt_sample_roi_labels > 0).sum()  
517.	roi_loc_loss = roi_loc_loss/n_reg  
518.	roi_loss = roi_cls_loss + loss_lambda*roi_loc_loss  
519.	print(roi_loc_loss)  
520.	print("roi_loss: {}".format(roi_loss))  
521.	print("ROI Loss Finished")  
522.	total_loss = rpn_loss+roi_loss  
523.	print("total loss: {}".format(total_loss))  
524.	total_loss.backward()

TODO

后续会开始看基于深度学习的边缘检测方法(应用于缺陷检测)

你可能感兴趣的:(目标检测,目标检测,Faster,Rcnn)

【三维感知目标检测论文阅读】《Point RCNN: An Angle-Free Framework for Rotated Object Detection》
今天给大家带来的论文是2019年的《PointRCNN:AnAngle-FreeFrameworkforRotatedObjectDetection》。尽管这是一篇较早的纯点云检测论文，但我把它放在了最后来讲。因为在了解了各类主流方法后，再回过头来阅读它会有更深的理解。PointRCNN采用自底向上的方式直接从点云生成高质量的3D候选框，其对于旋转框的无角度（Angle-Free）处理方式，对于理
旋转目标检测：Deep Spatial Feature Transformation for Oriented Aerial Object Detection【方法解析】沉浸式AI 《AI与SLAM论文解析》人工智能计算机视觉旋转目标检测
DeepSpatialFeatureTransformationforOrientedAerialObjectDetection目录DeepSpatialFeatureTransformationforOrientedAerialObjectDetection摘要关键词引言相关工作旋转对齐模块特征对齐方法旋转对齐模块特征选择模块摘要航空图像中的目标检测在计算机视觉领域引起了广泛关注。不同于自然图像
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
YOLOv5改进策略|YOLOv5 ⾃主检查和跟踪相关的任务|基于视觉的⽆⼈⽔⾯舰艇⾃主导航极端海洋条件斌擎人工智能官方账号 YOLO 人工智能 YOLOv5 目标检测计算机视觉深度学习自主导航
目录介绍解决方案目标检测的视觉结论视觉感知是无人水面舰艇(USV)自主导航的重要组成部分，特别是与自主检查和跟踪相关的任务。这些任务涉及基于视觉的导航技术来识别导航目标。海洋环境中极端天气条件下的能⻅度降低使得基于视觉的方法难以正常工作。为了克服这些问题，本文提出了一种基于视觉的自主导航框架，用于在极端海洋条件下跟踪目标物体。所提出的框架由一个集成感知管道组成，该管道使用生成对抗网络(GAN)来消
3步实现安防高精度检测：陌讯算法夜间监控落地实战 2501_92474745 目标跟踪人工智能计算机视觉算法目标检测视觉检测
开篇痛点：安防监控系统在实时目标检测中常面临严峻挑战。实测数据显示，传统算法在低光、遮挡或动态场景下，泛化能力不足，导致平均误报率高达15%（数据来源：安防行业报告）。尤其在夜间或拥挤环境下，系统卡顿、漏检频发，不仅降低响应效率，还增加安全隐患。例如，某城市交通监控中心反馈，其开源模型在高密度人流中出现每秒帧率（FPS）骤降至20帧以下，引发报警延迟问题。这些问题根源在于算法鲁棒性和实时性不足，亟
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
回归损失函数2 ： HUber loss,Log Cosh Loss,以及 Quantile Loss
均方误差（MeanSquareError,MSE）和平均绝对误差（MeanAbsoluteError,MAE)是回归中最常用的两个损失函数，但是其各有优缺点。为了避免MAE和MSE各自的优缺点，在FasterR-CNN和SSD中使用SmoothL1SmoothL1损失函数，当误差在[−1,1][−1,1]之间时，SmoothL1SmoothL1损失函数近似于MSE，能够快速的收敛；在其他的区间则近
监控漏检率 30%？陌讯多模态算法实测优化
破解智慧城市视觉算法困境：陌讯多模态融合技术实战解析在智慧城市建设中，视觉算法作为感知层核心技术，正面临着日益严峻的挑战。传统目标检测算法在暴雨、逆光、遮挡等复杂环境下，漏检率常高达25%-40%，直接导致交通违章误判、异常事件漏报等问题。某新一线城市交管部门曾反馈，现有系统对无牌车的识别准确率不足65%，严重影响执法效率[实测数据来源]。这些痛点的核心在于传统单模态算法难以应对城市环境的动态变化
河道污染难溯源？3步搭建陌讯实时目标检测系统 2501_92472966 目标检测人工智能计算机视觉算法视觉检测
开篇痛点「凌晨3点水泵房渗漏报警，运维人员冒雨排查却是一场误判」——这是某水务企业技术总监向我吐槽的真实案例。在智慧水务场景中，传统视觉算法面临三大死穴：水体反光干扰、微小目标漏检、边缘设备算力受限。尤其当暴雨导致水体浑浊时，OpenCV边缘检测的误报率可达35%以上。技术解析：陌讯多模态融合架构为解决复杂环境泛化问题，陌讯视觉算法提出FMT-Net（FusionMultimodalTransfo
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
BEV+Transformer Monkey PilotX 自动驾驶 transformer 深度学习人工智能
在自动驾驶系统中，BEV（Bird’sEyeView）+Transformer主要应用于感知与环境建图（Perception&SceneUnderstanding）环节，尤其是在多传感器融合、目标检测、语义分割、轨迹预测等任务中。在自动驾驶中的关键应用场景应用环节BEV+Transformer的作用感知（Perception）多摄像头图像融合成BEV视角，进行目标检测、语义分割预测（Predict
目标检测中的标签分配算法总结北京地铁1号线目标检测与图像处理人工智能
目标检测中的标签分配算法是训练过程中的一个核心环节，它决定了如何将标注好的真实目标框分配给模型预测出来的候选框（AnchorBoxes或Points），从而为这些候选框提供监督信号（正样本、负样本、忽略样本）。它的质量直接影响模型的学习效率和最终性能。简单来说，标签分配要解决的关键问题是：“哪些预测框应该负责学习哪些真实目标？”一、为什么标签分配如此重要？1.定义学习目标：它直接告诉模型哪些预测应
《目标检测模块实践手册：从原理到落地的尝试与分享》第一期加油吧zkf 目标检测模块解析与实践目标检测目标跟踪人工智能
大家好，欢迎来到《目标检测模块实践手册》系列的第一篇。从今天开始，我想以一种“实践记录者”的身份，和大家聊聊在目标检测任务中那些形形色色的模块。这些内容没有权威结论，更多的是我在实际操作中的一些尝试、发现和踩过的坑。至于这些模块在大家的具体网络应用中是否可行，还需要大家自己去验证，也非常期待能和大家交流不同的经验。目标检测任务的本质与模块的作用目标检测，简单来说，就是从输入的图像中，准确地找出我们
手绘电路图的节点和端点检测一个简化版的算法实现框架 zhangfeng1133 算法
于论文描述，我将提供一个简化版的算法实现框架，用于手绘电路图的节点和端点检测，并整合生成电路原理图。以下代码结合了YOLOv5目标检测和传统图像处理技术，符合论文中提到的98.2%mAP和92%节点识别准确率的关键指标。核心算法实现（Python+OpenCV+YOLOv5）importcv2importnumpyasnpimporttorchfromyolov5importYOLOv5#需要安装
目标检测-YOLOv5 wydxry 深度学习目标检测 YOLO 人工智能深度学习
YOLOv5介绍YOLOv5是YOLO系列的第五个版本，由Ultralytics团队发布。虽然YOLOv5并非JosephRedmon原团队发布，但它在YOLOv4的基础上进行了重要的优化和改进，成为了深度学习目标检测领域中的热门模型之一。YOLOv5的优势不仅体现在其性能上，还包括其简洁易用、部署便捷的特点。相较于YOLOv4，YOLOv5对于代码框架的重构、推理速度的提升，以及模型的轻量化等方
深度学习模型开发部署全流程：以YOLOv11目标检测任务为例你喜欢喝可乐吗？ deep learning deploy 深度学习 YOLO 目标检测
深度学习模型开发部署全流程：以YOLOv11目标检测任务为例深度学习模型从开发到部署的完整流程包含需求分析、数据准备、模型训练、模型优化、模型测试和部署运行六大核心环节。YOLOv11作为新一代目标检测模型，不仅延续了YOLO系列的高效实时性能，还在检测精度和泛化能力上取得显著突破，使其成为工业质检、安防监控、自动驾驶等领域的理想选择。本文将详细阐述这一完整流程，并结合YOLOv11的具体实现，提
渣土车识别漏检率高？陌讯算法实测降 90% 2501_92487936 目标跟踪人工智能计算机视觉目标检测算法智慧城市
在城市建筑垃圾运输管理中，渣土车的合规性监测一直是行业痛点。传统视觉算法在复杂工况下常常出现误判——阴雨天车牌识别模糊、夜间车灯眩光导致车型误分类、不同品牌渣土车混检时准确率骤降。某市政管理局的统计显示，采用传统方案时，日均漏检率高达23%，由此引发的违规倾倒投诉占比超60%。技术解析：从单模态到多特征融合的突破传统渣土车识别多依赖单一目标检测模型（如FasterR-CNN），其核心缺陷在于：特征
考场/工厂违规用机难捕捉？3维度优化方案部署成本直降40% 2501_92487762 视觉检测计算机视觉算法目标检测
开篇痛点工业场景中传统玩手机识别面临三重挑战：小目标检测（手机平均像素占比<0.5%）、遮挡干扰（人手/物体遮挡率超60%）、实时性要求（需200ms内响应）。某安检企业反馈，开源YOLOv5在车间场景误报率高达34%。技术解析：双流特征融合架构陌讯算法创新性融合双路径特征（图1）：#陌讯核心代码逻辑（简化版）defdual_path_fusion(backbone):shallow_path=C
复杂场景检测失效？陌讯多模态算法在千万级监控网的落地实战 2501_92473061 算法视觉检测安全计算机视觉
开篇痛点：安防监控的检测困境"明明人就在画面里，系统却毫无反应！"——这是某智慧园区安防负责人的吐槽。传统目标检测模型在安防监控场景面临三大死穴：漏报：夜间、遮挡场景下召回率骤降（实测ResNet50漏报率>40%）误报：树叶晃动、光影变化引发的误报占比超35%延迟：1080P视频流检测延迟普遍>100ms，难以满足实时响应需求技术解析：陌讯算法的三阶优化架构陌讯视觉算法采用多模态特征金字塔（MM
复杂场景检测老翻车？陌讯算法实测提升 40% 2501_92453489 算法视觉计算机视觉视觉检测
在工业质检、安防监控等计算机视觉落地场景中，工程师常面临棘手问题：传统算法在光照突变、目标遮挡等复杂环境下，漏检率高达20%以上，泛化能力不足成为项目落地的最大阻碍。而陌讯AI视觉算法通过架构创新，正在重新定义复杂场景下的检测精度标准。技术解析：从单模态到多模态的跨越传统目标检测模型多依赖单一RGB图像输入，在特征提取阶段容易受环境干扰。以经典的FasterR-CNN为例，其区域提议网络（RPN）
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name