watersink

Anchor Free，框即是点，CenterNet

前沿：

Loss设计：

如何将网络预测转化为坐标框：

网络预测转化为坐标框：

网络预测转化为轮廓点：

网络结构：

2d检测任务：

姿态估计任务：

实验结果：

牛刀小试：

官方模型测试：

自己数据训练目标检测：

网络基础结构改进：

总结：

论文：Objects as Points

Github：https://github.com/xingyizhou/CenterNet

CVPR 2019

前沿：

CenterNet，一个anchor free的新的检测算法，算是对cornerNet的改进，在cornerNet基础上，引入了中心点的概念，因此，称为CenterNet。

算法亮点，

anchor free，大大减少了anchor部分的计算量，并且不需要nms这样的后处理。
一个框架可以做2d检测，3d检测，pose姿态估计，3种不同的任

速度够快，速度和精度的良好平衡，在MS-COCO上28.1%的MAP，142FPS，或者，37.4%的MAP，52FPS。采用多尺度测试的话，可以达到45.1%的MAP，1.4FPS。

CenterNet的anchor free思想和基于anchor框架的区别：

CenterNet可以看作基于anchor框架的演变，可以看作只有一个形状的anchor。

A center point can be seenas a single shape-agnostic anchor

传统的基于anchor的思想，需要计算anchor和ground truth的IOU，IOU>0.7是正样本，IOU<0.3是负样本，其他的忽略掉。

CenterNet只取ground truh边框的中心一点作为anchor，只回归该中心点和宽，高。该点周围的其余点当作负样本。

CenterNet只根据位置布置anchor，背部关心IOU，不需要像基于anchor的框架那样人工设置阈值来进行前景背景分类。
由于每一个物体只有一个正的anchor，因此不再需要后处理的NMS，只需要提取输出feature map种峰值最高的点即可。
CenterNet的网络输出特征层尺度更大，是原图的1/4，而基于anchor的方法，最后一层特征图大小是原图的1/16，因此基于anchor的方法需要多个不同长宽比和尺度的anchor。这里为什么anchor free的方法，需要输出是原图的1/4呢?因为，大多数anchor free的方法，基本都需要下采样+上采样这样的结构，来综合底层和高层特征，才可以保证分割或者回归的准确性。

Loss设计：

输入图片大小为I (W ×H×3)，其中W=H=512，

网络最后输出的特征层Y大小为，(W/R ×H/R×C)，C为输出的通道数，R为输出的滑动步长，Y（x,y,c）=1表示检测到的关键点，Y（x,y,c）=0表示背景

实际训练中的groundtruth使用高斯核进行处理，核函数为，

对于一维标准高斯核函数来说，公式如下，

其中，

a表示核函数的最大值，因为e函数的指数是一个分子比分母大的函数，e函数最大就是e0=1，所以，核函数最大值就是a,也就是核函数曲线的最高点峰值坐标

b表示核函数的均值u，也就是核函数曲线的中心轴坐标

c表示核函数的方差seigema，也就是核函数曲线的宽度

二维核函数与此类比，

那么回到论文的问题，

（1）这里的高斯核函数的方差是根据图像中目标大小进行自适应确定的，不同的物体具有不同的方差。

得到的收益就是，如果这个物体大，那么经过对groundtruth进行高斯滤波后，得到的点的光圈就会比较大，反之，如果目标小，得到的点的光圈就会比较小。

而所有的groundtruth进行高斯滤波后的最高点波峰值都是1

如果两个核函数的区域相交，则分别取对应位置的最大值，而不是像传统的密度估计中那样，对所有的高斯核处理后的结果进行累加，造成波谷1+波谷2>=波峰的情况。

If two Gaussians of the same class overlap, we take the element-wise maximum [4]

（2）这里为什么需要对groundtruth进行一个高斯滤波呢？似乎很多问题都是这样的操作，包括密度估计，关键点检测等，那么这里不做可以不可以？

首先这里预测中心点的loss是一个分类的loss。也就是说预测完的每一个类别对应的feature上的点是每一个groundtruth位置内，只有一个像素比较亮，就是说，预测的特征图中只有0，1这样2种类型的整形值。而不是像groundtruth一样，是一个float类型的值，光圈中间点为1，其余周围点慢慢降低的特征图。

而好多关键点检测，deeplabcut使用的是回归，预测完就是一个float类型的特征图。而openpose也是基于回归做的，基于欧氏距离的loss，输出也是一个float类型的特征图。好多密度估计的loss也是基于回归的loss。

另一个就是所谓groundtruth的中心点，怎么就是最佳最合理的中心点呢？难度多一个像素，少一个像素就不是最佳的吗？还是人达标的框一定是最佳的真实答案呢。肯定不是这样的情况。所以这就是经过高斯核函数滤波的好处。

经过高斯滤波后，groundtruth=1的位置，会有loss传递，其他不为1的位置是一个float类型的数值，也有相应的loss传递，float类型的groundtruth的值越大，loss越大。感觉还有种soft label的思想。

而如果不经过高斯滤波，那么久会出现只有一个位置的点是groundtruth=1，其他位置都等于0。而这个点周围的其他点，都有可能是最佳的那个点。但是实际训练的时候，却都当成了0处理，这样训练完，也许效果上就会有区别吧。

（3）这里预测这个中心点，本质就是语义分割的思想。但是还有点区别，如果是语义分割的话，并且使用的是基于回归的loss，那么类别应该是C类，如果是使用的基于分类的loss，那么类别应该是C+1类，而这里是C类，那么就只能是groundtruth=0 的位置不进行loss的传递，计算loss的时候，通过对预测特征图和groundtruth进行对应位置乘积运算实现或者，支取对应的index实现。

def _slow_neg_loss(pred, gt):
  '''focal loss from CornerNet'''
  pos_inds = gt.eq(1)
  neg_inds = gt.lt(1)

  neg_weights = torch.pow(1 - gt[neg_inds], 4)

  loss = 0
  pos_pred = pred[pos_inds]
  neg_pred = pred[neg_inds]

通过这样的实现，分类的这个分支只需要C个通道就可以。从程序来说，就是写法上的区别。本质还是这个groundtruth只有0,1这2个区别，groundtruth=0的时候，如果没有背景类别这个通道，则可以通过前景类别的通道间接传递loss，如果有背景类别的通道，也不可以通过背景类别的通道传递loss。本质是一样的。主要还是因为这里的groundtruth是 one-hot形式，是hard-label，如果这里将label改为soft-label也就是说，groundtruth为0.9, 0.1这样的形式，就必须得是C+1个通道了。

plus:

假设都是用voc数据集

faster rcnn：最后的输出层分类部分的全连接层输出的个数是21。虽然faster已经先经过前面的RPN的2分类，过滤掉了大部分背景类别，但是后续仍然有可能存在背景类别。

https://github.com/ShaoqingRen/faster_rcnn

RPN:

layer {
   name: "proposal_bbox_pred"
   type: "Convolution"
   bottom: "conv_proposal1"
   top: "proposal_bbox_pred"
	param {
		lr_mult: 1.0
	}
	param {
		lr_mult: 2.0
	}
   convolution_param{
	   num_output: 36	# 4 * 9(anchors) 
	   kernel_size: 1
	   pad: 0
	   stride: 1
	   weight_filler {
		 type: "gaussian"
		 std: 0.01
	   }
	   bias_filler {
		 type: "constant"
		 value: 1
	   }
   }
}

#-----------------------output------------------------

# to enable the calculation of softmax loss, we first reshape blobs related to SoftmaxWithLoss
layer {
   bottom: "proposal_cls_score"
   top: "proposal_cls_score_reshape"
   name: "proposal_cls_score_reshape"
   type: "Reshape"
   reshape_param{
	   shape {
			dim: 0 
			dim: 2
			dim: -1 
			dim: 0
		}
	}
}

RCNN：

layer {
	bottom: "fc7"
	top: "cls_score"
	name: "cls_score"
	param {
		lr_mult: 1.0
	}
	param {
		lr_mult: 2.0
	}
	type: "InnerProduct"
	inner_product_param {
		num_output: 21
		weight_filler {
			type: "gaussian"
			std: 0.01
		}
		bias_filler {
			type: "constant"
			value: 0
		}
	}
}

layer {
	bottom: "fc7"
	top: "bbox_pred"
	name: "bbox_pred"
	type: "InnerProduct"
	param {
		lr_mult: 1.0
	}
	param {
		lr_mult: 2.0
	}
	inner_product_param {
		num_output: 84  #21*4
		weight_filler {
			type: "gaussian"
			std: 0.001
		}
		bias_filler {
			type: "constant"
			value: 0
		}
	}
}

SSD:分类的类别为21类，因为，使用softmax loss，肯定会有一个值最大，所以必须得加背景类别。

https://github.com/chuanqi305/MobileNet-SSD/blob/master/train.prototxt

layer {
  name: "mbox_loss"
  type: "MultiBoxLoss"
  bottom: "mbox_loc"
  bottom: "mbox_conf"
  bottom: "mbox_priorbox"
  bottom: "label"
  top: "mbox_loss"
  include {
    phase: TRAIN
  }
  propagate_down: true
  propagate_down: true
  propagate_down: false
  propagate_down: false
  loss_param {
    normalization: VALID
  }
  multibox_loss_param {
    loc_loss_type: SMOOTH_L1
    conf_loss_type: SOFTMAX
    loc_weight: 1.0
    num_classes: 21
    share_location: true
    match_type: PER_PREDICTION
    overlap_threshold: 0.5
    use_prior_for_matching: true
    background_label_id: 0
    use_difficult_gt: true
    neg_pos_ratio: 3.0
    neg_overlap: 0.5
    code_type: CENTER_SIZE
    ignore_cross_boundary_bbox: false
    mining_type: MAX_NEGATIVE
  }
}

yolov3:20类，因为使用的是多个sigmoid来代替softmax，本质上每一个sigmoid都是前景，背景分类问题。https://github.com/pjreddie/darknet/blob/master/cfg/yolov3-voc.cfg

[yolo]
mask = 0,1,2
anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326
classes=20
num=9
jitter=.3
ignore_thresh = .5
truth_thresh = 1
random=1

最终，中心点的loss函数为基于focal loss改进的损失函数，

α ，β是focal loss的超参数，分别取α =2，β=4，N表示一幅图像I中的点的数目

偏移offset使用L1 loss进行计算，

其中，R为网络的下采样率，

p表示所有物体中心点的groundtruth，比如中心点的，

p~表示预测的物体中心点的坐标，

2个做差后，就是预测的中心点和实际坐标点的偏移，就是需要回归的真实的偏移的groundtruth

Op~就表示预测的偏移量

问题来了，这里的offset分支，可不可以没有，没有会有什么问题产生？为什么faster RCNN没有 offset分支？

按照论文的下采样率，从输入图片到网络最后一层特征图，会进行2次下采样，也就是最后一层特征图上1个像素表示原图的4*4=16个像素。那么问题来了，这个坐标点到底对应这16个像素的哪一个，是不知道的。所以为了得到这个对应关系，这里必须得有一个offset分支。就好比ctpn，也有这个offset 分支，来对左右的边界进行精确定位。

Faster RCNN基于anchor回归得到的tx，ty，tw，th都是float类型的数值，可以对应为原图的任意一个位置，自然就不存在offset问题。而本文的CenterNet得到的框的位置是整数值，所以会有这样的问题。

物体的size使用L1 loss进行计算，

最终，整体的loss 就是中心点的loss(Lk)+物体宽高的loss(Lsize)+偏移的loss(Loff)

参数，λsize = 0:1 ， λoff = 1

在推断部分，每一个类别一个输出特征图。如果一个点周围的8领域的像素都比中心该点的像素值小，则将其当作一个检测出的peak 点（该操作可以通过3*3的max pooling实现）。每一个特征图，取前100个peak点，最后通过卡阈值得到最终的结果。

对于这块的3*3 pooling，在src/lib/models/decode.py中，

def _nms(heat, kernel=3):
    pad = (kernel - 1) // 2

    hmax = nn.functional.max_pool2d(
        heat, (kernel, kernel), stride=1, padding=pad)
    keep = (hmax == heat).float()
    return heat * keep

其实pytorch的pooling是可以返回index的，这点就比tf的更灵活，像segnet里面，都是作者使用caffe自己实现的。

pytorch 的pooling 接口：

class torch.nn.MaxPool2d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)

return_indices - 如果等于True，会返回输出最大值的序号，对于上采样操作会有帮助

tensorflow的pooling 接口：

tf.nn.max_pool(
    value,
    ksize,
    strides,
    padding,
    data_format='NHWC',
    name=None
)

并没有index返回。

实现测试，

import torch
from torch import nn

input = torch.Tensor([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16]).view(1,1,4,4)
print(input)
downsample ,index= nn.MaxPool2d(kernel_size=2, stride=2,return_indices=True)(input)
out = nn.MaxUnpool2d(kernel_size =2, stride=2)(downsample,index)
print(out)

“””
tensor([[[[ 1.,  2.,  3.,  4.],
          [ 5.,  6.,  7.,  8.],
          [ 9., 10., 11., 12.],
          [13., 14., 15., 16.]]]])
tensor([[[[ 0.,  0.,  0.,  0.],
          [ 0.,  6.,  0.,  8.],
          [ 0.,  0.,  0.,  0.],
          [ 0., 14.,  0., 16.]]]])
“””

这里为什么需要一个3*3的max pooling，这里个人理解，其实就是很类似NMS的一个操作。本质出现这个问题，还是因为中心点的最佳位置不是可以确切肯定的。这样就可以去掉框上累加框的情况。但是这个思想，本质也没有解决高遮挡的高IOU目标检测问题。NMS没解决这个问题，3*3的max pooling也么有解决。

但是centerNet由于自身下采样次数少，所以高IOU问题影响较少，只有0.1%，而基于anchor思想的却有大约2%的影响。faster RCNN在iou 0.5的阈值下，有20%的高遮挡问题。

CenterNet is unable to predict < 0:1% of objects due to collisions in center points. This is much less than slow- or fastRCNN miss due to imperfect region proposals [52] (∼ 2%),and fewer than anchor-based methods miss due to insufficient anchor placement [46] (20:0% for Faster-RCNN with15 anchors at 0:5 IOU threshold). In addition, 715 pairs of objects have bounding box IoU > 0:7 and would beassigned to two anchors, hence a center-based assignment causes fewer collisions.

如果是需要mul scale的推断的话，每一个scale输出的结果就需要通过NMS的融合。如果只是单一scale做推断，就不需要NMS操作。

For multi-scale, we use NMS to merge results

如何将网络预测转化为坐标框：

网络预测转化为坐标框：

其中，(xi,yi)表示预测的中心点x,y坐标。

(δxi; δyi) = Oxi;yi，表示预测的中心点坐标x，y的偏移
( wi; hi) = Sxi;yi，表示物体框的大小宽度和高度。

通过中心点坐标加上中心点坐标在x,y两个方向的偏移量，得到准确的中心点坐标。然后使用中心点坐标分别减去宽，高的一半，即得到人体目标框的左上角坐标点（x1,y1）和右下角坐标点（x2,y2）。

网络预测转化为轮廓点：

使用下面的公式转化为最终的关键点坐标

其中，（x,y）表示目标物体中心点的坐标，即hm分支。Jxyj表示第j个点的（x,y）坐标的偏移量，即hps分支。但是这样的基于直接回归的方式预测的关键点坐标的误差是相对较大的。

因此，这里使用一个技巧，即根据直接回归可以确定出每一个轮廓点的大致位置，然后找这个位置附近的置信度大于0.1的权值最大的那个点Lj（hm_hp），将其作为真正的轮廓点。然后使用该点加上偏移（hp_offset）得到最终的轮廓点的坐标。

Lj = hm_hp+hp_offset

网络结构：

(a)沙漏（HourGlass）网络结构

(b)ResNet结构+反卷积

(c)原生的DLA-34结构

(d)本文基于DLA-34，修改后的结构，增加了skip connections。

模型效果：Hourglass > DLA > Resnet

网络输入为512*512，输出为128*128，网络中使用的卷积conv是可变形卷积DeformConv，可变形卷积对性能的提升还是很明显的。

可变形卷积的使用感触：

（1）参数量相比正常卷积大

（2）计算量比正常卷积大，速度能慢出近1半来。

（3）效果提升非常明显，loss下降的可以更低。

（4）DCNv2还加入了卷积像素的加权，类似attention，效果更好。

（5）缺点，pytorch并不原生支持。

数据增强方式包括，random flip, random scaling (0.6-1.3), cropping, color jittering

网络的基础结构可以采用，ResNet-18, ResNet-101, DLA-34, Hourglass-104，在这些基础结构的基础上进行了下面2个修改，

增加可变形卷积（deformable convolution）
增加反卷积，采用沙漏结构（Hourglass）

CenterNet模型可以适用于传统的2d目标检测，3d目标检测，姿态估计，等3个任务，不同的任务，最终的模型输出层略有区别。

2d检测任务：

输出3个分支，分别是，

物体的特征图，一个类别一个channel，包含C个channel。
物体中心点的偏移，包含x,y两个偏移量，因此是2个channel。
物体的大小，也就是宽，高，因此也是2个channel。

最终网络输出，C+4个预测分支。

姿态估计任务：

这里我的训练任务的pose关键点有5个。

输出6个分支，分别是，

hm，128*128*C，物体的特征图，一个类别一个channel，包含C个channel。
reg，128*128*2，物体中心点的偏移，包含x,y两个偏移量，因此是2个channel。
wh，128*128*2，物体的大小，也就是宽，高，因此也是2个channel。
hps，128*128*k*2，基于回归的思想Coordinate，物体的关键点基于中心点的偏移，输出k*2个通道，k表示关键点的数目，2表示x,y两个偏移。
hm_hp，128*128*k，基于Heatmap分割的思想，得到的物体关键点的特征图，输出k个通道，一个点一个通道。
hp_offset，128*128*2，K个关键点的偏移，所有这些关键点采用同样的偏移量，x,y两个指标，输出2个通道。

关键点回归的Ground Truth 的构建问题，主要有两种思路， Coordinate 和 Heatmap，Coordinate 即直接将关键点坐标作为最后网络需要回归的目标，这种情况下可以直接得到每个坐标点的直接位置信息； Heatmap 即将每一类坐标用一个概率图来表示，对图片中的每个像素位置都给一个概率，表示该点属于对应类别关键点的概率，比较自然的是，距离关键点位置越近的像素点的概率越接近 1，距离关键点越远的像素点的概率越接近 0，具体可以通过相应函数进行模拟，如Gaussian 等。

Coordinate 的优点是参数量少，缺点是效果较差，容易训练学习。

Heatmap 的优点是容易训练，准确性高，缺点是参数量大，随着要检测的点的个数呈爆炸性增长。

实际使用的时候，基于回归预测的点的坐标（4），肯定是没有基于分割思路预测的点的坐标（5）准确。所以，实际使用的时候，使用一个物体框内部，离得回归的点最近的分割的点作为最终预测的点。

We then assign each regressed location lj to its closest detected keypoint arg minl2Lj (l - lj)2 considering only joint
detections within the bounding box of the detected object

实验结果：

不同基础网络结构对比，

COCO数据集2d检测结果对比，

KITTI 3d检测结果对比，

COCO pose检测结果对比，

cuda9.0，pytorch0.4.1可能安装错误：

(1)RuntimeError: cuDNN version mismatch: PyTorch was compiled against 7102 but linked against 7301

解决办法：conda install cudnn=7.1.2

(2)skipping 'pycocotools/_mask.c' Cython extension (up-to-date)
building 'pycocotools._mask' extension
x86_64-conda_cos6-linux-gnu-gcc -pthread -Wno-unused-result -Wsign-compare -DNDEBUG -fwrapv -O2 -Wall -Wstrict-prototypes -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -pipe -march=nocona -mtune=haswell -ftree-vectorize -fPIC -fstack-protector-strong -fno-plt -O2 -pipe -fPIC -I/home/jiangxiaolong/Anaconda3/lib/python3.6/site-packages/numpy/core/include -I../common -I/home/jiangxiaolong/Anaconda3/include/python3.6m -c ../common/maskApi.c -o build/temp.linux-x86_64-3.6/../common/maskApi.o -Wno-cpp -Wno-unused-function -std=c99
unable to execute 'x86_64-conda_cos6-linux-gnu-gcc': No such file or directory
error: command 'x86_64-conda_cos6-linux-gnu-gcc' failed with exit status 1
make: *** [all] 错误 1

解决办法：conda install gxx_linux-64

cuda10.0，pytorch1.0.0可能安装错误：

安装pytorch:

pip3 install -U https://download.pytorch.org/whl/cu100/torch-1.0.0-cp36-cp36m-linux_x86_64.whl

安装可变形卷积：

cd src/lib/models/networks
rm -rf DCNv2
git clone https://github.com/CharlesShang/DCNv2.git
cd DCNv2
./make.sh         # build
python3 testcpu.py    # run examples and gradient check on cpu
python3 testcuda.py

自测pytorch0.4.1&torchvision0.2.1，pytorch1.0.0&torchvision0.2.1，pytorch1.4.0&torchvision0.5.0都可以进行训练和测试。

牛刀小试：

官方模型测试：

目标检测

python demo.py ctdet --demo /path/to/image/or/folder/or/video --load_model ../models/ctdet_coco_dla_2x.pth

关键点检测：

python demo.py multi_pose --demo /path/to/image/or/folder/or/video/or/webcam --load_model ../models/multi_pose_dla_3x.pth

官方模型训练：

目标检测：

python main.py ctdet --exp_id coco_dla --arch dla_34  --batch_size 32 --master_batch 15 --lr 1.25e-4  --gpus 3,4 --load_model ../models/ctdet_coco_dla_2x.pth --resume

关键点检测：

python main.py multi_pose --exp_id dla_3x --dataset coco_hp --batch_size 16 --master_batch 2 --lr 5e-4 --load_model ../models/multi_pose_dla_3x.pth --gpus 3,4 --num_workers 2 --num_epochs 320 --lr_step 270,300

自己数据训练目标检测：

比如最近很火的kesci大赛，水下目标检测算法赛（2020年全国水下机器人（湛江）大赛），https://www.kesci.com/home/competition/5e535a612537a0002ca864ac

下载大赛数据集，然后进行xml转化为coco的json格式，

import os
import cv2
import json
import xml.dom.minidom
import xml.etree.ElementTree as ET

data_dir = './train' #根目录文件，其中包含image文件夹和box文件夹（根据自己的情况修改这个路径）

image_file_dir = os.path.join(data_dir, 'image')
xml_file_dir = os.path.join(data_dir, 'box')

annotations_info = {'images': [], 'annotations': [], 'categories': []}

categories_map = {'holothurian': 1, 'echinus': 2, 'scallop': 3, 'starfish': 4}

for key in categories_map:
    categoriy_info = {"id":categories_map[key], "name":key}
    annotations_info['categories'].append(categoriy_info)

file_names = [image_file_name.split('.')[0]
              for image_file_name in os.listdir(image_file_dir)]
ann_id = 1
for i, file_name in enumerate(file_names):

    image_file_name = file_name + '.jpg'
    xml_file_name = file_name + '.xml'
    image_file_path = os.path.join(image_file_dir, image_file_name)
    xml_file_path = os.path.join(xml_file_dir, xml_file_name)

    image_info = dict()
    image = cv2.cvtColor(cv2.imread(image_file_path), cv2.COLOR_BGR2RGB)
    height, width, _ = image.shape
    image_info = {'file_name': image_file_name, 'id': i+1,
                  'height': height, 'width': width}
    annotations_info['images'].append(image_info)

    DOMTree = xml.dom.minidom.parse(xml_file_path)
    collection = DOMTree.documentElement

    names = collection.getElementsByTagName('name')
    names = [name.firstChild.data for name in names]

    xmins = collection.getElementsByTagName('xmin')
    xmins = [xmin.firstChild.data for xmin in xmins]
    ymins = collection.getElementsByTagName('ymin')
    ymins = [ymin.firstChild.data for ymin in ymins]
    xmaxs = collection.getElementsByTagName('xmax')
    xmaxs = [xmax.firstChild.data for xmax in xmaxs]
    ymaxs = collection.getElementsByTagName('ymax')
    ymaxs = [ymax.firstChild.data for ymax in ymaxs]

    object_num = len(names)

    for j in range(object_num):
        if names[j] in categories_map:
            image_id = i + 1
            x1,y1,x2,y2 = int(xmins[j]),int(ymins[j]),int(xmaxs[j]),int(ymaxs[j])
            x1,y1,x2,y2 = x1 - 1,y1 - 1,x2 - 1,y2 - 1

            if x2 == width:
                x2 -= 1
            if y2 == height:
                y2 -= 1

            x,y = x1,y1
            w,h = x2 - x1 + 1,y2 - y1 + 1
            category_id = categories_map[names[j]]
            area = w * h
            annotation_info = {"id": ann_id, "image_id":image_id, "bbox":[x, y, w, h], "category_id": category_id, "area": area,"iscrowd": 0}
            annotations_info['annotations'].append(annotation_info)
            ann_id += 1

with  open('./annotations.json', 'w')  as f:
    json.dump(annotations_info, f, indent=4)

print('---整理后的标注文件---')
print('所有图片的数量：',  len(annotations_info['images']))
print('所有标注的数量：',  len(annotations_info['annotations']))
print('所有类别的数量：',  len(annotations_info['categories']))

程序修改：

src/lib/opts.py

'ctdet': {'default_resolution': [512, 512], 'num_classes': 80

修改为：

'ctdet': {'default_resolution': [512, 512], 'num_classes': 4,

因为这个训练集只有4个类别，

lib/datasets/dataset/coco.py，进行下面的修改，

  def __init__(self, opt, split):
    super(COCO, self).__init__()
    #self.data_dir = os.path.join(opt.data_dir, 'coco')
    #self.img_dir = os.path.join(self.data_dir, '{}2017'.format(split))
    self.data_dir = os.path.join(opt.data_dir, 'kesci')
    self.img_dir = os.path.join(self.data_dir, '{}'.format(split))
    if split == 'test':
      #self.annot_path = os.path.join(
      #    self.data_dir, 'annotations', 
      #    'image_info_test-dev2017.json').format(split)
      self.annot_path = os.path.join(self.data_dir,"annotations/annotations_test.json")
    else:
      if opt.task == 'exdet':
        #self.annot_path = os.path.join(
        #  self.data_dir, 'annotations', 
        #  'instances_extreme_{}2017.json').format(split)
        self.annot_path = os.path.join(self.data_dir,"annotations/annotations_val.json")
      else:
        self.annot_path = os.path.join(self.data_dir,"annotations/annotations_train.json")
        #self.annot_path = os.path.join(
        #  self.data_dir, 'annotations', 
        #  'instances_{}2017.json').format(split)
    self.max_objs = 128
    self.class_name = ['__background__','holothurian', 'echinus', 'scallop' ,'starfish']
    #self.class_name = [
    #  '__background__', 'person', 'bicycle', 'car', 'motorcycle', 'airplane',
    #  'bus', 'train', 'truck', 'boat', 'traffic light', 'fire hydrant',
    #  'stop sign', 'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse',
    #  'sheep', 'cow', 'elephant', 'bear', 'zebra', 'giraffe', 'backpack',
    #  'umbrella', 'handbag', 'tie', 'suitcase', 'frisbee', 'skis',
    #  'snowboard', 'sports ball', 'kite', 'baseball bat', 'baseball glove',
    #  'skateboard', 'surfboard', 'tennis racket', 'bottle', 'wine glass',
    #  'cup', 'fork', 'knife', 'spoon', 'bowl', 'banana', 'apple', 'sandwich',
    #  'orange', 'broccoli', 'carrot', 'hot dog', 'pizza', 'donut', 'cake',
    #  'chair', 'couch', 'potted plant', 'bed', 'dining table', 'toilet', 'tv',
    #  'laptop', 'mouse', 'remote', 'keyboard', 'cell phone', 'microwave',
    #  'oven', 'toaster', 'sink', 'refrigerator', 'book', 'clock', 'vase',
    #  'scissors', 'teddy bear', 'hair drier', 'toothbrush']

然后开始训练，

python main.py ctdet --exp_id coco_dla --arch dla_34  --batch_size 32 --master_batch 15 --lr 1.25e-4  --gpus 3,4 --load_model ../models/ctdet_coco_dla_2x.pth --resume

loss下降还是挺快的，v100 2卡，有30分钟就可以看结果了，

模型保存在，../exp/ctdet/coco_dla/，训练完成后，进行测试，

python demo.py ctdet --demo ../image_kesci --load_model ../exp/ctdet/coco_dla/model_best.pth   --gpus 5

自己数据训练关键点检测：

程序修改，整个程序写的扩展性很差，修改的地方相对比较多，只要是涉及到类别数目的地方，涉及到点的个数的地方，都需要修改，

包括，

src/lib/opts.py

src/lib/datasets/dataset/coco_hp.py

src/lib/datasets/sample/multi_pose.py

src/lib/detectors/multi_pose.py

src/lib/utils/debugger.py

src/lib/utils/post_process.py

src/lib/models/utils.py

总之改完后，哪里有错误，就改哪里，最好定义变量num_classes ，num_keypoints ，实现一改全改。

训练指令，

python main.py multi_pose --arch dla_34 --exp_id dla_3x --dataset coco_hp  --batch_size 16 --master_batch 2 --lr 5e-4 --load_model ../models/multi_pose_dla_3x.pth --gpus 3,4 --num_workers 2 --num_epochs 320 --lr_step 270,300

loss下降还是挺快的，v100 2卡，有30分钟就可以看结果了，

测试效果，

python demo.py multi_pose --arch dla_34   --load_model ../exp/multi_pose/dla_3x/model_best.pth --demo ../image_fish --gpus 5

网络基础结构改进：

使用EfficientNet基础结构替换DLA网络结构，可以实现精度和速度的双重平衡。

总结：

（1）简单，快速，准确。

（2）anchor free领域新的里程碑

（3）一个框架，同时兼顾2d检测，3d检测，姿态估计

（4）实际训练中，对于两个物体中心点重叠的情况，CenterNet无能无力，只能将2个点，也就是2个物体，当作一个物体，一个点来处理。同理，测试的时候，对于两个遮挡的中心点重合的物体，也只能检测出一个中心点。

(5) CenterNet的头部分类分支，会随着类别数目增加而爆炸性增长问题，这块会是一个比较大的参数量。而face++的子弹头检测网络这方面就做的很好。

（6）可变形卷积在移动端的不支持，替代为传统卷积，精度会降低。

（7）CenterNet相比于CornerNet，更像是将左上角点和右下角点的回归修改为，一个中心点和宽高的回归，从而不再需要corner pooling，不需要左上角点和右下角点的配对问题，不再需要后处理的NMS。

CenterNet相比于有anchor的检测框架，本质上都是回归中心点和宽高，这点本质没变。虽然centerNet的下采样率较小，如果部anchor的话，应该布的更多才对。但是，centerNet在时间训练的时候，只有groundtruth位置的中心点才被当成类似anchor的思路处理。这样就大大的减少了anchor的数目，只需要一个anchor就可以，也就从本质上省去了NMS后处理操作。

其实认真一思考，其实本质上，也许就该是CenterNet这样的思想来做。至于为啥没有，也许可能从最开始的机器学习中滑动窗口的过渡，需要延续这样的思想了。人的思想也许很难有如此大跨度的升华。

(8) CenterNet为了使用基于heatmap的关键点替代基于回归的关键点，直接取了离回归的点最近的heatmap的点。如果所训练的点和点直接的距离较大，这样做无所谓。但是如果，训练的点和点之间的距离较小，这样就会使得预测的2个不同的点都使用同一个heatmap的点。所以，如果点点之间距离较小，使用该方法就得慎重。

你可能感兴趣的:(物体检测,姿态估计)

【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
BEV开山之作Lift-Splat-Shot (LSS) 深度详解 shuaishuaideyuzi 3D视觉入门人工智能 python pytorch 3d 计算机视觉
在自动驾驶感知系统中，将多视角图像转换为鸟瞰图（BEV）是一个关键步骤。Lift-Splat-Shot（LSS）是一种高效的视角转换方法，能够将透视视图特征转换为BEV空间，从而实现更准确的3D物体检测。本文将详细解析LSS的工作原理、技术细节及其应用场景。一、LSS概述LSS（Lift-Splat-Shot）是由PhilippHenzler等人于2021年提出的一种用于自动驾驶感知系统的视角转换
NanoDet 深度学习物料自动分类系统 YOLO实战营深度学习分类人工智能数据挖掘 NanoDet
引言随着工业自动化和物料管理的不断发展，物料的自动分类在仓储、物流、生产线等场景中的应用越来越广泛。传统的物料分类方式往往依赖人工操作，效率低下且容易出错，而基于深度学习的自动分类系统能够大大提高工作效率、降低错误率并实现高效管理。在众多深度学习技术中，物体检测算法被广泛应用于自动分类系统。NanoDet作为一款轻量级的目标检测算法，凭借其出色的速度与准确性，成为解决物料自动分类问题的一种理想选择
人体坐姿检测系统开发实战（YOLOv8+PyTorch+可视化） Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
本文将手把手教你构建智能坐姿检测系统，结合目标检测与姿态估计技术，实现不良坐姿的实时识别与预警###一、项目背景与价值现代人每天平均坐姿时间超过8小时，不良坐姿会导致：-脊椎压力增加300%-颈椎病发病率提升45%-腰椎间盘突出风险增加60%本系统通过计算机视觉技术实时监测坐姿状态，对驼背、侧倾、前倾等不良姿势进行智能识别和预警。相较于传统传感器方案，我们的视觉方案具有非接触、低成本、易部署的优势
D-FINE使用pth权重批量推理可视化图片悠悠海风代码调试深度学习人工智能 python 目标检测计算机视觉
关于D-FINE相关的内容可参考下面这篇博客：论文解读：ICLR2025|D-FINE_d-fine:redefineregressiontaskindetrsasfine--CSDN博客文章浏览阅读949次，点赞18次，收藏28次。D-FINE是一款功能强大的实时物体检测器，它将DETRs中的边界框回归任务重新定义为细粒度分布细化（FDR），并引入了全局最优定位自蒸馏（GO-LSD），在不引入额
基于OpenCv的运动物体检测算法 Liu_LongPo 计算机视觉 OpenCv 运动物体检测
基于一个实现的基于OpenCv的运动物体检测算法，可以用于检测行人或者其他运动物体。#include#include#include#includeintmain(intargc,char**argv){//声明IplImage指针IplImage*pFrame=NULL;IplImage*pFrImg=NULL;IplImage*pBkImg=NULL;CvMat*pFrameMat=NULL;
C#图像处理-OpenCVSharp教程(三十五) OpenCVSharp运动物体检测(一) Color Space OpenCVSharp C#OpenCV C#图像处理
本文作者ColorSpace，文章未经作者允许禁止转载！本文将介绍OpenCVSharp运动物体检测(一)代码演示：///图片背景差法检测运动物体MatbgImg=Cv2.ImRead("1.bmp");MatfgImg=Cv2.ImRead("55.bmp");Cv2.ImShow("bg",bgImg);Cv2.ImShow("fg",fgImg);Matgray=newMat();Matgr
一[3.0]、 yolov8 工作原理他人是一面镜子，保持谦虚的态度车道检测研究 YOLO
目录YOLOv8简介什么是YOLOv8？yaml配置文件解析YOLOv8架构图Yolov8有什么新功能？YOLO模型彻底改变了计算机视觉领域。识别物体是计算机视觉中的一项关键任务，可应用于机器人、医学成像、监控系统和自动驾驶汽车等多个领域。YOLO模型的最新版本YOLOv8是一种先进的实时物体检测框架，引起了研究界的关注。在所有流行的物体识别机器学习模型（如FasterR-CNN、SSD和Reti
YOLOv12：以注意力为中心的物体检测发呆小天才O.o 计算机视觉深度学习计算机视觉目标检测 YOLOv12
1.概述实时目标检测已成为许多实际应用的关键，而Ultralytics的YOLO（YouOnlyLookOnce）系列一直是最先进的模型系列，在速度和准确率之间实现了稳健的平衡。注意力机制的低效性阻碍了其在YOLO等高速系统中的应用。YOLOv12旨在通过将注意力机制集成到YOLO框架中来改变这一现状。由于注意力机制效率低下，且计算复杂度高达平方级，内存访问操作效率低下，因此大多数目标检测架构传统
【无人机/平衡车/机器人】详解STM32+MPU6050姿态解算—卡尔曼滤波+四元数法+互补滤波——附3个算法源码
1.卡尔曼滤波卡尔曼滤波是一种线性最优估计方法，用于估计动态系统的状态。在姿态解算中，我们可以使用卡尔曼滤波来融合陀螺仪和加速度计的数据，以获得更稳定的姿态估计。以下是一个简单的卡尔曼滤波器实现：```c#include"kalman.h"voidKalman_Init(Kalman_TypeDef*Kalman){Kalman->P[0][0]=1;Kalman->P[1][1]=1;Kalma
YOLO chp01- speop YOLO
学习YOLO的正确姿势：从入门到"真香"的奇妙之旅YOLO系列模型的硬核表现：YOLOv1最先提出单阶段检测+GridCell机制，在物体检测速度层面实现了质的飞跃YOLOv5在TeslaT4上跑出140FPSYOLOv8的Latency-Accuracy曲线表现卓越YOLO模块化定制；#你的自定义YOLO可能是这样的classMySuperYOLO(nn.Module):def__init__(
使用MATLAB和Simulink来构建一个基于扩展卡尔曼滤波器（EKF）的定位系统 xiaoheshang_123 手把手教你学 MATLAB 专栏 MATLAB 开发项目实例 1000 例专栏 matlab simulink
目录一、准备工作二、步骤详解第一步：创建Simulink模型第二步：定义传感器模型第三步：设计扩展卡尔曼滤波器（EKF）第四步：实现EKF控制器第五步：整合控制系统第六步：设置参考轨迹或姿态第七步：运行仿真并分析结果注意事项结论基于多传感器融合的卡尔曼滤波定位系统仿真可以帮助我们理解如何利用不同类型的传感器数据来提高四翼无人机（Quadcopter）的位置和姿态估计精度。在这个教程中，我们将使用M
实时姿态估计：MediaPipe人体关键点检测实战教程 AIGC应用创新大全 ai
实时姿态估计：MediaPipe人体关键点检测实战教程关键词：实时姿态估计、MediaPipe、人体关键点检测、BlazePose、计算机视觉摘要：本文将带你从0到1掌握MediaPipe人体关键点检测技术。我们会用“给人体贴标记”的生活比喻解释核心概念，通过Python代码实战演示如何在5分钟内实现实时姿态估计，并结合健身动作分析、AR互动等真实场景，帮你理解这项技术的底层逻辑和应用价值。无论你
基于深度学习的IMU解算 SEU-WYL 深度学习dnn 深度学习人工智能 dnn
基于深度学习的惯性测量单元（IMU）解算是一种利用深度学习算法处理和分析IMU数据，以提升姿态估计、运动轨迹跟踪和定位精度的方法。IMU通常由加速度计、陀螺仪和磁力计组成，广泛应用于智能手机、无人机、机器人、虚拟现实（VR）和增强现实（AR）等领域。以下是关于这一领域的系统介绍：1.任务和目标IMU解算的主要任务是从IMU传感器数据中准确估计物体的姿态（姿态角、姿态矩阵或四元数）、速度和位置。具体
COCO-Stuff数据集：基于YOLOv5的多类别目标检测与分割实现 YOLO实战营深度学习YOLO实战项目 YOLO 目标检测人工智能无人机计算机视觉数据挖掘 ui
一、引言随着计算机视觉领域的不断发展，目标检测和语义分割已经成为深度学习中的两个关键任务。COCO-Stuff是一个包含多达172个类别的大型数据集，用于训练和评估计算机视觉算法。与传统的COCO数据集不同，COCO-Stuff不仅包含常见的物体检测任务，还增加了诸如“天空”、“树木”和“路面”等场景理解任务。通过对这个数据集的处理与利用，我们可以构建一个更加丰富的目标检测与语义分割系统。本博客将
深入了解MediaPipe：谷歌开源的跨平台视觉AI框架云探手势识别人工智能 python 手势识别 MediaPipe
在计算机视觉领域，实时性、跨平台支持与开发效率一直是开发者追求的目标。Google推出的开源框架MediaPipe正是为了解决这些问题而生。无论你是从事人脸识别、姿态估计还是手势识别，MediaPipe都能为你提供高效、实时的解决方案。本文将带你全面了解MediaPipe的功能、架构、应用场景及如何快速上手使用。一、什么是MediaPipe？MediaPipe是GoogleResearch推出的一
Python----目标检测（YOLO简介）蹦蹦跳跳真可爱589 目标检测 Python 目标检测 YOLO 目标跟踪人工智能计算机视觉 python
一、YOLO简介[YOLO](YouOnlyLookOnce）是一种流行的物体检测和图像分割模型，由华盛顿大学的约瑟夫-雷德蒙（JosephRedmon）和阿里-法哈迪（AliFarhadi）开发，YOLO于2015年推出，因其高速度和高精确度而迅速受到欢迎。在计算机视觉（ComputerVision）领域，目标检测（ObjectDetection）一直是最为基础且至关重要的研究方向之一。随着深度
使用预训练PoseNet模型在安卓应用中进行人体关键点检测 t0_54program 大数据与人工智能 android 个人开发
在当今的计算机视觉领域，姿态估计是一项关键任务，它旨在检测物体的姿态，也就是物体的方向和位置。其实现原理是通过检测一系列关键点，借此了解物体的主要部分，并估计其当前的方向。基于这些关键点，我们能够以2D或3D形式构建物体的形状。在本篇教程中，我们将利用预训练的PoseNet模型，在安卓应用里检测人体的关键点。一、基础安卓项目为节省时间，我们以TensorFlowLitePoseNet安卓演示项目为
深度学习在计算机视觉中的应用：物体检测技术小鹿嘻嘻深度学习计算机视觉物体检测卷积神经网络 R-CNN变体
背景简介随着机器学习（ML）、深度学习（DL）以及变换器神经网络等技术的快速发展，计算机视觉领域取得了显著进步。深度学习通过利用卷积神经网络（CNN）等模型，使计算机能够从图像中直接提取重要信息，从而在物体检测、场景理解等领域实现了突破性进展。本文将深入探讨深度学习在计算机视觉任务中的应用，并重点分析物体检测技术。深度学习与计算机视觉的结合深度学习（DL）模型具有多个处理层，能够学习和表示数据在不
【仿生系统】qwen的仿生机器人解决方案 DFminer 机器人
收到完整需求后，我将从系统架构设计、算法实现路径、训练方法三个维度为您构建完整的仿生机器人解决方案。以下是分阶段实施方案：一、核心系统架构设计（模块化可进化架构）1.多模态感知引擎-视觉子系统：YOLOv8+SAM组合实现实时物体检测+场景语义分割-听觉子系统：Whisper+SpeakerEmbedding+情感识别三重处理-语言理解：基于LLaMA3的增量式语义解析（IncrementalPa
YOLOv9：实时物体检测的新标杆程栋里
YOLOv9：实时物体检测的新标杆【下载地址】YOLOv9概述-实时物体检测算法YOLOv9概述-实时物体检测算法项目地址:https://gitcode.com/Open-source-documentation-tutorial/24e1b项目介绍YOLOv9是YOLO（YouOnlyLookOnce）系列中的最新成员，专为实时物体检测而设计。YOLO系列以其高效和准确的物体检测能力而闻名，而
Unity+MediaPipe虚拟试衣间技术实现全攻略白木橙花 unity 游戏引擎
引言：数字时尚革命的序章在元宇宙概念席卷全球的今天，虚拟试衣技术正成为连接物理世界与数字孪生的关键桥梁。本文将深入解析基于Unity引擎结合MediaPipe姿态估计框架的虚拟试衣系统实现，涵盖从环境搭建到完整AR试穿界面开发的全流程，最终实现支持实时人体追踪、多服装物理模拟及用户反馈的完整解决方案。一、技术选型与架构设计1.1技术栈组合逻辑Unity3D引擎：跨平台渲染核心，提供物理引擎(Phy
[论文阅读]Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression qian9905 姿态估计论文阅读论文阅读深度学习机器学习
该论文发表于CVPR2021Background背景该论文关注的是的是自底向上的关键点回归人体姿态估计，作者认为回归关键点坐标的特征必须集中注意到关键点周围的区域，才能够精确回归出关键点坐标。因此提出了一种名为解构式关键点回归（DEKR）的方法。这种直接回归坐标的方法超过了以前的关键点热度图检测并组合的方法，并且在COCO和CrowdPose两个数据集上达到了目前自底向上姿态检测的最好结果上图作者
基于亚博K210开发板——物体检测测试追兮兮 K210 K210
开发板亚博K210开发板实验目的本次测试主要学习K210如何物体检测，然后通过LCD显示屏实时框出检测物体然后以不同颜色标记名称。实验元件OV2640摄像头/OV9655摄像头/GC2145摄像头、LCD显示屏硬件连接K210开发板出厂默认已经安装好摄像头和显示器，只需要使用Type-C数据线连接K210开发板与电脑即可。实验原理KendryteK210具备机器视觉能力，是零门槛机器视觉嵌入式解决
英伟达最新发布！超越其它所有SOTA的3D目标检测 3Ｄ视觉工坊 3D视觉从入门到精通 3d 目标检测人工智能计算机视觉
作者：王林|来源：3DCV在公众号「3DCV」后台，回复「原论文」可获取论文pdf添加微信：dddvision，备注：自动驾驶，拉你入群。文末附行业细分群1、导读现有的3D物体检测方法通常需要使用完全注释的数据进行训练，而使用预训练的语义特征可以带来一些优势。然而，目前还没有利用扩散特征进行3D感知任务的研究。因此，我们提出了一种新的框架，通过视图合成任务来增强预训练的2D扩散模型的3D感知能力。
YOLOv5与YOLOv4的区别与优缺点分析 AI天才研究院 AI大模型企业级应用开发实战 AI Agent 应用开发计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv5与YOLOv4的区别与优缺点分析作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming/TextGenWebUILLM1.背景介绍1.1问题的由来在深度学习和计算机视觉领域，物体检测是研究的核心之一。从早期基于全连接层的算法如R-CNN系列到如今流行的轻量级检测器如SSD、FasterR-CNN以及单阶段检测器如YOLO系列，算法一直在追求更高
基于OpenCV 的人体姿态估计欣然～ 3d
这是一个基于OpenCV的人体姿态估计系统，能够从摄像头视频流中实时检测人体关键点，并通过简化算法重建3D姿态，最后在3D空间中进行仿真展示。系统主要包含2D姿态检测、3D姿态重建和3D仿真三个核心模块。模块导入与环境准备python运行importcv2importnumpyasnpimportosimporttimeimportmatplotlib.pyplotaspltfrommpl_too
nlf 2025 部署笔记 AI算法网奇动捕人工智能
目录jit部署测试命令nlf-pipepinenlf-pipeline依赖项：stcnbuf人体分割，没有sam2好framepump库报错：分割算法：stcn.pth相机姿态估计：jit部署测试命令python-c"importtorch;importtorchvision;torch.jit.load('/shared_disk/models/others/nlf/models/nlf_l/n
建筑工地安全智能监测：基于多任务姿态估计与场景理解的联合优化方案燃灯工作室 Ai 深度学习 pytorch 零售神经网络
一、技术原理与数学模型1.1姿态估计基础模型采用OpenPose架构改进方案，定义人体关节点坐标预测公式：P=f(I;θ_p)=[(x_1,y_1,c_1),...,(x_n,y_n,c_n)]其中I为输入图像，θ_p为姿态估计网络参数，c_i为置信度评分1.2场景理解图卷积网络构建场景元素关系图G=(V,E)，节点特征更新公式：h_v^{(l+1)}=σ(W^{(l)}h_v^{(l)}+∑_{
Python与YOLO：自动驾驶中的实时物体检测 Echo_Wish Python！实战！python YOLO 自动驾驶
Python与YOLO：自动驾驶中的实时物体检测引言：从物体检测到智能驾驶说到自动驾驶，很多人脑海中首先想到的可能是智能汽车，它们能够自主地行驶，无需人类干预。这一切的背后，离不开一项至关重要的技术——实时物体检测。在自动驾驶中，车辆需要通过摄像头、雷达等传感器获取周围环境的数据，而如何从这些庞大的数据中快速、准确地识别出行人、车辆、障碍物等是至关重要的。这里，我们将聚焦于如何利用**Python
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1