湘粤Ian

SSD 超详细入门（代码+原文）

文章目录

前言
背景及总览
- 1.SSD：惊人的速度
- 2. Faster RCNN（Two stage）VS SSD（One-stage）
- 3.SSD的改进及效果：
一、网络架构组成
- 1.1 组成
- 1.2 预测
- 1.3 Multilayer
- 1.4 架构代码
- 1.5 各层输出
二、SSD的创新细节
- 2.1 Multi-scale feature maps for detection（多尺度特征图用于检测）
- 2.2 MultiBox
- - 概念
  - 组成
  - 输出
  - ❓为什么要有不同的横纵比？
  - Anchor 计算
  - - Anchor box number
    - Anchor size
  - MultiBoxLayer代码
  - Default box代码
- 2.3 Dilation
三、SSD的训练
- 3.1 Loss function及代码
- - ❓为什么要用SmoothL1Loss？
  - Smooth1Loss代码
- 3.2 先验框匹配
- 3.3 Hard negative mining（硬负挖掘）
- - ❓为什么需要保留负样本？
- 3.3 Data augmentation（数据增强）
四、结果
4.1 Inference time（推测时间）
- NMS（非极大值抑制）
- 4.2 mAP及速度表现
五、总结

前言

代码地址：Github：amdegroot/ssd.pytorch

我在入门学习计算机视觉的适合，看一些经典的论文原文比较吃力。于是通过看各种参考文献及查阅各路资料，入门的角度写了一些博客，希望能够和大家一起进步。
如果你对同为one-stage算法的YOLO比较感兴趣，可以参考：

《YOLO 超详细入门（含开源代码）——网络结构、细节、目标损失函数、优点》

笔者在阅读《SSD: Single Shot MultiBox Detector》原文后，根据自身理解及查阅资料，以入门角度尽可能想要还原论文细节，水平有限，欢迎交流。

背景及总览

1.SSD：惊人的速度

SSD: Single Shot MultiBox Detector(by C. Szegedy et al.) 的论文于 2016 年 11 月下旬发布，在目标检测任务的性能和精度方面创下新纪录，得分超过 74% mAP（平均平均精度） ) 在PascalVOC和COCO等标准数据集上以每秒 59 帧的速度运行。

若对指标评价有一些问题，可参考：《目标检测基础（TP，recall，PR曲线，mAP，NMS）》

SSD 专为实时目标检测（Real-Time）而设计。Faster R-CNN 使用区域提议网络（Region Proposal Network）来创建边界框并利用这些框对对象进行分类。

若想了解Faster RCNN，可参考《Faster RCNN超详细入门 02网络细节与训练方法（anchors，RPN，bbox,bounding box，Region proposal layer……）》

2. Faster RCNN（Two stage）VS SSD（One-stage）

虽然Faster RCNN（two-stage）被认为是当时最先进且准确性最高的网络，但整个过程以每秒 7 帧的速度运行，这个速度远低于实时处理的需求（我们的视频每秒都至少有24帧）。one-stage（SSD）训练方法准确度不如two-stage(Faster RCNN)，且训练不均衡，但速度较快。

3.SSD的改进及效果：

SSD 通过消除对区域提议网络（Region Proposal Network）来加速运行速度。而这导致了部分精度的下降。为了提高精度，SSD 采用了一些方法进行改进，包括多尺度特征（multi-scale features）和默认框（default boxes）。这些改进使得SSD 能够仅仅使用较低分辨率的图像，也能达到足以媲美 Faster R-CNN 的准确度，而这进一步推高了速度。根据下面的比较，我们可以看到SSD具有实时处理的能力及速度，而且在准确率方面，甚至超过了 Faster R-CNN 。（准确率指标为mean average mAP：即预测的精度。）

一、网络架构组成

1.1 组成

SSD目标检测分为两个部分：

提取feature map。
应用conv layers来检测目标。

SSD架构首先会先经过VGG16的神经网路, 接着加上一层layer norm 与一些convolution 来帮助加深网路,但舍弃了全连接层，添加了辅助卷积层（从conv6开始），从而能够从多个尺度上提取特征并逐渐减小每个后续层的输入大小，即放缩尺寸。（因为VGG-16在高质量图像分类任务中的强大性能以及它能够在迁移学习中改善结果，所以被经常用作基础网络。）

1.2 预测

SSD 使用VGG16提取特征图，然后用Conv4_3层检测目标。为了说明，我们将 Conv4_3 在空间上绘制为 8 × 8（原本是 38 × 38）。对于每个单元格grid，它预测了4个目标对象。

每个预测目标由一个bounding box（边界框）和每个类的 21 个分数组成（20个类 + 1个null即没有类或者说为背景类，共21个分数），我们选择最高分数所在类作为有界对象的类。Conv4_3 总共进行 38 × 38 × 4 次预测：38 x 38 个单元格，无论特征图的深度，每个单元格都要进行 4 次预测。因为许多预测不包含任何目标对象，所以 SSD 保留了一个“0”类，表示它没有对象。

1.3 Multilayer

最后要进行输出时, 我们并不会只取最后的输出, 而是会将在几层卷积层的输出合并起来, 一起来输出, 这样越前面的卷积层对小目标的信息掌握度也越高, 越后面的卷积层也可以掌握大目标的信息, 相当于做了一次特征融合。 YOLOv2中为了解决对小目标的检测效果不佳的问题，采取了类似的方法，图片如下：

YOLOv2将 26 × 26 × 512 层使用按行列隔行采样的方法，抽取 2x2 的局部区域，然后将其转化为 channel 维度，便可以巧妙地reshape为 13 × 13 × 2048。然后与原始的 13 × 13 ×1024 输出层连接。现在我们在新的 13 × 13 × 3072 层上应用卷积滤波器来进行预测，相当于做了一次特征融合，有利于检测小的目标。
而SSD是分别将 l2norm, conv7, conv8_2, conv9_2, conv10_2, conv11_2 的输出一起收集起来输入到multilayer当中。

1.4 架构代码

class SSD300(nn.Module):
    input_size = 300

    def __init__(self):
        super(SSD300, self).__init__()
        
        # model
        self.base = self.VGG16()
        self.norm4 = L2Norm(512, 20) # 38

        self.conv5_1 = nn.Conv2d(512, 512, kernel_size=3, padding=1, dilation=1)
        self.conv5_2 = nn.Conv2d(512, 512, kernel_size=3, padding=1, dilation=1)
        self.conv5_3 = nn.Conv2d(512, 512, kernel_size=3, padding=1, dilation=1)

        self.conv6 = nn.Conv2d(512, 1024, kernel_size=3, padding=6, dilation=6)

        self.conv7 = nn.Conv2d(1024, 1024, kernel_size=1) 

        self.conv8_1 = nn.Conv2d(1024, 256, kernel_size=1)
        self.conv8_2 = nn.Conv2d(256, 512, kernel_size=3, padding=1, stride=2)

        self.conv9_1 = nn.Conv2d(512, 128, kernel_size=1)
        self.conv9_2 = nn.Conv2d(128, 256, kernel_size=3, padding=1, stride=2)

        self.conv10_1 = nn.Conv2d(256, 128, kernel_size=1)
        self.conv10_2 = nn.Conv2d(128, 256, kernel_size=3)

        self.conv11_1 = nn.Conv2d(256, 128, kernel_size=1)
        self.conv11_2 = nn.Conv2d(128, 256, kernel_size=3)

        # multibox layer（第二章节会讲）
        self.multibox = MultiBoxLayer()

    def forward(self, x):
        hs = []

        h = self.base(x)
        hs.append(self.norm4(h))  # conv4_3
        h = F.max_pool2d(h, kernel_size=2, stride=2, ceil_mode=True)

        h = F.relu(self.conv5_1(h))
        h = F.relu(self.conv5_2(h))
        h = F.relu(self.conv5_3(h))
        h = F.max_pool2d(h, kernel_size=3, padding=1, stride=1, ceil_mode=True)
        
        h = F.relu(self.conv6(h))
        h = F.relu(self.conv7(h))
        hs.append(h)  # conv7
        h = F.relu(self.conv8_1(h))
        h = F.relu(self.conv8_2(h))
        hs.append(h)  # conv8_2
        h = F.relu(self.conv9_1(h))
        h = F.relu(self.conv9_2(h))
        hs.append(h)  # conv9_2
        h = F.relu(self.conv10_1(h))
        h = F.relu(self.conv10_2(h))
        hs.append(h)  # conv10_2
        h = F.relu(self.conv11_1(h))
        h = F.relu(self.conv11_2(h))
        hs.append(h)  # conv11_2
        loc_preds, conf_preds = self.multibox(hs)
 
        return loc_preds, conf_preds

（其中涉及的mutibox我们接下来会讲）我们可以看到在inference的时候有一个 hs 的list, 会将所有的output收集起来并且一起输入到multibox取得location prediction, confidence prediction。

1.5 各层输出

为了进行更准确的检测，不同层的特征图也通过一个小的 3×3 卷积进行目标检测，如上所示。

例如，在 Conv4_3，它的大小为 38×38×512。应用了 3×3 转换。并且有4 个边界框，每个边界框都有 (classes + 4) 个输出。因此，在 Conv4_3 处，输出为 38×38×4×( c +4)。假设有 20 个对象类加上 1 个背景类，输出为 38×38×4×(21+4) = 144,400。就边界框的数量而言，有 38×38×4 = 5776 个边界框。
Conv7：19×19×6 = 2166 个框（每个位置 6 个框）
Conv8_2：10×10×6 = 600 个框（每个位置 6 个框）
Conv9_2：5×5×6 = 150 个框（每个位置 6 个框）
Conv10_2：3×3×4 = 36 个框（每个位置 4 个框）
Conv11_2：1×1×4 = 4 个框（每个位置 4 个框）

总输出： 5776 + 2166 + 600 + 150 + 36 +4 = 8732

YOLO最后为 7×7个位置，每个位置有 2 个边界框，因此YOLO 只得到了 7×7×2 = 98 个box。而SSD 有 8732 个边界框，比 YOLO 的多得多。

二、SSD的创新细节

2.1 Multi-scale feature maps for detection（多尺度特征图用于检测）

SSD使用多层（多尺度特征图）来独立检测目标。我们知道 CNN 可以逐渐降低空间的维度，特征图的分辨率也随之降低。SSD 使用较低分辨率的层（即比较小的层）来检测大规模的目标；使用较高分辨率的层（即比较大的层）来检测小规模的目标。例如，8 x 8 特征图用于检测小目标，4 × 4 特征图用于检测大目标。

SSD 在 VGG16 之后又增加了 6 个辅助卷积层。其中五个将被添加用于对象检测。在其中的三个层中，我们进行了 6 个预测而不是 4 个。SSD 总共使用 6 个层进行了 8732 个预测。

不出所料，多尺度特征图显著提高了准确度。上图是用于目标检测的，不同数量的特征图层的精度。

2.2 MultiBox

概念

MultiBox是一种快速的边界框坐标预测方法，且与类别无关。在 MultiBox 中使用了 Inception风格的卷积网络。

其中 1x1 卷积有助于降维，因为维数会减少（但“宽度”和“高度”将保持不变）。

SSD：用于定位 (loc) 和置信度 (conf) 的多个边界框 与Faster RCNN中得anchors类似，每个单元设置尺度或者长宽比不同的default boxes，预测的边界框（bounding box）是以这些先验框为基准的，在一定程度上减少训练难度。一般情况下，每个单元会设置多个default boxes，其尺度和长宽比存在差异，如上图所示，可以看到每个单元使用了4个不同的default boxes，图片中猫和狗分别采用最适合它们形状的先验框来进行训练。

组成

每个单元grid得每个先验框default box，其都输出一套独立的检测值，对于一个bouding box，主要分为两个部分：

各类别的置信度或者评分
- 21 个分数（20个类 + 1个null即背景类，共21个分数），我们选择最高分数所在类作为有界对象的类。Conv4_3 总共进行 38 × 38 × 4 次预测：38 x 38 个单元格，无论特征图的深度，每个单元格都要进行 4 次预测。因为许多预测不包含任何目标对象，所以 SSD 保留了一个“0”类，表示它没有对象。
- 在预测过程中，置信度最高的那个类别就是边界框所属的类别。特别的，当第一个置信度最高时，表示边界框中并不包含目标。
边界框的location
- 组成： $c_{x},c_{y},w,h)$ ， $c_{x},c_{y})$ 表示边界框的中心坐标, $(w, h)$ 表示宽高。但是真实预测其实只是预测边界框相对于anchor先验框的偏差值（offset）。此处和Faster RCNN一致。

建议参考《Faster RCNN超详细入门 02网络细节与训练方法（anchors，RPN，bbox,bounding box，Region proposal layer……）》

输出

在经过一定的卷积进行特征提取后，我们得到一个大小为m × n（位置数）的特征层，具有p个通道，例如上面的 8×8 或 4×4。并且在这个m × n × p特征层上应用了一个 3×3 的卷积。
对于每个位置，我们有k个边界框。这 k 个边界框具有不同的大小和纵横比。
对于每个边界框，我们将计算C类分数和相对于原始默认边界框形状的 4 个偏移量。
因此，我们得到了( c +4) kmn 个输出。

❓为什么要有不同的横纵比？

早期训练中，对人和车预测的bounding box形状可能都是竖直的。对人也许应该这样预测，因为行人的横纵比为0.41，但汽车显然需要水平的bounding box来预测。我们只需要一个猜测是正确，只要有一个猜测能找到物体就行，因此如果从生活中常见的猜测开始，那么初始训练就会更加地稳定。（比如预测一个横的，一个纵的）

Confidence Loss（置信度损失）：衡量网络对计算出的边界框的客观性的置信度。分类交叉熵用于计算这种损失。
Location Loss（位置损失）：这衡量了网络的预测边界框与训练集的真实边界框的距离。这里使用L2-Norm 。

Anchor 计算

Anchor box number

每一层的feature maps 有不同数量的anchor，而总共有三个形状, 一个是正方形, 其最小边框的size是 $min\_size$ , 最大边框是 $\sqrt{(min\_size *max\_size)}$ 。长宽比有2，3，因此两个正方形跟四个长方形, 一共六种形状如上图。
每层anchor number的参数配置[4,6,6,6,4,4], 4代表只有正方形加上长宽比为2的长方形, 共四种, 6代表全部形状的anchor box。

而每一层的layer width, layer height 乘以anchor number, 我们就能得出所有的anchor box。每层的feature maps 长宽为{38, 19, 10, 5, 3, 1}。
所以共有：38 × 38 × 4 + 19 × 19 × 6 + 10 × 10 × 6 + 5 × 5 × 6 + 3 × 3 × 4 + 1 × 1 × 4 = 8732个anchor boxes。

Anchor size

论文当中，假设 $S_{min} = 0.2, S_{max} = 0.9$ ，初始的default box scale为0.1。
$s_{1} = 0.2 +\frac {(0.9 - 0.2)} {(5–1)} * (1–1) = 0.2$
$s_{2} = 0.2 + \frac {(0.9 - 0.2)} {(5–1)} * (2–1) = 0.375$ (四舍五入至0.37)
$s_{3} = 0.2 + \frac{(0.9 - 0.2)} {(5–1)} * (3–1) = 0.55$ (由于在计算上几乎都是直接0.37+0.17 = 0.54, 故我们直接使用0.54)。
……
$min\_size = 300 * 0.1 = 30$ （初始的default box scale为0.1）
$min\_size = 300 * s1= 60$
$min\_size = 300 * s2=111$
……

layer	min_size	max_size
conv4_3	30	60
fc7	60	111
conv6_2	111	162
conv7_2	162	213
conv8_2	213	264
conv9_2	264	315

MultiBoxLayer代码

class MultiBoxLayer(nn.Module):
    num_classes = 21
    num_anchors = [4,6,6,6,4,4]
    in_planes = [512,1024,512,256,256,256]

    def __init__(self):
        super(MultiBoxLayer, self).__init__()

        self.loc_layers = nn.ModuleList()
        self.conf_layers = nn.ModuleList()
        for i in range(len(self.in_planes)):
        	self.loc_layers.append(nn.Conv2d(self.in_planes[i], self.num_anchors[i]*4, kernel_size=3, padding=1))
        	self.conf_layers.append(nn.Conv2d(self.in_planes[i], self.num_anchors[i]*21, kernel_size=3, padding=1))

Default box代码

'''Compute default box sizes with scale and aspect transform.'''
        scale = 300.
        steps = [s / scale for s in (8, 16, 32, 64, 100, 300)]
        sizes = [s / scale for s in (30, 60, 111, 162, 213, 264, 315)]
        aspect_ratios = ((2,), (2,3), (2,3), (2,3), (2,), (2,))
        feature_map_sizes = (38, 19, 10, 5, 3, 1)
        # 38×38×4+19×19×6+10×10×6+5×5×6+3×3×4+1×1×4=8732
        num_layers = len(feature_map_sizes)

        boxes = []
        for i in range(num_layers):
            fmsize = feature_map_sizes[i] # feature map size 
            for h,w in itertools.product(range(fmsize), repeat=2): 
                # for each point in feature map  
                cx = (w + 0.5)*steps[i]
                cy = (h + 0.5)*steps[i]

                s = sizes[i]
                boxes.append((cx, cy, s, s))

                s = math.sqrt(sizes[i] * sizes[i+1])
                boxes.append((cx, cy, s, s))

                s = sizes[i]
                for ar in aspect_ratios[i]:
                    boxes.append((cx, cy, s * math.sqrt(ar), s / math.sqrt(ar)))
                    boxes.append((cx, cy, s / math.sqrt(ar), s * math.sqrt(ar)))

        self.default_boxes = torch.Tensor(boxes)

2.3 Dilation

Standard Convolution with a 3 x 3 kernel (and padding)

Dilated Convolution with a 3 x 3 kernel and dilation rate 2

SSD使用 ILSVRC 分类数据集进行了预训练,分别将VGG16的全连接层fc6和fc7转换成 $3\times3$ 卷积层 conv6和 $1\times1$ 卷积层conv7，同时将池化层pool5由原来的stride=2的 $2\times2$ 变成stride=1的 $3\times 3$

普通3 x 3的conv, 所能看到的视野就是 3 x 3 , 但使用dilation 1, 视野可以变为7 * 7。
(a)是普通的 $3\times3$ 卷积，其视野就是 $3\times3$ ，(b)是扩张率为1，此时视野变成 $7\times7$ ,（c)扩张率为3时，视野扩大为 $15\times15$ ，但是视野的特征更稀疏了。Conv6采用 $3\times3$ 大小但dilation rate=6的扩展卷积。
使用如上所示的Dilation卷积可以增加感受野，同时与传统卷积相比保持相对较少的参数数量。
然后移除dropout层和fc8层，并新增一系列卷积层，在检测数据集上做finetuing。
其中VGG16中的Conv4_3层将作为用于检测的第一个特征图。conv4_3层特征图大小是 38\times38 ，但是该层比较靠前，其norm（范数）较大，所以在其后面增加了一个L2 Normalization层，以保证和后面的检测层差异不是很大，这个和Batch Normalization层不太一样，其仅仅是对每个像素点在channle维度做归一化，而Batch Normalization层是在[batch_size, width, height]三个维度上做归一化。 归一化后一般设置一个可训练的放缩变量gamma。

若需详细了解Dilation可参考《如何理解空洞卷积（dilated convolution）？》

三、SSD的训练

3.1 Loss function及代码

SSD的output分两类, 分别是判断类别的classification, 与为了增加box准确度的location offset,。输出分别为21和4。 21代表类别总共有21种（20种目标类别+1种背景类别）, 而4代表 $x, y, w, h$ 的偏移量（offset）。

有关loc的loss, 使用的是SmoothL1Loss, 这个loss function我们并不陌生, 在fasterRCNN也可以看到。

❓为什么要用SmoothL1Loss？

根据fast rcnn的说法，“… L1 loss that is less sensitive to outliers than the L2 loss used in R-CNN and SPPnet.” 也就是smooth L1 loss让loss对于离群点更加鲁棒，即：相比于L2损失函数，其对离群点、异常值（outlier）不敏感，梯度变化相对更小，训练时不容易跑飞。
*注意：smooth L1和L1-loss函数的区别在于，L1-loss在0点处导数不唯一，可能影响收敛。smooth L1的解决办法是在0点附近使用平方函数使得它更加平滑。

若需详细了解Smooth1Loss可参考《损失函数：L1 loss, L2 loss, smooth L1 loss》

Smooth1Loss代码

		# loc_loss = SmoothL1Loss(pos_loc_preds, pos_loc_targets)
        
        pos_mask = pos.unsqueeze(2).expand_as(loc_preds)    
        pos_loc_preds = loc_preds[pos_mask].view(-1,4)    
        pos_loc_targets = loc_targets[pos_mask].view(-1,4) 
        loc_loss = F.smooth_l1_loss(pos_loc_preds, pos_loc_targets, size_average=False)

        
        # conf_loss = CrossEntropyLoss(pos_conf_preds, pos_conf_targets)
        + CrossEntropyLoss(neg_conf_preds, neg_conf_targets)
        
        conf_loss = F.cross_entropy(conf_preds.view(-1,self.num_classes), \
                                            conf_targets.view(-1), reduce=False)  # [N*8732,]

3.2 先验框匹配

在训练过程中，首先要确定训练图片中的ground truth（真实目标）与哪个先验框来进行匹配，与之匹配的先验框所对应的边界框将负责预测它。
Yolo中，ground truth的中心落在哪个单元格，该单元格中与其IOU最大的边界框负责预测它。
SSD中，先验框与ground truth的匹配原则有两点：
1、每个ground truth找到与其IOU最大的先验框，互相匹配。该先验框称为正样本（先验框对应的预测box）
若有个先验框没有与ground truth匹配，就只能与背景匹配，就是负样本。（一个图片中ground truth少，但先验框多，这样匹配，很多先验框会是负样本，正负样本不均衡）。
2、对剩余未匹配先验框，若某个ground truth的IOU大于某个阈值（一般是0.5），那么该先验框也与这个ground truth进行匹配。
这样ground truth可能与多个先验框匹配。

3.3 Hard negative mining（硬负挖掘）

在训练过程中，由于大多数边界框的 IoU 较低，因此被解释为负训练示例，我们最终可能会在训练集中得到不成比例的负示例。因此，不要使用所有负面预测，而是将负面与正面示例的比例保持在 3:1 左右。 具体做法：先将每一个物体位置上对应 predictions（default boxes）是 negative 的 boxes 进行排序。按照 default boxes 的 confidence 的大小，选择最高的几个。 保证最后 negatives、positives 的比例接近3:1。这可以使模型具有更快的优化和更稳定的训练效果。

❓为什么需要保留负样本？

需要保留负样本的原因是因为网络还需要学习并被明确告知什么构成了错误的检测。

3.3 Data augmentation（数据增强）

主要采用的技术有水平翻转（horizontal flip），随机裁剪加颜色扭曲（random crop & color distortion），随机采集块域（Randomly sample a patch）（获取小目标训练样本），如上图所示。
为了处理各种目标大小和形状的变体，每个训练图像都通过以下选项之一随机采样：

使用原本的图像，
对 IoU 为 0.1、0.3、0.5、0.7 或 0.9 的patch进行采样，
随机采样一个patch。

采样的patch将具有 1/2 和 2 之间的纵横比。然后将其调整为固定大小，再翻转一半的训练数据。

此外，我们可以应用照片失真。
以下是数据增强后的性能提升：

四、结果

4.1 Inference time（推测时间）

NMS（非极大值抑制）

改进后的SSD使用较低分辨率图像也可以获得类似的精度

与许多其他检测方法相比，SSD 做出了许多预测 (output = 8732)，以更好地覆盖位置、比例和纵横比。然而，许多预测不包含任何对象。因此，任何类别置信度分数低于 0.01 的预测都将被消除。

SSD 使用非极大值抑制来删除指向同一目标对象的重复预测。SSD 按置信度分数对预测进行排序。从最高置信度预测开始，SSD 评估任何先前预测的边界框与当前预测的同一类的 IoU 是否高于 0.45。如果找到，当前预测将被忽略。我们最多保留每张图像的前 200 个预测。

4.2 mAP及速度表现

SSD模型使用 SGD 进行训练，initial learning rate（初始学习率）为 0.001，momentum(动量)为 0.9，weight decay（权重衰减）为 0.0005，batch size(批量大小)为 32。在 VOC2007 测试中使用 Nvidia Titan X，SSD 在 VOC2007 测试中达到 59 FPS，mAP 为 74.3%，vs . Faster R-CNN 7 FPS with mAP 73.2% or YOLO 45 FPS with mAP 63.4%。

ps:对于 SSD，它使用 300 × 300 或 512 × 512 的图像大小。

不同方法的准确度比较

每秒帧数的速度性能

五、总结

对于小物体，SSD 的性能比 Faster R-CNN 差。在 SSD 中，只能在更高分辨率的层（最左边的层）中检测到小物体。但这些层包含低级特征，如边缘或色块，分类信息较少。
精度随着先验边界框（default anchors）的数量增加而增加，但以速度为牺牲代价。
SSD 与 R-CNN 相比具有较低的定位误差，但在处理相似类别时的分类误差更大。较高的分类错误可能是因为我们使用相同的边界框进行多类预测。
SSD 是单阶段检测器（one-stage）。它没有Faster RCNN的区域提议网络（Region Proposal Network），并且直接从特征图一次性得到预测边界框和类。
为了提高准确性，SSD引入了：
- 用于预测目标类别和先验边界框的偏移量的小型卷积滤波器。
- 先验框的单独过滤器以处理纵横比的差异。
- 用于目标检测的多尺度特征图。
SSD 可以进行端到端的训练以获得更好的准确性。SSD 可以做出更多的预测，并在位置、规模和纵横比方面具有更好的覆盖范围。通过上述改进，SSD 可以将输入图像分辨率降低到 300 × 300，并具有相当的精度性能。通过移除区域提议网络并使用较低分辨率的图像，该模型可以以实时速度（Real-Time）运行，同时在准确性方面仍然优于最先进的 Faster R-CNN。

【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
【目标检测数据集】番茄叶片病害数据集13940张9类VOC+YOLO格式熬夜写代码的平头哥∰ 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：13946标注数量(xml文件个数)：13946标注数量(txt文件个数)：13946标注类别数：9标注类别名称:["EarlyBlight","Healthy","LateBlight","LeafMiner","Le
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2757标注数量(xml文件个数)：2757标注数量(txt文件个数)：2757标注类别数：4标注类别名称:["Platelets","RBC","WBC","sicklecell"]每个类别标注的框数：Platelet
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】工业相机格图素书数码相机目标检测人工智能
目录知识储备深度相机1TOF2双目视觉3结构光4智能门锁应用5手机应用算法原理相机的成像与标定模型相机标定的实施·标定过程的算法实施相机标定的扩展CCD工业相机、镜头倍率及相关参数计算方法知识储备深度相机1TOF1.1Kinectv2Kinectv2是Microsoft在2014年发售的，如图1-1所示。相比于Kinectv1在硬件和软件上作出了很大的进化，且在深度测量的系统和非系统误差方面表现出
计算机视觉——第三章图像拼接 JMU15980999055 python 计算机视觉人工智能
计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接3.1图片集说明3.2实验代码3.3实验结果及其分析总结1.图像全景拼接的原理和过程的简要介绍在同一位置拍摄的两幅或者多幅图片是单应性相关的，我们经常使用该约束将很多图像缝补起来，拼成一个
计算机视觉学习路线不会代码的小林计算机视觉
计算机视觉学习路线是一个系统而全面的过程，涵盖了从基础知识到高级应用的多个方面。以下是一个详细的计算机视觉学习路线，供您参考：一、基础知识学习编程语言与基础库学习Python语言，掌握基础语法、函数、面向对象编程等概念。Python是计算机视觉领域广泛使用的编程语言，因其简洁易读和丰富的库支持而受到青睐。学习Numpy库，用于科学计算和多维数组操作，这是计算机视觉中数据处理的基础。学习OpenCV
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
ESRGAN——老旧照片、视频帧的修复和增强，提高图像的分辨率爱研究的小牛 AIGC——图像 AIGC—视频 AIGC 人工智能深度学习音视频自动化
ESRGAN（EnhancedSuper-ResolutionGAN）：用于提高图像的分辨率，将低质量图像升级为高分辨率版本，常用于老旧照片、视频帧的修复和增强。一、ESRGAN介绍1.1背景超分辨率问题是计算机视觉中的一个重要研究领域，其目标是通过增加像素数量来提高图像的分辨率，恢复出更加细腻的图像。传统的算法（如双三次插值）通常导致放大后的图像模糊、不自然。而深度学习特别是**生成对抗网络（G
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
【小贪】项目实战——Zero-shot根据文字提示分割出图片目标掩码贪钱算法还我头发 #Deep Learning #Computer Vision AI 目标检测深度学习 python 语义分割 Zero-shot
目标描述给定RGB视频或图片，目标是分割出图像中的指定目标掩码。我们需要复现两个Zero-shot的开源项目，分别为IDEA研究院的GroundingDINO和Facebook的SAM。首先使用目标检测方法GroundingDINO，输入想检测目标的文字提示，可以获得目标的anchorbox。将上一步获得的box信息作为SAM的提示，分割出目标mask。具体效果如下（测试数据来自VolumeDef
探秘3D UNet-PyTorch：高效三维图像分割利器鲍凯印Fox
探秘3DUNet-PyTorch：高效三维图像分割利器在医学影像处理、计算机视觉和自动驾驶等领域，三维图像的理解与分析至关重要。而是一个基于PyTorch实现的深度学习模型，专为三维图像分割任务设计。本文将深入剖析该项目的技术细节，应用场景及特性，以期吸引更多的开发者和研究人员参与其中。项目简介3DUNet是2DUNet的三维扩展，其结构保持了卷积神经网络的对称性，采用跳跃连接的方式保留了不同尺度
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
深度学习计算机视觉中 feature modulation 操作是什么？ Wils0nEdwards 深度学习计算机视觉人工智能
什么是特征调制（FeatureModulation）？在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。特征调制通过动态调整神经网络中间层的特征，使模型能够根据不同的上下文、输入或任务自适应地调整自身的行为。特征调制的核心概念特征调制的基本思想是通过某种形式的参数调节来改变特征表示的性质
计算机视觉中，如何理解自适应和注意力机制的关系？ Wils0nEdwards 计算机视觉人工智能
自适应和注意力机制之间的关系密切相关，注意力机制本质上是一种自适应的计算方法，它能够根据输入数据的不同特点，自主选择和聚焦于输入的某些部分或特征。以下是两者之间的具体关系和如何理解它们：1.注意力机制的自适应特性注意力机制的核心功能是为不同输入元素（如特征、位置、通道等）分配不同的权重。这些权重是通过学习动态生成的，表示模型对不同输入元素的关注程度。由于这些权重是根据具体的输入数据动态计算的，因此
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st