AI之路

YOLO v2的算法细节——以李沐的Gluon代码为例

YOLO算法在object detection领域算是比较有意思的一个分支，2017年CVPR上的YOLO v2对原来的YOLO算法进行了升级，论文本身包含较多的算法细节，可以先参考博客：YOLO9000算法详解，这里借助李沐的深度学习公开课中的代码（通过MXNet框架下的Gluon接口实现）来详细了解YOLO v2算法的细节。
参考链接：https://zh.gluon.ai/chapter_computer-vision/yolo.html

在参考链接中完整地给出了实现YOLO v2算法的代码，主要包括数据读取、模型加载、训练模型、测试模型四个部分，最重要的是模型加载部分的YOLO2Output类、训练模型部分的yolo2_forward函数和yolo2_target函数。接下来按这四个部分依次介绍。

1、数据读取部分的实现代码主要在get_iteratirs函数中，在该函数中主要采用mxnet.image.ImageDetIter接口来读取，需要提前准备好train.rec和val.rec文件，class_names就是object名称的列表。另外这里定义了输入图像的大小是3*256*256，后面的代码都基于这个定义。两个参数的含义：1、min_object_covered (float, default=0.1) – The cropped area of the image must contain at least this fraction of any bounding box supplied. The value of this parameter should be non-negative. In the case of 0, the cropped area does not need to overlap any of the bounding boxes supplied. 2、max_attempts (int, default=50) – Number of attempts at generating a cropped/padded region of the image of the specified constraints. After max_attempts failures, return the original image.

from mxnet import image
from mxnet import nd

data_shape = 256
batch_size = 32
rgb_mean = nd.array([123, 117, 104])
rgb_std = nd.array([58.395, 57.12, 57.375])

def get_iterators(data_shape, batch_size):
    class_names = ['pikachu', 'dummy']
    num_class = len(class_names)
    train_iter = image.ImageDetIter(
        batch_size=batch_size,
        data_shape=(3, data_shape, data_shape),
        path_imgrec=data_dir+'train.rec',
        path_imgidx=data_dir+'train.idx',
        shuffle=True,
        mean=True,
        std=True,
        rand_crop=1,
        min_object_covered=0.95,
        max_attempts=200)
    val_iter = image.ImageDetIter(
        batch_size=batch_size,
        data_shape=(3, data_shape, data_shape),
        path_imgrec=data_dir+'val.rec',
        shuffle=False,
        mean=True,
        std=True)
    return train_iter, val_iter, class_names, num_class

train_data, test_data, class_names, num_class = get_iterators(
    data_shape, batch_size)

2、模型加载部分，先通过mxnet.gluon.model_zoo.vision.get_model接口导入模型，这个用法和PyTorch很像。在导入的时候注意到最后的.features，这个features是ResNetV1类的初始化函数中的变量，通过mxnet.gluon.nn.HybridSequential接口初始化，mxnet.gluon.nn.HybridSequential是mxnet.gluon.nn.Sequential的特例，mxnet.gluon.nn.Sequential将添加进来的层按先后顺序执行。这里通过HybridSequential类的add方法添加层（更抽象点就是层或者网络都是通过block实现的），最后包含网络除最后的全连接层以外的所有层。也就是说net存放pretrained这个网络中除了最后两层的网络结构，是用来构造主网络的，所以net是包含7*7卷积加3个block（pretrained中包含7*7卷积加4个block加pooling层），net最后一层输出feature map大小就变成256/16=16。scales变量用来存放anchor的尺寸信息，是一个二维列表，每一行表示一个anchor，第一列表示width，第二列表示height。这个scales里面的值根据主网络最后一层的输出feature map大小来定，比如这个net最后一层输出是16*16，那么这里的scale里面的值是3或者9这样大小是比较正常的。YOLO2Output这个类用来构造预测层，最后的net.add(predictor)就完成了主网络和预测层的连接，后面会详细介绍YOLO2Output类。predictor.initialize()是调用了mxnet.gluon.Block类（YOLO2Output类是基于HybridBlock类实现的，HybridBlock的底层是通过Block基类实现的）的initialize方法，是用来初始化网络参数的，这一步是必须的，否则构造的网络结构没有参数就跑前向会报错。initialize方法的两个主要参数是初始化方式（一般默认即可）和ctx（也就是指定的cpu或gpu，比如ctx=[mx.gpu(0),mx.gpu(1)]）。另外initialize方法和block.collect_params().initialize()结果一样，block类的collect_params()方法是block中比较常用的，返回的是block及其children的参数，官网中有个关于collect_params()的例子：假如你要用dense0层的参数初始化dense1层，可以这样实现：dense0 = nn.Dense(20)；dense1 = nn.Dense(20, params=dense0.collect_params())。至于net为什么没有运行initialize方法，是因为在得到pretrained的时候设置了pretrained=True，也就是用了预训练模型进行参数初始化了。

from mxnet.gluon.model_zoo import vision
pretrained = vision.get_model('resnet18_v1', pretrained=True).features
net = nn.HybridSequential()
for i in range(len(pretrained) - 2):
    net.add(pretrained[i])

# anchor scales, try adjust it yourself
scales = [[3.3004, 3.59034],
          [9.84923, 8.23783]]

# use 2 classes, 1 as dummy class, otherwise softmax won't work
predictor = YOLO2Output(2, scales)
predictor.initialize()
net.add(predictor)

YOLO2Output类用来构造预测层，代码如下。几个assert语句用来确保输入数据的格式符合要求，比较重要的一个是out_channels = len(anchor_scales) * (num_class + 1 + 4)，首先len(anchor_scales)表示anchor的数量， (num_class + 1 + 4)中的num_class标object的数量，1表示score，4表示框的中心点坐标和宽高信息。self.output = nn.Conv2D(out_channels, 1, 1)这一行点明了用1*1的卷积来完成预测层。

class YOLO2Output(HybridBlock):
    def __init__(self, num_class, anchor_scales, **kwargs):
        super(YOLO2Output, self).__init__(**kwargs)
        assert num_class > 0, "number of classes should > 0, given {}".format(num_class)
        self._num_class = num_class
        assert isinstance(anchor_scales, (list, tuple)), "list or tuple of anchor scales required"
        assert len(anchor_scales) > 0, "at least one anchor scale required"
        for anchor in anchor_scales:
            assert len(anchor) == 2, "expected each anchor scale to be (width, height), provided {}".format(anchor)
        self._anchor_scales = anchor_scales
        out_channels = len(anchor_scales) * (num_class + 1 + 4)
        with self.name_scope():
            self.output = nn.Conv2D(out_channels, 1, 1)

    def hybrid_forward(self, F, x, *args):
        return self.output(x)

3、训练代码部分。首先通过gluon.Trainer接口初始化一个训练器，然后是训练的循环（例子中是20个epoch），循环的一开始先将几个损失函数的值重置。 for i, batch in enumerate(train_data)每次循环都读取一个batch的数据。x = net(x)是数据从输入到输出预测结果，比如当anchor数量为2、输入图像大小为256*256，batch size为32时，该行代码的输入是32*3*256*256，输出是32*14*16*16，其中14是2*(2+1+4)，括号中的三个值分别表示类别数、score和坐标信息。output, cls_pred, score, xywh = yolo2_forward(x, 2, scales)一行调用yolo2_forward函数将net输出结果进行处理，后面会详细介绍这个函数。tid, tscore, tbox, sample_weight = yolo2_target(score, xywh, y, scales, thresh=0.5)一行是调用yolo2_target函数得到模型训练目标相关的信息，后面会详细介绍该函数。 loss1 = sce_loss(cls_pred, tid, sample_weight * class_weight)一行是计算分类的损失，输入的cls_pred表示每个box的每个类别的预测概率，tid表示和真实框的IOU最大的box的标签，sample_weight是只有和真实框的IOU最大的box为1，其余为0，可以看出在YOLO算法中每个object都是由这个object的中心所在的grid cell中的一个box来预测的。score_weight是计算正负样本在回传损失时候的权重，这里nd.where函数的第一个输入矩阵的一些位置的数值满足不等式，那么对应位置的数值就用第二个输入来替代，相反就用第三个输入来替代，最后得到的这个score_weight，除了和真实框的IOU最大的box的权重是positive_weight以外，其他都是negative_weight。 loss2 = l1_loss(score, tscore, score_weight)一行是计算score的损失，这个score也就是我们常见的显示在框上的置信度，范围是0到1的小数。loss3 = l1_loss(xywh, tbox, sample_weight * box_weight)一行是计算box回归的损失，这里sample_weight*box_weight也是只回传和真实框的IOU最大的box的损失，而乘以box_weight是为了增加loss3在中loss中的权重。最后回传的loss是这3个loss的和。trainer.step(batch_size)是更新网络参数，之所以要输入batch_size，是因为梯度要归一化成1/batch_size。cls_loss.update(loss1)是更新loss数值，obj_loss和box_loss同理，这里的3个值都只是为了打印在显示界面上，和回传的损失没关系。整体流程是这样的，接下来详细介绍各函数。

from mxnet import init
from mxnet import gpu

positive_weight = 5.0
negative_weight = 0.1
class_weight = 1.0
box_weight = 5.0

ctx = gpu(0)
net.collect_params().reset_ctx(ctx)
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 1, 'wd': 5e-4})



import time
from mxnet import autograd
for epoch in range(20):
    # reset data iterators and metrics
    train_data.reset()
    cls_loss.reset()
    obj_loss.reset()
    box_loss.reset()
    tic = time.time()
    for i, batch in enumerate(train_data):
        x = batch.data[0].as_in_context(ctx)
        y = batch.label[0].as_in_context(ctx)
        with autograd.record():
            x = net(x)
            output, cls_pred, score, xywh = yolo2_forward(x, 2, scales)
            with autograd.pause():
                tid, tscore, tbox, sample_weight = yolo2_target(score, xywh, y, scales, thresh=0.5)
            # losses
            loss1 = sce_loss(cls_pred, tid, sample_weight * class_weight)
            score_weight = nd.where(sample_weight > 0,
                                    nd.ones_like(sample_weight) * positive_weight,
                                    nd.ones_like(sample_weight) * negative_weight)
            loss2 = l1_loss(score, tscore, score_weight)
            loss3 = l1_loss(xywh, tbox, sample_weight * box_weight)
            loss = loss1 + loss2 + loss3
        loss.backward()
        trainer.step(batch_size)
        # update metrics
        cls_loss.update(loss1)
        obj_loss.update(loss2)
        box_loss.update(loss3)

    print('Epoch %2d, train %s %.5f, %s %.5f, %s %.5f time %.1f sec' % (
        epoch, *cls_loss.get(), *obj_loss.get(), *box_loss.get(), time.time()-tic))

yolo2_forward函数用来将网络输出进行整理和转换。以这份代码的网络结构以及输入尺寸是3*256*256，batch_size=32为例，yolo2_forward函数的输入x是32*14*16*16。stride = num_class + 5这里的5是一个score加上四个坐标相关的值。x = x.transpose((0, 2, 3, 1))是将输出channel移到最后一个维度，然后通过x = x.reshape((0, 0, 0, -1, stride))得到5维的输出，前面3维不变，分别是batch size，weight，height，第4维是anchor的数量，第5维就是每个anchor对应的参数（2个类别数+1个score+4个坐标值），所以得到的x是32*16*16*2*7。cls_pred = x.slice_axis(begin=0, end=num_class, axis=-1)是取x的最后一维的前num_class个矩阵（这里是2）作为类别预测结果。 score_pred = x.slice_axis(begin=num_class, end=num_class + 1, axis=-1)是取x的最后一维的接下来1个矩阵作为score的预测结果。 xy_pred = x.slice_axis(begin=num_class + 1, end=num_class + 3, axis=-1)是取x的最后一维的再接下来的2个矩阵作为box的中心点坐标预测结果。 wh = x.slice_axis(begin=num_class + 3, end=num_class + 5, axis=-1)是取x的最后一维的再接下来的2个矩阵作为box的宽高预测结果。这样长度为7的最后一维就分清楚了。这里score = nd.sigmoid(score_pred)和 xy = nd.sigmoid(xy_pred)都是做归一化，前者是因为score的范围在0到1之间，后者是因为要用到grid cell的相对坐标，所以需要0到1范围（可以看原文Figure3的bx和by计算，这里模型预测得到的xy对应Figure3中的tx和ty）。transform_center是用来将每个grid cell里面的相对坐标转换成图片上的相对坐标。transform_size函数是将模型输出的宽高处理成实际的宽高。cid是预测的每个box的类别。left、top、right、bottom是预测的box的边界。

def yolo2_forward(x, num_class, anchor_scales):
    """Transpose/reshape/organize convolution outputs."""
    stride = num_class + 5
    # transpose and reshape, 4th dim is the number of anchors
    x = x.transpose((0, 2, 3, 1))
    x = x.reshape((0, 0, 0, -1, stride))
    # now x is (batch, m, n, stride), stride = num_class + 1(object score) + 4(coordinates)
    # class probs
    cls_pred = x.slice_axis(begin=0, end=num_class, axis=-1)
    # object score
    score_pred = x.slice_axis(begin=num_class, end=num_class + 1, axis=-1)
    score = nd.sigmoid(score_pred)
    # center prediction, in range(0, 1) for each grid
    xy_pred = x.slice_axis(begin=num_class + 1, end=num_class + 3, axis=-1)
    xy = nd.sigmoid(xy_pred)
    # width/height prediction
    wh = x.slice_axis(begin=num_class + 3, end=num_class + 5, axis=-1)
    # convert x, y to positions relative to image
    x, y = transform_center(xy)
    # convert w, h to width/height relative to image
    w, h = transform_size(wh, anchor_scales)
    # cid is the argmax channel
    cid = nd.argmax(cls_pred, axis=-1, keepdims=True)
    # convert to corner format boxes
    half_w = w / 2
    half_h = h / 2
    left = nd.clip(x - half_w, 0, 1)
    top = nd.clip(y - half_h, 0, 1)
    right = nd.clip(x + half_w, 0, 1)
    bottom = nd.clip(y + half_h, 0, 1)
    output = nd.concat(*[cid, score, left, top, right, bottom], dim=4)
    return output, cls_pred, score, nd.concat(*[xy, wh], dim=4)

在yolo2_forward函数中有两个重要的函数：transform_center函数和transform_sizer函数。这两个函数是用来做坐标和长宽转换的。YOLO v2算法的一大亮点就是预测目标不是中心坐标或长宽的offset，而是offset的简单变换，具体可以看论文，接下来详细介绍。
transform_center函数是用来将每个grid cell里面的相对坐标转换成图片上的相对坐标。首先输入xy是32*16*16*2*2大小，那么xy[0,1,1,0,:]就表示第一个输入的16*16的feature map上的(1,1)位置的第0个anchor的weight和height，feature map上的每个点代表一个grid cell，这个weight和height就是这个grid cell中某个点相对于grid cell的左上角的距离，如果weight=height=1，那么这个点就是grid cell的右下角点。offset_y是32*16*16*2*1大小，其中16*16是第一行为0，第二行为1…最后一行为15的二维矩阵，其他维度都是直接broadcast过去的，offset_x同理。这样在执行x + offset_x操作时，对于x[b,h,2,n,0]就是加上2，x[b,h,4,n,0]就是加上4。最后除以w或者除以h也是归一化的操作，使得最后得到的x和y范围在0到1之间。因此这个函数的作用就是实现论文中Figure3的加号这一步。

def transform_center(xy):
    """Given x, y prediction after sigmoid(), convert to relative coordinates (0, 1) on image."""
    b, h, w, n, s = xy.shape
    offset_y = nd.tile(nd.arange(0, h, repeat=(w * n * 1), ctx=xy.context).reshape((1, h, w, n, 1)), (b, 1, 1, 1, 1))
    # print(offset_y[0].asnumpy()[:, :, 0, 0])
    offset_x = nd.tile(nd.arange(0, w, repeat=(n * 1), ctx=xy.context).reshape((1, 1, w, n, 1)), (b, h, 1, 1, 1))
    # print(offset_x[0].asnumpy()[:, :, 0, 0])
    x, y = xy.split(num_outputs=2, axis=-1)
    x = (x + offset_x) / w
    y = (y + offset_y) / h
    return x, y

transform_size函数和transform_center函数类似。实现的是论文中Figure3的这一步（如下图公式）。输入wh对应tw和th。aw和ah就是box的宽高信息。

def transform_size(wh, anchors):
    """Given w, h prediction after exp() and anchor sizes, convert to relative width/height (0, 1) on image"""
    b, h, w, n, s = wh.shape
    aw, ah = nd.tile(nd.array(anchors, ctx=wh.context).reshape((1, 1, 1, -1, 2)), (b, h, w, 1, 1)).split(num_outputs=2, axis=-1)
    w_pred, h_pred = nd.exp(wh).split(num_outputs=2, axis=-1)
    w_out = w_pred * aw / w
    h_out = h_pred * ah / h
    return w_out, h_out

yolo2_target函数构造模型训练目标。这里输入labels就是ground truth，尺寸是32*1*5，1表示只有1个object，5包含1个class标签和4个坐标信息。for b in range(output.shape[0])是遍历batch中的每个输入，label是k*5大小的numpy array，k就是object数量，一般正常的object标签都是大于0的，所以这里valid_label是为了过滤掉那些错误的标签。输入scores的尺寸中n表示anchor的数量，h和w针对输入图像是256*256的情况分别是16和16。for l in valid_label就遍历一张图中所有有效的object标注信息，因为标注数据的坐标是采取框的左上角和右下角坐标（还是相对坐标，也就是值在0到1），所以通过简单的加减可得到gx、gy、gw和gh；ind_x和ind_y则是对应于输入的坐标，比如你的输入feature map是16*16，换句话说ind_x和ind_y就是16*16的feature map上的某个grid cell的坐标。因此重点来了：tx = gx * w - ind_x和ty = gy * h - ind_y，tx和ty是模型回归的目标值。intersect是计算每个anchor和ground truth的交集面积，因此是一个1*n的numpy array，n是anchor的数量；ovps是计算交集面积占并集面积的比例，也就是IOU，也是1*n大小。best_match是选择IOU最大的那个anchor的index。接下来的几行赋值语句中都用到了ind_x和ind_y，这就是为什么说在YOLO算法中是以object的ground truth框的中心所在的box来预测该object，实际上所谓的box都是隐式的，从这里的介绍也可以看出，先是按照box的尺寸去匹配目前的这个object，找IOU最大的box，然后再一个ndarray中将ground truth的信息赋给该box，包括socre、坐标、类别标签、哪个box以及中心点坐标。target_id[b, ind_y, ind_x, best_match, :] = l[0]是将IOU最大的anchor的标签赋值为ground truth的标签，只要没进行这个赋值的点的anchor的标签都是-1，表示背景。target_score[b, ind_y, ind_x, best_match, :] = 1.0是将best_match的box的score赋值为1，也就是置信度为1，其他都为0。tw和th的计算是论文中Figure3的公式的相反过程。因此最后的target_box放的就是模型训练的目标，符号和论文中的公式符号都是一一对应的。sample_weight表示权重。最后得到的tx和ty对应论文中sigmoid函数处理过的结果。

def yolo2_target(scores, boxes, labels, anchors, ignore_label=-1, thresh=0.5):
    """Generate training targets given predictions and labels."""
    b, h, w, n, _ = scores.shape
    anchors = np.reshape(np.array(anchors), (-1, 2))
    #scores = nd.slice_axis(outputs, begin=1, end=2, axis=-1)
    #boxes = nd.slice_axis(outputs, begin=2, end=6, axis=-1)
    gt_boxes = nd.slice_axis(labels, begin=1, end=5, axis=-1)
    target_score = nd.zeros((b, h, w, n, 1), ctx=scores.context)
    target_id = nd.ones_like(target_score, ctx=scores.context) * ignore_label
    target_box = nd.zeros((b, h, w, n, 4), ctx=scores.context)
    sample_weight = nd.zeros((b, h, w, n, 1), ctx=scores.context)
    for b in range(output.shape[0]):
        # find the best match for each ground-truth
        label = labels[b].asnumpy()
        valid_label = label[np.where(label[:, 0] > -0.5)[0], :]
        # shuffle because multi gt could possibly match to one anchor, we keep the last match randomly
        np.random.shuffle(valid_label)
        for l in valid_label:
            gx, gy, gw, gh = (l[1] + l[3]) / 2, (l[2] + l[4]) / 2, l[3] - l[1], l[4] - l[2]
            ind_x = int(gx * w)
            ind_y = int(gy * h)
            tx = gx * w - ind_x
            ty = gy * h - ind_y
            gw = gw * w
            gh = gh * h
            # find the best match using width and height only, assuming centers are identical
            intersect = np.minimum(anchors[:, 0], gw) * np.minimum(anchors[:, 1], gh)
            ovps = intersect / (gw * gh + anchors[:, 0] * anchors[:, 1] - intersect)
            best_match = int(np.argmax(ovps))
            target_id[b, ind_y, ind_x, best_match, :] = l[0]
            target_score[b, ind_y, ind_x, best_match, :] = 1.0
            tw = np.log(gw / anchors[best_match, 0])
            th = np.log(gh / anchors[best_match, 1])
            target_box[b, ind_y, ind_x, best_match, :] = mx.nd.array([tx, ty, tw, th])
            sample_weight[b, ind_y, ind_x, best_match, :] = 1.0
            # print('ind_y', ind_y, 'ind_x', ind_x, 'best_match', best_match, 't', tx, ty, tw, th, 'ovp', ovps[best_match], 'gt', gx, gy, gw/w, gh/h, 'anchor', anchors[best_match, 0], anchors[best_match, 1])
    return target_id, target_score, target_box, sample_weight

关于损失函数，这里针对分类和回归分别定义了两个损失函数：分类的交叉熵损失函数sce_loss和回归的L1损失函数l1_loss。obj_loss、cls_loss、box_loss是通过继承mx.metric.EvalMetric类来实现的，这个类原本是用来实现评价标准的，但是如果用这个类来输出loss的情况也是可以的，因为这里的这三个变量是用来输出到显示界面的，方便查看训练进度。

sce_loss = gluon.loss.SoftmaxCrossEntropyLoss(from_logits=False)
l1_loss = gluon.loss.L1Loss()

from mxnet import metric

class LossRecorder(mx.metric.EvalMetric):
    """LossRecorder is used to record raw loss so we can observe loss directly
    """
    def __init__(self, name):
        super(LossRecorder, self).__init__(name)

    def update(self, labels, preds=0):
        """Update metric with pure loss
        """
        for loss in labels:
            if isinstance(loss, mx.nd.NDArray):
                loss = loss.asnumpy()
            self.sum_metric += loss.sum()
            self.num_inst += 1

obj_loss = LossRecorder('objectness_loss')
cls_loss = LossRecorder('classification_loss')
box_loss = LossRecorder('box_refine_loss')

4、测试部分主要包含两个步骤，先是读取数据并做预处理，然后才是过模型得到输出结果。数据读取和预处理通过process_image函数进行，调用mxnet.image.imdecode接口将打开的图像decode成height*width*3的NDArray，然后通过mxnet.image.imresize接口resize到指定尺寸，再将数据格式转成float32并做归一化，最后交换第0和第2个channel变成3*height*width的形式并增加一个维度成为1*3*height*width，这样就模拟了batch操作。predict函数用来对处理好的数据做预测，直接过训练好的模型net得到结果，然后通过yolo2_forward函数得到详细的结果。output.reshape((0, -1, 6))操作将输出reshape到3个维度，分别表示batch size，box数量，box的6个指标信息（类别、score、4个坐标信息），最后经过nms操作去掉重复框。

def process_image(fname):
    with open(fname, 'rb') as f:
        im = image.imdecode(f.read())
    # resize to data_shape
    data = image.imresize(im, data_shape, data_shape)
    # minus rgb mean, divide std
    data = (data.astype('float32') - rgb_mean) / rgb_std
    # convert to batch x channel x height xwidth
    return data.transpose((2,0,1)).expand_dims(axis=0), im

def predict(x):
    x = net(x)
    output, cls_prob, score, xywh = yolo2_forward(x, 2, scales)
    return nd.contrib.box_nms(output.reshape((0, -1, 6)))

x, im = process_image('../img/pikachu.jpg')
out = predict(x.as_in_context(ctx))

显示检测结果，每调用一个display都传入一张图像的预测结果（out[0]）。display函数中plt.imshow(im.asnumpy())是用来显示图像，输入可以是numpy array，如果是RGB的话应该是(n,m,3)这样的维度，数值可以是uint8或者float。display函数中的for循环是遍历经过nms得到的框， if class_id < 0 or score < threshold语句跳过背景类以及score小于某个阈值的box，box = row[2:6] * np.array([im.shape[0],im.shape[1]]*2)是将预测的框边界映射成原图中的边界。rect是从box边界信息生成矩形框，并通过add_patch添加到plt中，这里plt.gca()相当于获取当前的plt内容，然后在此基础上再调add_patch方法添加新的内容比如框或者文字信息。

mpl.rcParams['figure.figsize'] = (6,6)

colors = ['blue', 'green', 'red', 'black', 'magenta']

def display(im, out, threshold=0.5):
    plt.imshow(im.asnumpy())
    for row in out:
        row = row.asnumpy()
        class_id, score = int(row[0]), row[1]
        if class_id < 0 or score < threshold:
            continue
        color = colors[class_id%len(colors)]
        box = row[2:6] * np.array([im.shape[0],im.shape[1]]*2)
        rect = box_to_rect(nd.array(box), color, 2)
        plt.gca().add_patch(rect)
        text = class_names[class_id]
        plt.gca().text(box[0], box[1],
                       '{:s} {:.2f}'.format(text, score),
                       bbox=dict(facecolor=color, alpha=0.5),
                       fontsize=10, color='white')
    plt.show()

display(im, out[0], threshold=0.5)

Spring Boot 3.2+ 升级Mybatis-Plus 3.5.x 兼容性问题与解决方案Invalid value type for attribute ‘factoryBeanObjectT z2637305611 spring boot mybatis 后端
一、当升级遭遇滑铁卢当我们将SpringBoot升级到3.2.0+版本时，熟悉的Invalidvaluetypeforattribute'factoryBeanObjectType':java.lang.String错误突然吞噬了控制台。这个看似神秘的错误频繁出现在整合Mybatis-Plus3.5.x时，甚至会附赠Invalidbeandefinitionwithname'xxxMapper'的
JAVA泛型的作用时光呢 java windows python
‌1.类型安全（TypeSafety）‌在泛型出现之前，集合类（如ArrayList、HashMap）只能存储Object类型元素，导致以下问题：‌问题‌：从集合中取出元素时，需手动强制类型转换，容易因类型不匹配导致运行时错误（如ClassCastException）。//JDK1.4时代：非泛型示例Listlist=newArrayList();list.add("Hello");Integer
前端面试请叫我子鱼编程语言笔试面试程序员 web interview
前端面试之道JS基础知识点及常考面试题原始（Primitive）类型面试题：原始类型有哪几种？null是对象嘛？在JS中，存在着6种原始值，分别是：booleannullundefinednumberstringsymbol首先原始类型存储的都是值，是没有函数可以调用的对象（Object）类型面试题：对象类型和原始类型的不同之处？函数参数是对象会发生什么问题？在JS中，除了原始类型那么其他的都是对
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
83.为什么Object类型可以用来打开窗口 C#例子 WPF例子军训猫猫头 wpf c#ui
在WPF中，打开和关闭窗口时使用object类型是完全可行的，任何窗口类型都可以通过object类型来操作，只要正确地将其转换为Window类型。为什么可以使用object类型？Window是所有窗口的基类：在WPF中，所有窗口类型（如MainWindow、SettingsWindow等）都继承自Window类。因此，任何窗口实例都可以被隐式地转换为object类型，因为object是C#中所有类
浏览器渲染流程前端岳大宝前端核心知识总结前端 javascript
以下是关于浏览器渲染流程的系统梳理，涵盖基础原理、关键阶段、性能优化及进阶知识，帮助我们深入理解现代浏览器如何将代码转换为用户可见的像素：一、核心渲染流程（CriticalRenderingPath）浏览器渲染流程分为六个核心阶段，决定页面首次加载和更新的性能：1.构建DOM（DocumentObjectModel）过程：解析HTML生成DOM树（逐步解析，遇到可能阻塞）。阻塞因素：未添加asyn
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
matplotlib中的colormap使用 ghfuidy python python
colormap的对象分析matplotlib中自带cm库，存储了一些colormap，可供开发人员调用。colormap对象的类型为matplotlib.colors.ListedColormapobject属于matplotlib中自定义的一个对象类型对象调用matplotlib中的这一对象调用需要如下步骤importmatplotlib.pyplotasplt#首先选择matplot中有的c
QT-LINUX-Bluetooth蓝牙开发大象荒野嵌入式QT开发笔记 qt
BlueToothAPIQT-BlueToothApiQtBluetooth6.8.2官方提供的蓝牙API不支持linux。D-Bus的API实现蓝牙确保系统中安装了BlueZ（版本需≥5.56），并且Qt已正确安装并配置了D-Bus支持。默默看了下自己的版本.....D-BUS的API也不支持。在D-Bus中，org目录是D-Bus对象路径（ObjectPath）的一部分，用于唯一标识系统中的对
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
1，Kotlin代码案例：决属性与方法冲突的类和对象操作演示淮山2 kotlin
//使用Kotlin1.3.11编译器//不需要包声明（package语句）//定义类A1classA1{//定义静态变量BBB，类似C语言中的全局静态变量companionobject{varBBB:Int=0//初始化静态变量BBB为0}//定义实例变量AAA，包含整数和字符串类型，类似C语言中的结构体成员变量varAAA_int:Int=0//整数类型的实例变量，初始化值为0varAAA_s
6，Kotlin代码案例，并按照要求对变量、类、方法等进行了改写淮山2 kotlin
//使用Kotlin1.3.11编译器//不需要包声明（package语句）//定义类A1，类似一个简单的控制器类，用于处理Web请求相关操作classA1{//定义静态变量BBB，这里模拟一个可能的全局配置相关的静态变量companionobject{varBBB:Int=0}//实例方法CCC，模拟处理"/helloworld"和"/"路径的请求funCCC():Any{//返回一个字符串，模
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
spring5-介绍Spring框架 m0_74824845 面试学习路线阿里巴巴 spring java 后端
Spring框架是一个Java平台，它为开发Java应用程序提供全面的基础架构支持。Spring负责基础架构，因此您可以专注于应用程序的开发。Spring可以让您从“plainoldJavaobjects”（POJO）中构建应用程序和通过非侵入性的POJO实现企业应用服务。此功能适用于JavaSE的编程模型，全部的或部分的适应JavaEE模型。2.1依赖注入和控制反转Java应用程序-这是一个宽松
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
embed 标签怎么嵌入pdf_如何在网页中嵌入PDF文件 weixin_39822443 embed 标签怎么嵌入pdf
如何在网页中嵌入PDF文件编辑：oa161办公商城您想要到包括代码嵌入到PDFfile.2Type，打开的对象标记，它看起来像这样：<object3Insert的type属性的说明1Locate的位置在您的网页的代码。您的文件类型是PDF。因此，您的代码将看起来像这样：=“application/pdf上”4指定的文件名。要做到这一点，类型：数据=“NAMEofFILE.pdf”地方那句“NA
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
快速入手-基于Django的mysql操作（四）神奇侠2024 django django
1、数据的增删改查defadd(request):UserInfo.objects.create(username="admin",password="1234561",age=18)UserInfo.objects.create(username="admin2",password="1234562",age=19)UserInfo.objects.create(username="admin3
响应式数据和 Pinia 状态肉肉不吃肉前端 vue.js pinia
响应式数据和Pinia状态是Vue.js应用中用于管理数据的两种重要机制，它们之间有密切的关系。以下是它们的定义、特点以及关系：1.响应式数据定义响应式数据是Vue.js的核心特性之一，指的是当数据发生变化时，视图会自动更新。Vue.js通过Proxy或Object.defineProperty实现数据的响应式。特点自动更新：当数据变化时，依赖该数据的视图会自动更新。声明式：开发者只需关注数据本身
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

YOLO v2的算法细节——以李沐的Gluon代码为例

你可能感兴趣的:(深度学习,计算机视觉,目标检测-object,detection,MXNet)