Mr-MegRob

保姆级 Keras 实现 Faster R-CNN 十一

一 RoI 区域
二. 定义 RoiPoolingLyaer
- 1. call 函数
- 2. compute_output_shape 函数
三. 将 RoiPoolingLayer 加入模型
四. 代码下载

上一篇文章中我们实现了 ProposalLayer 层, 它将的功能是输出建议区域矩形. 本文要实现另一个自定义层 RoiPoolingLayer. 在 Faster R-CNN 中, RoiPooling 层的目的是将不同大小的感兴趣区域(Region of Interest, ROI) 转换为固定大小的特征图作为后续步骤的输入

一 RoI 区域

还是先把论文中的图贴出来

上图中已经标明了 RoI pooling 的位置, 个人觉得这张图是有问题的. 依据如下

图中 feature maps 的尺寸应该远比输入的图像的尺寸要小才对. 当然这个也不是问题, 可能是为了方便作图故意把输入图像画得比较小
proposals 中的框和 RoI pooling 位置特征图中的框一样大. 这个是有问题的, 因为 RPN 输出的是建议框, 是 anchor_box 经过修正再做 NMS 后的矩形. 也是替代 Selective Search 区域的矩形. 建议框的坐标系是原图, 也就是说 proposals 位置的红框的尺寸要和原图一样大才对. 而 RoI pooling 需要将建议框缩放到 feature maps 尺度以 feature maps 为坐标系. 所以图中两处框的大小应该是不一样的

有了上面的解释后, 相信理解 RoiPooling 会相对容易一点

二. 定义 RoiPoolingLyaer

Keras 自定义层的套路在保姆级 Keras 实现 Faster R-CNN 十中已经讲过了, 这里就不那么细致的解释了. 不完全定义如下, 后面慢慢补全

class RoiPoolingLayer(Layer):
    def __init__(self, pool_size = (7, 7), **kwargs):
        self.pool_size = pool_size
        super(RoiPoolingLayer, self).__init__(**kwargs)

    def build(self, input_shape):
        super(RoiPoolingLayer, self).build(input_shape)

    def call(self, inputs):
        pass
        
    def compute_output_shape(self, input_shape):
        pass

在上面的定义中, 需要一个初始化参数 pool_size, 指明我们需要将输出变形到什么样的尺寸. 默认是 $(7, 7)$ , 你要喜欢其他数字也可以

1. call 函数

我们要在 call 函数中实现 RoI pooling 的功能. 不用那么复杂, 再弄简单一点, 只需要一个裁切 + 变形缩放的功能

先秀代码, 下面再解释

def call(self, inputs):
    images, features, rois = inputs
    image_shape = tf.shape(images)[1: 3]
    feature_shape = tf.shape(features)
    roi_shape = tf.shape(rois)
    
    batch_size = feature_shape[0]
    num_rois = roi_shape[1]
    feature_channels = feature_shape[3]
    
    y_scale = 1.0 / tf.cast(image_shape[0] - 1, dtype = tf.float32)
    x_scale = 1.0 / tf.cast(image_shape[1] - 1, dtype = tf.float32)
    
    y1 = rois[..., 0] * y_scale
    x1 = rois[..., 1] * x_scale
    y2 = rois[..., 2] * y_scale
    x2 = rois[..., 3] * x_scale
    
    rois = tf.stack([y1, x1, y2, x2], axis = -1)
    
    # 为每个 roi 分配对应 feature 的索引序号
    indices = tf.range(batch_size, dtype = tf.int32)
    indices = tf.repeat(indices, num_rois, axis = -1)
    
    rois = tf.reshape(rois, (-1, roi_shape[-1]))

    crops = tf.image.crop_and_resize(image = features,
                                     boxes = rois,
                                     box_indices = indices,
                                     crop_size = self.pool_size,
                                     method = "bilinear")
    
    crops = tf.reshape(crops,
                       (batch_size, num_rois,
                        self.pool_size[0], self.pool_size[1], feature_channels))
    
    return crops

对于变量的定义, 从名字就可以理解其意思. inputs 是一个列表, 有三个元素, 一个是原图, 二是特征图, 三是建议框. 这样的话, 就可以拆分成 image, feature_map, rois

那为什么需要 image 这个参数呢, 有了这个参数就可以动态的获取输入图像的尺寸. 从而适应输入图像大小变化的情况. 还有一个主要的原因是要将建议框缩小到特征图的尺度, 需要计算一个缩小的倍数, 在代码中有两个倍数, 分别是 y_scale 与 x_scale

两个计算式都有在图像尺寸上减 1, 这是为什么?

因为我们要将建议框坐标归一化到 $[0, 1]$ 的范围, 从而在特征图上的坐标也是 $[0, 1]$ 的范围. 这样并不能解释为什么要减 1. 举个具体数字的例子, 假设输入图像的尺寸是 $(350, 400)$ , 有一个建议框的坐标是 $(200, 349, 300, 399)$ , 坐标顺序是 $y_1, x_1, y_2, x_2)$ , 因为坐标是从 0 开始的, 所以最大坐标到不了 350 和 400. 那归一化后最大坐标就不能取到 1. 将图像尺寸减 1 后, 最大坐标就是 349 与 399, 这样就可以取到 $[0, 1]$ 范围

代码中将建议框各坐标乘以相应的缩小的倍数怎么可以将建议框坐标缩小到特征图的尺度并且还是 $[0, 1]$ 的范围呢呢, 也是一样用刚才的例子

缩小倍数:
$\begin{aligned} y_{scale} = 1 / 349 = 0.0028653 \\ x_{scale} = 1 / 399 = 0.0025062 \end{aligned}$
在原图上的归一化坐标:

$\begin{aligned} y_1 = 200 * y_{scale} = 200 * 0.0028653 = 0.57306590 \\ y_2 = 349 * y_{scale} = 349 * 0.0028653 = 0.99999999 \\ \\ x_1 = 300 * x_{scale} = 300 * 0.0025062 = 0.75187969 \\ x_2 = 399 * x_{scale} = 399 * 0.0025062 = 0.99999999 \\ \end{aligned}$

特征图相对于原图缩小了 16 倍, 所以要计算建议框在特征图上映射的坐标(此时还没有归一化), 可以按下面的计算式

$\begin{aligned} y_1 = 200 // 16 = 12 \\ y_2 = 349 // 16 = 21 \\ \\ x_1 = 300 // 16 = 18 \\ x_2 = 399 // 16 = 24 \\ \end{aligned}$

现在将其归一化, 在此之前先要计算特征图的尺寸, 这个也简单

$\begin{aligned} h = 350 // 16 = 21 \\ w = 400 // 16 = 25 \\ \end{aligned}$

归一化的坐标如下

$\begin{aligned} y_1 = 12 / 21 = 0.57142857 \\ y_2 = 21 / 21 = 1.00000000 \\ \\ x_1 = 18 / 25 = 0.72000000 \\ x_2 = 24 / 25 = 0.96000000 \\ \end{aligned}$

和在原图归一化后的坐标相比, 是很接近了, 误差源于原图不是 16 的整数倍, 会有舍入误差

为什么要将坐标归一化, 原来的坐标不好吗?

原来的坐标也不是不好, 只是不方便函数并行统一的操作. 还有一个根本的原因是我们要使用 TensorFlow 提供的函数 tf.image.crop_and_resize, 这个函数的参数就是这样规定的, 你不按规定来就得不到正确的结果

既然提到了 tf.image.crop_and_resize, 就有必要解释一下函数的各个参数. 函数原型如下

tf.image.crop_and_resize(
    image,
    boxes,
    box_indices,
    crop_size,
    method = "bilinear",
    extrapolation_value = 0.0,
    name = None
)

image: 输入图像, 这里是特征图, 形状为 [batch_size, height, width, channels]
boxes: 一个浮点型的 Tensor, 形状为 [num_boxes, 4], 表示每个 RoI 区域的边界框坐标. 每个边界框的坐标是一个四元组 $y_1, x_1, y_2, x_2)$ , 其中 $y_1, x_1)$ 是左上角的坐标, $y_2, x_2)$ 是右下角的坐标. 坐标值应在 0 到 1 之间
box_indices: 一个整型的 Tensor, 形状为 [num_boxes], 表示每个 RoI 区域所属的样本索引, 也就是当前的 RoI 区域对应一个 batch 中的哪一张图像(在这里是特征图). 一个 RoI 区域就要对应一个索引. 再说白一点, 就是告诉模型, 对于当前的这个建议框, 你要去哪张图上面将其抠出来
crop_size: 一个整型的元组, 表示裁剪后的大小, 形状为 [crop_height, crop_width]
method: 缩放时的插值方式
extrapolation_value: 一个浮点数, 表示当裁剪的位置超出输入图像范围(也就是坐标值大于了图像尺寸)时, 使用的填充值. 默认值为 0. 比如特征图的尺寸是 $(18, 25)$ , 你要裁切的矩形是 $(14, 19, 15, 26)$ , 那超过特征图的那些位置就要填充
name: 操作的名称

理解了各参数的意义之后, 上面的代码就容易理解了, 可能有一点蒙的是下面这一段代码

# 为每个 roi 分配对应 feature 的索引序号
indices = tf.range(batch_size, dtype = tf.int32)
indices = tf.repeat(indices, num_rois, axis = -1)

rois = tf.reshape(rois, (-1, roi_shape[-1]))

这一段的功能是为每个 roi 分配对应 feature 的索引序号, ProposalLyaer 输出的建议框的坐标, 形状是 [batch_size, num_rois, 4], 这些建议框个数在一个 batch 内的图像之间是平均分配的. 0 ~ num_rois - 1 的序号对就第一张图, num_rois ~ 2 * num_rois - 1 对应第二张图, 这样类推下去

indices = tf.range(batch_size, dtype = tf.int32): 产生 0 ~ batch_size - 1 的序列, 比如 batch 为 4, 那序列就是 $[0, 1, 2, 3]$ . 表示建议框分别对应的图像索引有 0, 1, 2, 3 四张
indices = tf.repeat(indices, num_rois, -1): 将 0, 1, 2, 3 这些数字重复, 一个序号重复 num_rois 次, 这样就为每一个建议框分配了一个对应于 batch 内特征图的索引序号, 重复后的形式为 $[0, 0, 0, ..., 0, 0, 0, 1, 1, 1, ..., 1, 1, 1, 2, 2, 2, ..., 2, 2, 2, 3, 3, 3, ..., 3, 3, 3]$ . 这是对应于有规律的情况, 没有规律的话, 你也可以手动指定, 比如 $[0, 1, 2, 1, 1, 2, ..., 3, 1, 2]$ 这样的. 也不要求各序号数量要相等
rois = tf.reshape(rois, (-1, roi_shape[-1])): 将 rois 的形状从 [batch_size, num_rois, 4] 变成 tf.image.crop_and_resize 需要的 [num_boxes, 4]

经过上面的一顿操作, tf.image.crop_and_resize 就能正常使用了, 实现了从特征图中将建议框对应的地方抠出来, 变形到 $(7, 7)$ 的形状, 最后一句

crops = tf.reshape(crops,
                   (batch_size, num_rois,
                    self.pool_size[0], self.pool_size[1], feature_channels))

将输出变到能做到 batch 操作的形状

2. compute_output_shape 函数

这个就比较容易了, 指定输出的形状

def compute_output_shape(self, input_shape):
    image_shape, feature_shape, roi_shape = input_shape
    batch_size = image_shape[0]
    num_rois = roi_shape[1]
    feature_channels = feature_shape[3]
    
    return (batch_size, num_rois, self.pool_size[0], self.pool_size[1], feature_channels)

这样 RoiPoolingLayer 就完成了, 完整的定义如下

# 定义 RoiPoolingLayer
class RoiPoolingLayer(Layer):
    def __init__(self, pool_size = (7, 7), **kwargs):
        self.pool_size = pool_size
        super(RoiPoolingLayer, self).__init__(**kwargs)

    def build(self, input_shape):
        super(RoiPoolingLayer, self).build(input_shape)

    def call(self, inputs):
        images, features, rois = inputs
        image_shape = tf.shape(images)[1: 3]
        feature_shape = tf.shape(features)
        roi_shape = tf.shape(rois)
        
        batch_size = feature_shape[0]
        num_rois = roi_shape[1]
        feature_channels = feature_shape[3]
        
        y_scale = 1.0 / tf.cast(image_shape[0] - 1, dtype = tf.float32)
        x_scale = 1.0 / tf.cast(image_shape[1] - 1, dtype = tf.float32)
        
        y1 = rois[..., 0] * y_scale
        x1 = rois[..., 1] * x_scale
        y2 = rois[..., 2] * y_scale
        x2 = rois[..., 3] * x_scale
        
        rois = tf.stack([y1, x1, y2, x2], axis = -1)
        
        # 为每个 roi 分配对应 feature 的索引序号
        indices = tf.range(batch_size, dtype = tf.int32)
        indices = tf.repeat(indices, num_rois, axis = -1)
        
        rois = tf.reshape(rois, (-1, roi_shape[-1]))

        crops = tf.image.crop_and_resize(image = features,
                                         boxes = rois,
                                         box_indices = indices,
                                         crop_size = self.pool_size,
                                         method = "bilinear")
        
        crops = tf.reshape(crops,
                           (batch_size, num_rois,
                            self.pool_size[0], self.pool_size[1], feature_channels))
        
        return crops
    
    def compute_output_shape(self, input_shape):
        image_shape, feature_shape, roi_shape = input_shape
        batch_size = image_shape[0]
        num_rois = roi_shape[1]
        feature_channels = feature_shape[3]
        
        return (batch_size, num_rois, self.pool_size[0], self.pool_size[1], feature_channels)

三. 将 RoiPoolingLayer 加入模型

现在把 RoiPoolingLayer 加入到模型如下

# RoiPooling 模型
x = keras.layers.Input(shape = (None, None, 3), name = "input")

feature = vgg16_conv(x)
rpn_cls, rpn_reg = rpn(feature)

proposal = ProposalLayer(base_anchors, num_rois = TRAIN_NUM, iou_thres = 0.7,
                         name = "proposal")([x, rpn_cls, rpn_reg])

roi_pooling = RoiPoolingLayer(name = "roi_pooling")([x, feature, proposal])

roi_pooling_model = keras.Model(x, roi_pooling, name = "roi_pooling_model")

roi_pooling_model.summary()

有了模型, 就可以测试一下效果了, 不过在之前, 要加载保姆级 Keras 实现 Faster R-CNN 八训练好的参数

# 加载训练好的参数
roi_pooling_model.load_weights(osp.join(log_path, "faster_rcnn_weights.h5"), True)

再定义一个预测函数

# roi_pooling 模型预测
# 一次预测一张图像
# x: 输入图像或图像路径
# 返回值: 返回原图像和预测结果
def roi_pooling_predict(x):
    # 如果是图像路径, 那要将图像预处理成网络输入格式
    # 如果不是则是 input_reader 返回的图像, 已经满足输入格式
    if isinstance(x, str):
        img_src = cv.imread(x)
        img_new, scale = new_size_image(img_src, SHORT_SIZE)
        x = [img_new]
        x = np.array(x).astype(np.float32) / 255.0
        
    y = roi_pooling_model.predict(x)
    
    return y

# 利用训练时划分的测试集
test_reader = input_reader(test_set, CATEGORIES, batch_size = 4, train_mode = False)

接下来就是见证奇迹的时刻了

# roi_pooling 测试
x, y = next(test_reader)
outputs = roi_pooling_predict(x)
print(x.shape, outputs.shape)
print(outputs)

输出如下

(4, 325, 400, 3) (4, 256, 7, 7, 512)
[[[[[0.00000000e+00 0.00000000e+00 0.00000000e+00 ... 0.00000000e+00
     8.52627680e-03 0.00000000e+00]
    [0.00000000e+00 0.00000000e+00 0.00000000e+00 ... 0.00000000e+00
     3.18351114e-04 0.00000000e+00]
    [0.00000000e+00 0.00000000e+00 0.00000000e+00 ... 0.00000000e+00
     9.16954782e-03 0.00000000e+00]
    ...
    [0.00000000e+00 0.00000000e+00 0.00000000e+00 ... 0.00000000e+00
     2.82486826e-02 0.00000000e+00]
    [0.00000000e+00 0.00000000e+00 0.00000000e+00 ... 0.00000000e+00
     3.77882309e-02 0.00000000e+00]
    [0.00000000e+00 0.00000000e+00 0.00000000e+00 ... 0.00000000e+00
     3.84687856e-02 0.00000000e+00]]

可以看到输出的形状对了, 数值对不对以后验证

四. 代码下载

示例代码可下载 Jupyter Notebook 示例代码

上一篇: 保姆级 Keras 实现 Faster R-CNN 十
下一篇: 保姆级 Keras 实现 Faster R-CNN 十二

目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
街道垃圾识别难？陌讯视觉算法实测准确率突破95% 2501_92487900 算法边缘计算目标检测视觉检测计算机视觉
开篇痛点：街道垃圾识别的技术挑战在智慧城市和环保监管场景中，街道垃圾的实时检测一直是个难题。传统视觉算法（如YOLOv5、FasterR-CNN）在复杂街道场景下表现不佳，主要面临以下问题：光照干扰：早晚光线变化导致误检（如阴影被识别为垃圾）小目标漏检：饮料瓶、烟头等小物体在640x640输入下仅占10x10像素遮挡问题：垃圾桶周边堆积物造成特征混淆某环保科技公司实测数据显示，开源模型在真实场景中
FasterRCNN源码解析（一）-——跑通代码_霹雳巴拉wz的代码看不懂 2401_84140023 2024年程序员学习运维 linux 面试
为了做好运维面试路上的助攻手，特整理了上百道【运维技术栈面试题集锦】，让你面试不慌心不跳，高薪offer怀里抱！这次整理的面试题，小到shell、MySQL，大到K8s等云原生技术栈，不仅适合运维新人入行面试需要，还适用于想提升进阶跳槽加薪的运维朋友。本份面试集锦涵盖了174道运维工程师面试题128道k8s面试题108道shell脚本面试题200道Linux面试题51道docker面试题35道Je
时尚搭配助手，深度解析用Keras构建智能穿搭推荐系统忆愿高质量领域文章 keras 人工智能深度学习机器学习 python
文章目录引言：当算法遇见时尚第一章数据工程：时尚系统的基石1.1数据获取的多元化途径1.2数据预处理全流程1.2.1图像标准化与增强1.2.2多模态数据处理第二章模型架构设计：从分类到推荐2.1基础CNN模型（图像分类）2.2多任务学习模型（属性联合预测）第三章推荐算法核心3.1协同过滤与内容推荐的融合第四章系统优化4.1注意力机制应用第五章实战演练5.2实时推荐API实现第六章前沿探索：时尚AI
用Keras构建爱情模型：破解情侣间的情感密码忆愿高质量领域文章 keras 人工智能深度学习 python 机器学习自然语言处理神经网络
文章目录一、给情话穿上数字马甲1.1中文分词那些坑1.2停用词过滤玄学二、给神经网络装个情感温度计2.1记忆增强套餐2.2注意力机制实战三、给模型喂点狗粮数据3.1数据增强七十二变3.2标注的艺术四、调参比哄对象还难4.1超参数扫雷指南4.2可视化调参黑科技五、实战演练之保命指南5.1部署成求生APP5.2案例分析库六、当AI遇见现实：模型局限与伦理困境6.1隐私雷区七、从玩具模型到生产系统7.1
lstm 输入数据维度_keras中关于输入尺寸、LSTM的stateful问题 weixin_39856269 lstm 输入数据维度
补充：return_sequence,return_state都是针对一个时间切片(步长)内的h和c状态，而stateful是针对不同的batch之间的。多层LSTM需要设置return_sequence=True,后面再设置return_sequence=False.最近在学习使用keras搭建LSTM的时候，遇到了一些不明白的地方。有些搞懂了，有些还没有搞懂。现在记下来，因为很快就会忘记!-_
Jackson JSR310 日期反序列化问题解决方案 Dolphin_Home 生产环境_场景抽象代码规范 Spring Boot python 开发语言
JacksonJSR310日期反序列化问题解决方案一、问题背景在SpringBoot微服务项目中，使用Java8时间API（如LocalDateTime）配合Jackson处理JSON序列化时，升级Jackson从2.12到2.15后，出现以下反序列化异常：com.fasterxml.jackson.datatype.jsr310.deser.JSR310DateTimeDeserializerB
英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
Analyze Data Faster Crack SEO-狼术 net Delphi 控件 .net
AnalyzeDataFasterCrackQuicklygroup,filter,andsummarizelargedatasetstorevealtrends,simplifyreporting,andsupportmoreinformeddecisions.Apivotgridisapowerfuldataanalysistoolthatletsusersquicklyorganizeand
解决org.springframework.http.converter.HttpMessageNotWritableException: Could not write JSON...问题码不停蹄的玄黓 spring boot json
报错如下：Resolved[org.springframework.http.converter.HttpMessageNotWritableException:CouldnotwriteJSON:(wasjava.lang.NullPointerException);nestedexceptioniscom.fasterxml.jackson.databind.JsonMappingExcept
使用AutoKeras2.0的AutoModel进行结构化数据回归预测
1、FirstofAll:ReadTheFuckingSourceCodeimportautokerasasakimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportmean_squared_error#生成数据集np.random.seed(42)x=np.random.r
目标检测新纪元：DETR到Mamba实战解析加油吧zkf 图像处理 python 分类人工智能目标检测
【实战分享】目标检测的“后DEⱯ”时代：DETR/DINO/RT-DETR及新型骨干网络探索（含示例代码）目标检测从YOLO、FasterR-CNN到Transformer结构的DETR，再到DINO、RT-DETR，近两年出现了许多新趋势：更高效的端到端结构、更少的手工设计（比如不再需要NMS）、以及新型轻量化骨干网络（比如Mamba、ConvNeXt、ViT等）被引入检测任务中。作为从事目标检
python2.7.13安装keras记录呜哇哈哈嗝～ Python基础 keras tensorflow python
keras给出的版本大多对应的是python3.x版本，但有时一些项目需要用到python2.x的环境，版本找起来很麻烦。故喇宝准备写此篇来记录以及总结一下自己的安装过程（也为了防止下次自己又要重新装的时候各种百度不到）！python版本2.7.13condacreate--namepython27python=2.7.13在anaconda中使用命令新建一个名为python27的虚拟环境，新环境
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
Organize Data for Faster Insight SEO-狼术 net Delphi 控件 java
OrganizeDataforFasterInsightSortingfunctionalityallowsspreadsheetuserstobringstructuretolargedatasetsbyarrangingrowsbasedonselectedcolumnvalues.Datasortinginaspreadsheetcontrolisafundamentalfeaturetha
目标检测在国防和政府的应用实例 MzKyle 计算机视觉目标检测人工智能计算机视觉
一、目标检测技术概述目标检测是计算机视觉的核心任务，通过算法对图像/视频中的物体进行识别与定位，当前主流技术包括：经典算法：YOLO系列（实时性强）、FasterR-CNN（精度高）、SSD（平衡速度与精度）技术升级：结合深度学习（CNN、Transformer）、多模态融合（视觉+红外+雷达）、边缘计算实时处理二、国防领域核心应用实例（一）军事侦察与监控系统无人机侦察与目标识别应用场景：战术无人
Rust实现FasterR-CNN目标检测全流程 KENYCHEN奉孝 rust Polars
使用Rust和FasterR-CNN进行目标检测FasterR-CNN是目标检测领域广泛使用的深度学习模型。Rust生态中可以通过tch-rs（Torch绑定）调用预训练的PyTorch模型实现。以下为完整实现步骤：环境准备安装Rust和必要的依赖：cargoaddtchcargoaddanyhow#错误处理下载预训练的FasterR-CNN模型（需PyTorch格式.pt文件），或使用Torch
Keras环境复现代码（三） yanyiche_ keras 深度学习人工智能
DQN雅达利Breakout强化学习实验要求明确实验目的：学习和实现深度Q学习（DQN），这是一种结合了Q学习和深度神经网络的强化学习算法，用于解决复杂的决策问题。清楚实验原理：1、深度Q学习（DeepQ-Network）将卷积神经网络与Q学习结合，解决高维视觉输入的强化学习问题：2、经验回放：将状态转换存储到缓冲区，打破数据相关性，稳定训练。3、目标网络：定期更新目标Q值计算网络，减少训练中的目
Keras环境复现代码（二） yanyiche_ Keras 机器学习人工智能
PPOCartPole控制算法实践实验要求明确实验目的：学习和实现PPO算法，这是一种改进的策略梯度方法，通过限制策略更新的幅度来提高训练的稳定性。清楚实验原理：PPO算法是一种基于策略梯度的强化学习算法，它旨在解决传统策略梯度方法（如REINFORCE算法）在训练过程中可能出现的策略更新不稳定问题。PPO算法通过引入一种新的策略更新机制，限制每次更新的幅度，从而提高训练的稳定性和效率。PPO算法
深刻解析如何解决在pycharm中导入tensorflow的子模块keras时的报错（导入语法正确） lovingf pycharm python tensorflow keras
只是导入时报错，但代码仍可以运行1.导入方式正确，但pycharm将其标红2.通过查看tensorflow的官方文件，猜测可能是python版本不适配python需为python3.6-3.9，而我的为python3.113.配置python3.9的环境（详情可看我的另一篇文章），但依然报错4.经过仔细分析，觉得可能是pycharm与tensorflow的适配问题，pycharm无法寻找到tens
Python编程：使用 YOLO 目标检测倔强老吕 python 开发语言
YOLO（YouOnlyLookOnce）是一种基于深度学习的实时目标检测算法，由JosephRedmon等人于2016年首次提出。与传统的两阶段目标检测方法（如R-CNN系列）不同，YOLO将目标检测任务视为一个单一的回归问题，直接在图像上进行一次推理即可预测边界框和类别概率。YOLO的核心思想单次前向传播（SingleShotDetection）：YOLO只需对输入图像进行一次神经网络推理，就
基于YOLOv8和Faster R-CNN的输电线路异物目标检测项目检测输电线异物数据集输电线缺陷数据集绝缘子如何使用YOLOv8和Faster R-CNN训练输电线路异物目标检测数据集 QQ67658008 YOLO r语言 cnn 输电线路绝缘子线路异物目标检测
电力篇-输电线路缺陷数据集输电线路异物目标检测数据集16000张5种检测目标：‘burst’-爆裂‘defect’-缺陷‘foreign_obj’-异物‘insulator’-绝缘体‘nest’-窝（巢）带标注-YOLO格式可直接用于YOLO系列目标检测算法模型训练如何使用YOLOv8和FasterR-CNN训练输电线路异物目标检测数据集的详细步骤和代码。假设数据集包含16000张图片和5种检测目
【节假日】通过开放Api获取节假日数据并保存到json文件 Leslie_Lei #随笔 json java 节日
目录依赖节假日数据返回结果类工具类依赖com.fasterxml.jackson.corejackson-databindcom.google.code.gsongson2.8.6cn.hutoolhutool-all5.8.18org.projectlomboklombok节假日数据返回结果类HolidayResponseimportcom.fasterxml.jackson.annotatio
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
com/fasterxml/jackson/datatype/jsr310/ser/ZoneIdSerializer 鱼见千寻 spring java spring boot
security引入jjwt的时候，突然爆出了com/fasterxml/jackson/datatype/jsr310/ser/ZoneIdSerializer这个错？？？？？最后发现是jjwt引入的错误？？？？？jjwt0.9.1跟spring系列2.3.7冲突，把这些spring.security.boot版本下降到2.2.2就行。
python打卡训练营Day41 珂宝_ python打卡训练营 python
importnumpyasnpfromtensorflowimportkerasfromtensorflow.kerasimportlayers#加载和预处理数据(x_train,y_train),(x_test,y_test)=keras.datasets.mnist.load_data()x_train=x_train.reshape(-1,28,28,1).astype("float32")
一[3.0]、 yolov8 工作原理他人是一面镜子，保持谦虚的态度车道检测研究 YOLO
目录YOLOv8简介什么是YOLOv8？yaml配置文件解析YOLOv8架构图Yolov8有什么新功能？YOLO模型彻底改变了计算机视觉领域。识别物体是计算机视觉中的一项关键任务，可应用于机器人、医学成像、监控系统和自动驾驶汽车等多个领域。YOLO模型的最新版本YOLOv8是一种先进的实时物体检测框架，引起了研究界的关注。在所有流行的物体识别机器学习模型（如FasterR-CNN、SSD和Reti
Springboot使用redis添加LocalDateTime时间序列化Java 8报错 hippoDocker java redis java 缓存 spring boot
向redis中存入对象，需要将对象序列化，如果某个字段为LocalDateTime类型，就会出现报错com.fasterxml.jackson.databind.exc.InvalidDefinitionException:Java8date/timetype`java.time.LocalDateTime`notsupportedbydefault:addModule"com.fasterxml
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

保姆级 Keras 实现 Faster R-CNN 十一

保姆级 Keras 实现 Faster R-CNN 十一

一 RoI 区域

二. 定义 RoiPoolingLyaer

1. call 函数

2. compute_output_shape 函数

三. 将 RoiPoolingLayer 加入模型

四. 代码下载

你可能感兴趣的:(Keras,#,Faster,R-CNN,Faster,R-CNN,Keras)