AI之路

R-FCN算法及Caffe代码详解

本篇博客一方面介绍R-FCN算法（NISP2016文章），该算法改进了Faster RCNN，另一方面介绍其Caffe代码，这样对算法的认识会更加深入。

论文：R-FCN：object detection via region-based fully convolutional networks
论文链接：http://papers.nips.cc/paper/6465-r-fcn-object-detection-via-region-based-fully-convolutional-networks.pdf

要解决的问题：

这篇论文提出一种基于region的object detection算法：R-FCN（Region-based Fully Convolutional Network），**R-FCN可以看做是Faster RCNN的改进版，速度上提高了差不多3倍左右，mAP也有一点提升。**另外一类object detection算法像YOLO，SSD等object detection算法是不基于region的。
为什么R-FCN相比Faster RCNN会有明显的提速呢？以主网络为ResNet101为例，在Faster RCNN中，ROI Pooling层的输入是在conv4_x，在做完ROI Pooling后会继续接conv5_x，conv5_x包含9个卷积层，另外在conv5_x后还有几个全连接层，这些层的计算都直接作用在每个roi上，因此存在许多重复计算。如果主网络换成VGG也类似，只不过重复计算的层数会少一些，主要是一些全连接层。而在R-FCN中，所有能共享的层都在ROI Pooling之前做好了，因此在ROI Pooling后基本不会有太多的重复计算。为了要在ROI Pooling之前实现层共享，一方面将conv5_x的计算移到Pooling层之前，但这样依然还存在一些全连接层的重复计算，因此再引入position-sensitive score map和position-sensitive ROI Pooling，使得经过Pooling后简单地执行一些操作就能得到回归和分类结果，而不再像Faster RCNN一样用几个全连接层去得到结果。

基于101层的ResNet网络在VOC 2007数据集上达到mAP 83.6%。测试的时候每张图像所用时间是170ms，比Faster RCNN快2.5到20倍。
代码地址：https://github.com/daijifeng001/r-fcn

算法概要：

首先之所以提出本文的算法，简单讲是为了提高Faster RCNN的速度，因此一方面很直观地想到要尽可能在网络中共享计算，所以就想到对原来ROI Pooling层进行改造和移动；另一方面希望基本网络可以更加强大，因此就想到了用类似Resnet等全卷积网络代替原来的VGG等网络。

这个算法的网络主要是基于ResNet-101，ResNet-101包含100个卷积层、一个均值降采样层和一个1000分类的全连接层。这里作者仅采用前面的100个卷积层来提取特征，其它层不用。ResNet-101的最后一个卷积层输出是2048维，这里作者为了降维，添加了一个1024维的11卷积层（随机初始化）。**最后，一方面添加一个k^2(C+1)维的卷积层用于生成score maps，这些score maps主要是用来生成object的类别；另一方面为了做bounding box regression，作者添加了和Fast RCNN类似的bounding box regression卷积层，维度是4k^2，该层和前面生成score maps的卷积层是并列的。**除了这个主网络以外，该算法还引入RPN网络生成ROI，生成的ROI将和分类的卷积层生成的score maps进行pooling并最终得到每个ROI属于每个类别的概率（一共C+1类）。另外这个ROI还将和回归卷积层的输出进行pooling，得到每个ROI的四个坐标。损失函数方面基本上和Fast RCNN一样。
因此，整个网络主要就是由全卷积网络（ResNet）和RPN网络构成，前者用于提取特征，后者用于生成ROI。

注意：文中的ROI就是region proposal。另外Faster RCNN中的ROI Pooling和本文的ROI Pooling不是一个意思，前者只是简单将每个region feature变换到统一的尺寸的feature，变换过程中采用Max pooling；而后者则是一种position-sensitive的ROI Pooling。

算法详解：

图片分类问题是具有平移不变性的（translation invariance），什么意思呢？就是说一张图像中目标的平移对这张图片的分类结果影响不大，这也是为什么全卷积网络可以在图像分类比赛中成绩更好；目标检测问题则具有平移敏感性（translation variance），也很容易理解，如果一张图像中目标平移了，那么最后预测的框也会变化。

作者指出像VGG或AlexNet网络，一般由卷积层，每个卷积层后面跟降采样（pooling）层，最后叠加几个全连接层构成。但是像GooleNet或ResNet，基本上都是卷积层（很少有降采样层或全连接层），作者将其归为全卷积网络（FCN），同时假设全卷积网络具备平移不变性，所以如果简单地在目标检测问题中用ResNet代替VGG等网络，检测效果并不好，根源就在于前者具有平移不变性，而检测问题对平移敏感。为了解决这个问题，作者在ResNet的卷积层中插入了ROI pooling层，这种region-specific的操作打破了原来的平移不变性（普通网络因为卷积层和pooling层的交替，所以具有平移敏感性，所以如果在全卷积网络中增加ROI Pooling会增加平移敏感性），不过这种设计降低了训练及测试的效率，因为其引入了一些region-wise层。

因此为了将平移敏感性引入全卷积网络，作者在全卷积网络的输出位置添加一系列特定的卷积层用于生成position-sensitive的score map，每个score map保存目标的空间位置信息。然后再添加ROI Pooling层，该层后面不再跟卷积层或全连接层。这样整个网络不仅可以end-to-end训练，而且所有层的计算都是在整个图像上共享的。如下图的table1，表示几种算法的共享层数情况。

这里讲一个公式：position-sensitive ROI pooling，如下图。作者将每个ROI划分成k*k个bins，即如果一个ROI的大小是wh，那么每个bin的大小就是(w/k)(h/k)，对于里面第(i,j)个bin进行pool操作可以得到rc(i,j)，c表示类别。zi,j,c表示的是k^2(C+1)个maps中的第(i,j)个且属于c类别的那个map。x，y表示这个bin的像素点范围，累加也是对x，y的不同取值进行累加，最后再除以n取均值。

Figure1以分类支路为例介绍该公式，在Figure1中不同的颜色代表公式1中不同的(i,j)。所以对于分类支路而言，这个公式简单讲就是：对一个ROI中的某个bin（比如是(i,j)这个bin）进行pooling操作就是对卷积层输出的k×k×(C+1)个maps中的第(i,j)个map做均值pooling。所以一个ROI的某个bin进行pooling后会得到1×1×(C+1)大小的输出，换句话说每个ROI进行pooling后会得到k×k×(C+1)大小的输出，这个输出进行vote操作得到C+1维的输出，这个vote操作就是一个均值操作。最后再连接一个softmax层输出每一类的概率。回归支路和分类支路类似，只不过接的卷积层的卷积核数量不是k×k×(C+1)而是4×2×k×k，因此在经过position-sensitive Roi Pooling后得到4×2×k×k维度的输出，再经过vote操作得到4×2×1×1的输出，表示预测的bbox坐标offset。

关于损失函数，原文如下图，这里解释一下。首先本文的损失函数基本上和Fast RCNN的一样，都是分类损失和回归损失的和。分类损失采用的是交叉熵，这也是Caffe里面的softmaxWithLoss层的做法，可能有同学看不懂这个交叉熵里面的Sc代表什么意思，这里再贴一个文中的公式来解释Sc。c>0是用来说明只有存在object的ROI才能参与回归（因为只有object才有四个坐标，才能进行回归，才有loss）。最后一句是介绍训练时候正负样本是怎么选的，和一个ground truth的IOU值大于0.5的ROI就是positive样本。

**这个是介绍Sc的两个公式，Sc其实就是Caffe里面的softmax层的输出，代表的是每一类的概率；其中Sc用到rc，而rc就是网络层输出的每个类别的概率得分，就是上面Fig1的vote后的结果。**具体参看另一篇博文：softmax，softmax-loss，BP的解释

如下图，除了主网络ResNet以外，还有RPN网络用于生成ROI（region proposal），因此在训练的时候，作者采用RPN网络和R-FCN交替训练的方式来共享特征。这里有个细节，假设每个image有N个ROI，那么在前向训练的时候会计算所有N个ROI的loss，然后将这N个ROI（包括positive和negative）按照loss高低进行排序，最后在backpropagation阶段只将loss最高的B个ROI的loss回传。详细可以参考OHEM算法。

因此再来简单梳理一下网络结构：首先输入图像经过一个全卷积网络（比如ResNet），然后一方面在最后一个卷积层后面添加特殊的卷积层生成position-sensitive的score map，另一方面全卷积网络的某个卷积层（可能是最后一个卷积层）输出作为RPN网络的输入，RPN网络最后生成ROI。最后的POI Pooling层将前面的socre map和ROI作为输入，输出类别信息。另外回归部分和分类部分是并列的，详解看后面的Caffe代码。

Caffe的代码：

首先是数据读入操作，假设输出的data是136001000，im_info是13，gt_boxes是1*4，后面的所有维度都是以这个假设为前提。

然后ResNet，结构如下图。R-FCN主要是采用ResNet和RPN结构来训练。R-FCN的具体结构（以ResNet50为例）：conv1，maxpooling，conv2_x（在代码中用res2a_branch2a到res2c_branch2c表示，前面的字母a，b，c表示在conv2_x层需要循环3个大层，后面的a，b，c表示每个大层里面都有三个小层。另外还有res2a_branch1表示用1*1的256个卷积核卷积的结果。每个大层结束的时候都需要用Eltwise层合并，比如res2a_branch1和res2a_branch2c生成res2a，下一个大层则是res2a和res2b_branch2c座Eltwise合并），conv3_x，conv4_x，conv5_x。

然后是RPN网络，RPN网络以一个33的卷积核，pad=1，stride=1的512个卷积核的卷积层开始，输入是res4f层的输出，res4f层的输出即conv4_x最后的输出。该rpn_conv/33层的输出是151238*63。

然后是分类层和回归层，分类层采用11的卷积核，pad=0，stride=1的18（2(back ground/fore ground)9(anchors)）个卷积核的卷积层，分类层的输出是1183863。回归采用11的卷积核，pad=0，stride=1的36（49(anchors)）个卷积核的卷积层，回归层的输出是1363863。

Reshape层对分类层的结果做了一次维度调整，从1183863变成1234263，后面的342*63就代表该层所有anchor的数量。

下面这个层是用来从最开始读取的数据得到label和target。这里rpn_cls_score为1134263，rpn_bbox_targets为1363863，rpn_bbox_inside_weights为1363863，rpn_bbox_outside_weights为1363863。

损失函数如下：分类的损失采用SoftmaxWithLoss，输入是reshape后的预测的类别score(1234263)和真实的label(1134263)。回归的损失采用SmoothL1Loss，输入是rpn_bbox_pred(1363863)即所有anchor的坐标相关的预测，rpn_bbox_targets(1363863)，rpn_bbox_inside_weights(1363863)，rpn_bbox_outside_weights(1363863)。

然后是ROI Proposal，先用一个softmax层算出概率（1234263），然后再reshape到1183863。

然后是生成proposal，维度是1*5。

这一层生成rois（1511），labels（1111），bbox_targets（1811），bbox_inside_weights
（1811），bbox_outside_weights（181*1）。

至此RPN网络结束。

新的卷积层，其实就是在ResNet后面添加的卷积层，以res5c作为输入，用11的卷积核，pad=0的1024个卷积核的卷积层。得到110243863。

然后再分别跟两个卷积层，卷积核的大小都是1，pad=0，一个用于分类，一个用于回归。分类层如下：110293863，其中1029的含义在下图中也有解释，21是代表类别（VOC的20类加上背景1类），7是和ROI要划分成77的格子对应。

这个分类层的输出结果就是论文中的这个三维矩阵：

然后是回归层的输出：139238*63，与分类层类似。

开始进入ROI pooling操作了，上面一层，有两个输入：rfcn_cls（110293863）是预测的结果，rois（1511）是ROI，生成12177的结果。下面一层是均值池化，得到12111（cls_score），就是论文中vote的过程。

所以上面这两个操作就是对应论文中的这个图：

同理，回归也是类似的操作：生成1877和1811（bbox_pred）的结果。

最后就是损失和计算准确率层：

可以看出在ROI Pooling层后就没有卷积层和全连接层了。

总结：

R-FCN作为Faster RCNN的改进版，主要对原有的ROI Pooling层进行改进和移位，使得不会存在众多region proposal都得经过全连接层的情况，这样就加快了速度。另一方面改进是将原来的VGG16类型的主网络换成ResNet系列网络。而算法的另一部分RPN网络则和Faster RCNN基本差不多。总的来讲实验效果还是很不错的。

关于双塔模型的简单介绍 eso1983 python 算法推荐算法
双塔模型是一种常用于推荐系统和信息检索等领域的深度学习架构，其核心思想是将用户和物品分别映射到不同的向量空间，通过计算两个向量的相似度来预测用户对物品的偏好或相关性。1.python示例使用python语言来简单示例一下实现过程如下：importtensorflowastffromtensorflow.keras.layersimportInput,Dense,Embedding,Concaten
DeepSeek在协同过滤和深度学习技术中的应用场景 python算法(魔法师版) 深度学习人工智能
DeepSeek作为一个集成多种先进技术的平台，利用协同过滤和深度学习技术在多个领域实现了创新应用。以下是一些具体的场景和示例，展示了这些技术如何被应用于实际问题中。一、推荐系统电子商务协同过滤：在电商平台中，协同过滤用于根据用户的历史行为（如购买记录、浏览历史等）推荐相关商品。基于用户的相似性或项目的相似性来生成个性化推荐。Python深色版本fromsurpriseimportDataset,
一篇文章了解AI大神何凯明 Ai知识精灵人工智能
何凯明（KaimingHe）是一位在国际计算机视觉和深度学习领域享有盛誉的科学家。以下是对他的一些详细介绍：个人背景：何凯明出生于中国，后赴美国深造。他分别在2007年和2011年在清华大学获得学士和博士学位，专业是电子工程。职业经历：在完成博士学位后，何凯明加入了微软亚洲研究院（MicrosoftResearchAsia）。2015年，他加入了FacebookAIResearch（FAIR），成
在Qt中,slots 关键字有什么用？昊虹AI笔记 Qt 嵌入式 qt
有下面的Qt代码：#ifndefMAINWINDOW_H#defineMAINWINDOW_H#includeQT_BEGIN_NAMESPACEnamespaceUi{classMainWindow;}QT_END_NAMESPACEclassMainWindow:publicQMainWindow{Q_OBJECTpublic:MainWindow(QWidget*parent=nullptr
基于深度学习的物体分割技术：从理论到实践人工智能_SYBH 深度学习人工智能神经网络机器学习 lstm
1.引言物体分割（ObjectSegmentation）是计算机视觉中的一项核心任务，其目标是将图像中的不同物体或区域分离出来，通常分为语义分割和实例分割两种类型。随着深度学习的迅猛发展，尤其是卷积神经网络（CNN）的应用，物体分割技术已取得了显著的进展。它被广泛应用于医学影像分析、自动驾驶、视频监控、机器人感知等领域。在本篇博客中，我们将深入探讨基于深度学习的物体分割技术，介绍其发展历程、核心原
JS常见内置构造函数前端逍遥子 javascript 前端 vue.js
1.Object三个常用静态方法（静态方法就是只有构造函数Object可以调用的）作用：Object.keys静态方法获取对象中所有属性（键）consto={uname:'pink',age:18}//1.获得所有的属性名console.log(Object.keys(o))//返回数组['uname','age']注意：返回的是一个数组作用：Object.values静态方法获取对象中所有属性值
JavaScript 对象object this 构造函数澄清石灰水t JavaScript #JS基础 javascript
一、基本数据类型的不足：基本数据类型都是单一的值"hello"123true,值与值之间没有任何联系。exp：用基本数据类型创建一个人的信息（namegenderage）varname="邹邹";vargender="女";varage=18;虽然用基本数据类型创建出了人的相关信息，但是所创建的所有变量都是独立的，不能成为一个整体。二、什么是对象对象是一种复合数据类型，在对象中可以保存多个不同数据
增强现实引擎开发题库小小菜鸟白增强现实 ar 人工智能
增强现实引擎开发题库（60题完整版）一、单选题（共20题）VuforiaModelTargetGenerator工具用于生成（）。A.3D模型B.2D模型C.模型的视图D.矢量图形答案：C设计VuMark必须使用的工具是（）。A.PhotoshopB.AdobeIllustratorC.BlenderD.Maya答案：BVuforiaObjectScanner扫描的模型文件扩展名是（）。A..ad
动手学PyTorch建模与应用：从深度学习到大模型王国平 pytorch 人工智能数据分析 python 数据挖掘
在人工智能时代，机器学习技术日新月异，深度学习是机器学习领域中一个全新的研究方向和应用热点，它是机器学习的一种，也是实现人工智能的必由之路。深度学习的出现不仅推动了机器学习的发展，而且促进了人工智能技术的革新，已经被成功应用在语音识别、图像分类识别、地球物理、大语言模型等领域，具有巨大的发展潜力和价值。本书是一本带领读者快速学习PyTorch并将其运用于深度学习建模方向的入门指南，重点介绍了基于P
Unity按钮SetActive(true)之后无法触发点击事件的处理办法（备忘录） qq_39889893 Unity c#android 程序人生经验分享
不要手动禁用，而是用代码禁用不要直接在检视面板手动禁用按钮或物体，而是添加脚本，通过代码禁用，脚本中在Awake或Start方法中执行transform.gameObject.SetActive(false)；在需要显示的按钮或物体挂载脚本，执行SetActive(true)。这样就能完好地保存按钮的点击功能；还有一种比较消耗性能的方法，就是给每个物体或按钮添加CanvasGroup组件，默认设置
AI浪潮下程序员的职业转型与技术进阶之路 nbsaas-boot 人工智能
一、引言1.1研究背景与意义在科技飞速发展的当今时代，人工智能（AI）无疑是最为耀眼的技术领域之一。从早期简单的专家系统到如今复杂的深度学习模型，AI技术经历了从理论探索到广泛应用的巨大跨越，正以前所未有的速度改变着我们的生活和工作方式。近年来，AI技术取得了一系列突破性进展。以GPT系列为代表的大型语言模型，展现出强大的自然语言处理能力，能够实现文本生成、对话交互、代码编写等多种任务。根据《20
TensorFlow实现卷积神经网络CNN 红叶骑士之初 Tensorflow
一、卷积神经网络CNN简介卷积神经网络（ConvolutionalNeuralNetwork，CNN）最初是为解决图像识别等问题设计的，CNN现在的应用已经不限于图像和视频，也可用于时间序列信号，比如音频信号和文本数据等。CNN作为一个深度学习架构被提出的最初诉求是降低对图像数据预处理的要求，避免复杂的特征工程。在卷积神经网络中，第一个卷积层会直接接受图像像素级的输入，每一层卷积（滤波器）都会提取
OpenCV图像旋转90度的最简单方法时光荏苒- opencv 计算机视觉人工智能 OpenCV
OpenCV是一个功能强大的计算机视觉库，提供了许多图像处理和计算机视觉算法。在OpenCV中，图像旋转是一项常见的操作。本文将介绍如何使用OpenCV将图像旋转90度的最简单方法。步骤1：导入OpenCV库在Python中使用OpenCV库需要先导入库。可以使用以下代码导入OpenCV库：importcv2步骤2：读取图像使用OpenCV读取图像需要使用cv2.imread()函数。该函数接受一
vue-router的index.js文件配置参数公孙元二 Vue2.x vue3 vue 前端
RouteConfig的类型定义：interfaceRouteConfig={path:string,component?:Component,name?:string,//命名路由components?:{[name:string]:Component},//命名视图组件redirect?:string|Location|Function,props?:boolean|Object|Functi
Python ORM svygh123 python 编程 python 开发语言
Python中的ORM（Object-RelationalMapping）框架，其中最著名和广泛使用的两个是SQLAlchemy和DjangoORM。1.SQLAlchemySQLAlchemy是Python中功能最强大的SQL工具库之一，它不仅提供了ORM功能，还提供了核心的数据库SQL工具。它允许你用Python类来表示数据库表，并且可以使用Python代码而不是直接写SQL查询语句来操作数据
目标检测的超级英雄：YOLO带你识别世界星际编程喵 Python探索之旅目标检测 YOLO 目标跟踪人工智能计算机视觉 python
前言YOLO（YouOnlyLookOnce）是计算机视觉领域一颗璀璨的明星，它以高效、快速著称，成为目标检测算法的代表。今天，我们一起走进YOLO的世界，看看它如何神奇地识别图像中的物体。当然，不用担心，这篇文章会让你轻松理解，并且我会用幽默、通俗的语言给大家展示这项技术。相信我，看完之后，你会觉得YOLO不仅是个算法，更像是个看得懂、说得清的技术伙伴。简介YOLO不仅是一个简单的目标检测模型，
python-orm框架暮鼓晨钟nbv python orm 框架
首先见代码：#!/usr/bin/envpython3#encoding:utf-8#@File:__init__.py.py#@Author:LeonChu#@Time:2019-03-1515:45classField(object):def__init__(self,name,column_type):self.name=nameself.column_type=column_typedef
python orm框架有哪些 hakesashou python基础知识 python 数据库 sqlite
ORM概念ORM（ObjectRalationalMapping，对象关系映射）用来把对象模型表示的对象映射到基于SQL的关系模型数据库结构中去。这样，我们在具体的操作实体对象的时候，就不需要再去和复杂的SQL语句打交道，只需简单的操作实体对象的属性和方法。ORM技术是在对象和关系之间提供了一条桥梁，前台的对象型数据和数据库中的关系型的数据通过这个桥梁来相互转化。Python中常用的ORMSQLO
C# 装箱和拆箱(以及 as ,is) 幻想趾于现实 .NET C#c#开发语言
装箱（Boxing）是指将值类型转换为引用类型的过程拆箱（Unboxing）是将引用类型转换回值类型的过程。inta=1;objectb=a;//装箱objectobj=10;intnum=(int)obj;//拆箱ArrayListlist=newArrayList();list.Add(123);//装箱inti=(int)list[0];//拆箱操作符asis//as将对象转换成引用类型或者
打架检测系统：基于YOLOv5的实时人群打架行为识别 2025年数学建模美赛 YOLO 深度学习 ui 计算机视觉视觉检测
1.引言打架检测，作为一个复杂且具有挑战性的任务，已经在多个领域展现出其巨大的应用潜力，尤其是在公共安全监控、安防摄像头、智能城市等应用场景中。通过深度学习技术，尤其是基于YOLOv5的目标检测，我们能够对实时视频流中的人群行为进行实时监控，并有效地检测和识别人群中的打架行为。本博客将详细介绍如何使用YOLOv5模型搭建一个打架检测系统，包含数据集准备、YOLOv5训练、UI界面设计以及优化和部署
CXCardView：打造流畅的卡片交互体验裘珑鹏Island
CXCardView：打造流畅的卡片交互体验CXCardViewEasy,simpleandcard-styleoverlayonscreentodelivermessagetousers.项目地址:https://gitcode.com/gh_mirrors/cx/CXCardView随着移动应用界面设计向着更加动态和互动的方向发展，CXCardView——一个简洁而强大的Objective-C
深度学习目标检测中的_单目测距原理与实现关键点及改进建议 QQ_767172261 单目测距深度学习目标检测人工智能
深度学习目标检测中的_单目测距原理与实现关键点及改进建议文章目录单目测距的进一步解释1.焦距的确定2.物体宽度$W$的获取3.图像处理技巧4.提高性能的建议5.实现代码中的注释添加一、前言单目视觉测距：网上有很多关于单目测距的文章，主要借鉴的是OpenCV学习笔记（二十一）——简单的单目视觉测距尝试和单目摄像机测距（python+opencv）两篇文章，在这里特别作出说明。工作环境：Ubunt
Python 图像处理进阶：特征提取与图像分类极客代码玩转Python 玩转AI 开发语言 python 图像处理人工智能
特征提取特征提取是计算机视觉中的一个重要环节，它可以从图像中提取出有助于后续处理的特征，比如用于识别和分类的关键点、纹理等。常见的特征提取方法包括SIFT、SURF和ORB等。SIFT（尺度不变特征变换）SIFT是一种用于检测图像中的关键点及其描述符的方法。SIFT特征具有尺度不变性和旋转不变性，适用于图像匹配和识别。原理：SIFT通过在不同尺度的空间内寻找极值点来检测关键点，并利用梯度方向的直方
神经架构搜索：自动化设计神经网络的方法俊星学长架构自动化神经网络
神经架构搜索：自动化设计神经网络的方法一、引言在深度学习领域，神经网络架构的设计对模型的性能具有至关重要的影响。传统的神经网络设计依赖于专家经验和大量实验，这一过程繁琐且耗时。为了解决这一问题，神经架构搜索（NeuralArchitectureSearch,NAS）应运而生。NAS是一种自动化设计神经网络架构的方法，旨在通过搜索最优的神经网络结构来提高模型性能。本文将详细介绍神经架构搜索的定义、产
深度学习盛行，还记得哪些传统机器学习方法和模型？硬件学长森哥人工智能深度学习机器学习人工智能
开头森哥说：假期前后在准备成像技术的总结，目前已完成两部分，争取在摸索出一些编辑和运营技巧后，完善成一个系列和大家见面；当然也有可能会通过一些更加贴合摄影实用的角度出一些更加浅显的内容。最终如何呈现还需要慢慢摸索。传统机器学习是指在深度学习盛行之前开发的机器学习和人工智能技术。这些传统方法通常依赖于手工设计的特征提取和模型结构。而深度学习是一种机器学习技术，它通过深层神经网络从原始数据中学习特征表
1、PyTorch 简介找个栗子 PyTorch开始到sci pytorch 人工智能 python
PyTorch是什么？首先，我们讲PyTorch，我们先讲它的前身--torch。1、torchTorch是PyTorch的前身，Torch是一个有着悠久历史的机器学习框架，最初由RonanCollobert、SoumithChintala和KorayKavukcuoglu等人开发。Torch是以Lua语言为基础，在2002年左右就开始逐渐发展起来，在计算机视觉、自然语言处理等领域有一定的应用。o
【PyTorch】6.张量运算函数：一键开启！PyTorch 张量函数的宝藏工厂 Icomi_ 805.Pytorch入门 pytorch 人工智能 python c语言 c++深度学习机器学习
目录1.常见运算函数个人主页：Icomi专栏地址：PyTorch入门在深度学习蓬勃发展的当下，PyTorch是不可或缺的工具。它作为强大的深度学习框架，为构建和训练神经网络提供了高效且灵活的平台。神经网络作为人工智能的核心技术，能够处理复杂的数据模式。通过PyTorch，我们可以轻松搭建各类神经网络模型，实现从基础到高级的人工智能应用。接下来，就让我们一同走进PyTorch的世界，探索神经网络与人
OpenCV在Python 3.6中的安装与应用教程北海有座岛
本文还有配套的精品资源，点击获取简介：OpenCV是一个功能丰富的计算机视觉库，适用于图像处理和分析。本文将介绍如何在Python3.6环境下安装和使用OpenCV，包括处理网络安装困难时的替代方案。同时，本文也涵盖了如何通过预编译的二进制文件（.whl）简化安装过程，并介绍了OpenCV的扩展模块和基础使用方法。1.OpenCV简介和应用领域OpenCV简介OpenCV（OpenSourceCo
GEE python——gee_pyccd基于连续监测变化检测（Continuous Change Detection and Classification, CCDC）此星光明 GEE-PYTHON python 开发语言 gee ccdc 变化检测 py 连续性
目录简介gee_pyccdPyCCDCCDC算法代码1代码2结果简介gee_pyccd协调在GoogleEarthEngine数据上使用PyCCD的脚本。此存储库与Google或USGS没有正式关联。gee_pyccd是一个基于GoogleEarthEngine平台的Python库，用于对遥感时间序列数据进行变化检测和趋势分析。它实现了基于连续监测变化检测（ContinuousChangeDete
解决 ValueError: numpy.dtype size changed,may indicate binary incompatibility. Hence-zwh numpy python
省流：重新安装所有相关的依赖库pipuninstallnumpyscipypandaspipinstallnumpyscipypandas解决过程：运行我的train.py文件后有以下报错ValueError:numpy.dtypesizechanged,mayindicatebinaryincompatibility.Expected96fromCheader,got88fromPyObject
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

R-FCN算法及Caffe代码详解

要解决的问题：

算法概要：

算法详解：

Caffe的代码：

总结：

你可能感兴趣的:(深度学习,计算机视觉,目标检测-object,detection,深度学习与计算机视觉)