计算机视觉life

实战 | 源码入门之Faster RCNN

前言

学习深度学习和计算机视觉，特别是目标检测方向的学习者，一定听说过Faster Rcnn；在目标检测领域，Faster Rcnn表现出了极强的生命力，被大量的学习者学习，研究和工程应用。网上有很多版本的Faster RCNN的源码，但是很多版本代码太过于庞大，对新入门的学习者学习起来很不友好，在网上苦苦寻找了一番后终于找到了一个适合源码学习的Faster Rcnn的pytorch版本代码。

根据该版本的作者讲该代码除去注释只有两千行左右，并且经过小编的一番学习之后，发现该版本的代码真的是非常的精简干练，读起来“朗朗上口”，并且深刻的感觉到作者代码功底之深厚。在此先附上源码的地址(https://github.com/chenyuntc/simple-faster-rcnn-pytorch) ,并对源码作者（陈云）表示由衷的感谢和深深地敬意。

本文章主要的目的是对该版本代码的主要框架进行梳理，希望能够对一些想学习源码的读者有一定的帮助。

本文作者：白俊杰

代码的主要文件

实战 | 源码入门之Faster RCNN_第1张图片

-data文件中主要是文件的与dataset相关的文件

-misc中有下载caffe版本预训练模型的文件，可以不看

-model文件中主要是与构建Faster Rcnn网络模型有关的文件

-utils中主要是一些辅助可视化和验证的文件

-train.py是整个程序的运行文件，下面有一部分会做介绍

-trainer.py文件主要是用于训练，模型的损失函数的计算都在这个文件中

train

先来看一下train.py里的主要内容：

def train(train(**kwargs)):    #训练网络的主要内容（位于train.py文件中）
  opt._parse(kwargs)
  dataset = Dataset(opt)      #读取用于训练的图片及进行相关的预处理（在下文的dataset部分做详细介绍）
  dataloader = data_.DataLoader(dataset, \
                                batch_size=1, \
                                shuffle=True, \
                                # pin_memory=True,
                                num_workers=opt.num_workers)
  testset = TestDataset(opt)  #读取用于测试的图片及进行相关的预处理
  test_dataloader = data_.DataLoader(testset,
                                     batch_size=1,
                                     num_workers=opt.test_num_workers,
                                     shuffle=False, \
                                     pin_memory=True
                                     )
  faster_rcnn = FasterRCNNVGG16()    #网络结构，包含主要Extractor,RPN和RoIHead三部分结构。
  trainer = FasterRCNNTrainer(faster_rcnn).cuda()  #主要包含模型的训练过程的

  for epoch in range(opt.epoch):#开始迭代训练
        trainer.reset_meters()
        for ii, (img, bbox_, label_, scale) in tqdm(enumerate(dataloader)):
            scale = at.scalar(scale)
            img, bbox, label = img.cuda().float(), bbox_.cuda(), label_.cuda()
            trainer.train_step(img, bbox, label, scale)  #执行训练

从train.py中的主要函数可以看出，主要的步骤涉及训练数据和测试数据的预处理，网络模型的构建（Faster RCNN），然后就是迭代训练，这也是通用的神经网络搭建和训练的过程。在Faster Rcnn网络模型中主要包含Extractor、RPN和RoIhead三部分。网络中Extractor主要是利用CNN进行特征提取，网络采用的VGG16；RPN是候选区网络，为RoIHead模块提供可能存在目标的候选区域（rois）；RoIHead主要负责rois的分类和微调。整体的框架图如下图所示：

实战 | 源码入门之Faster RCNN_第2张图片

图片来源于陈云的知乎

Dataset

在本版本的代码中读取的数据格式为VOC，Dataset和TestDataset类分别负责训练数据和测试数据的读取及预处理。在预处理部分主要的操作就是resize图像的大小、像素值的处理以及图像的随机翻转。主要的内容如下：

class Dataset:     #训练数据预处理（位于data/dataset.py文件中）
    def __init__(self, opt):
        self.opt = opt
        self.db = VOCBboxDataset(opt.voc_data_dir)  #读取VOC格式的数据，包括图像和label（.xml）
        self.tsf = Transform(opt.min_size, opt.max_size) #resize图像的大小，在代码中默认长边小于等于1000，\
        #短边小于等于600，两个边至少有一个等于其值，然后对图像像素值减去均值,使得像素均值为零，并对图像进行随机翻转（具体细节代码见**）

    def __getitem__(self, idx):
        ori_img, bbox, label, difficult = self.db.get_example(idx)
        img, bbox, label, scale = self.tsf((ori_img, bbox, label))
        return img.copy(), bbox.copy(), label.copy(), scale

    def __len__(self):
        return len(self.db)
class TestDataset:
    pass          #与class Dataset相似，没有图像翻转过程（具体内容见data/dataset.py文件中TestDataset）

FasterRCNNVGG16

下面主要介绍Extractor、RPN和RoIHead三部分结构

Extractor

extractor, classifier = decom_vgg16() #该行代码位于model/faster_rcnn_vgg16.py中的FasterRCNNVGG16类中

Extractor部分主要使用的VGG16的网络结构，同时使用预训练好的模型提取图片的特征。论文中主要使用的是Caffe的预训练模型，根据代码的作者讲该版本的预训练模型效果比较好。

为了节约显存，作者将前四层卷积层的学习率设置为0，Conv5_3的输入作为图片的特征输入到RPN网络中。根据网络结构，Conv5_3部分的感受野为16，也就是相较于输入的图片大小，feature map的尺寸为(C,H/16,W/16).该部分网络结构图如下所示：

实战 | 源码入门之Faster RCNN_第3张图片

具体的decom_vgg16()代码如下：

def decom_vgg16():    #该段落代码位于model/faster_rcnn_vgg16.py中
    # the 30th layer of features is relu of conv5_3
    if opt.caffe_pretrain:  #使用caffe版本的预训练模型
        model = vgg16(pretrained=False)  #使用pytorch中自带的vgg16模型
        if not opt.load_path:
            model.load_state_dict(t.load(opt.caffe_pretrain_path)) #加载caffe版本的预训练模型，需要自己下载。
    else:
        model = vgg16(not opt.load_path)

    features = list(model.features)[:30]    #提取特征的网络
    classifier = model.classifier          #classifier在RoIhead部分使用

    classifier = list(classifier)
    del classifier[6]
    if not opt.use_drop:                #是否使用dropout
        del classifier[5]
        del classifier[2]
    classifier = nn.Sequential(*classifier)  #分类器网络

    # 冻结前四层卷积层
    for layer in features[:10]:
        for p in layer.parameters():
            p.requires_grad = False

    return nn.Sequential(*features), classifier

RPN

Faster RCNN中最突出的贡献就是提出了Region Proposal Network(RPN),将候选区域提取的时间开销几乎降为0。该模块的主要作用提供可能存在目标的候选区域rois。模块结构图如下所示：

实战 | 源码入门之Faster RCNN_第4张图片

图片来源于陈云的知乎

class RegionProposalNetwork(nn.Module):   #代码中实现RPN的类（代码位于model/region_proposal_network.py中）

  def __init__():#省略，具体看先关文件
  # ......
  def forward(self, x, img_size, scale=1.):
      #x: Extractor模块处理后的特征图，形状为(N, C, H, W)
      #img_size : 输入图像的大小
      #scale : 网络下采样的尺寸大小
      n, _, hh, ww = x.shape
      anchor = _enumerate_shifted_anchor(   #枚举所有anchor
          np.array(self.anchor_base),
          self.feat_stride, hh, ww)

      n_anchor = anchor.shape[0] // (hh * ww)  #一个anchor产生的锚点框
      h = F.relu(self.conv1(x))  #激活函数

      rpn_locs = self.loc(h)     #卷积产生每个锚点框的位置
      rpn_locs = rpn_locs.permute(0, 2, 3, 1).contiguous().view(n, -1, 4)
      rpn_scores = self.score(h)  #卷积产生每个锚点框的评分
      rpn_scores = rpn_scores.permute(0, 2, 3, 1).contiguous()
      rpn_softmax_scores = F.softmax(rpn_scores.view(n, hh, ww, n_anchor, 2), dim=4) #softmax操作
      rpn_fg_scores = rpn_softmax_scores[:, :, :, :, 1].contiguous()
      rpn_fg_scores = rpn_fg_scores.view(n, -1)
      rpn_scores = rpn_scores.view(n, -1, 2)

      rois = list()
      roi_indices = list()
      for i in range(n):
          roi = self.proposal_layer(            #根据每个锚点的评分选出对应的候选区域
              rpn_locs[i].cpu().data.numpy(),
              rpn_fg_scores[i].cpu().data.numpy(),
              anchor, img_size,
              scale=scale)
          batch_index = i * np.ones((len(roi),), dtype=np.int32)
          rois.append(roi)
          roi_indices.append(batch_index)

      rois = np.concatenate(rois, axis=0)
      roi_indices = np.concatenate(roi_indices, axis=0)
      return rpn_locs, rpn_scores, rois, roi_indices, anchor

RoIHead

RoIhead主要任务是对RPN网络选出的候选框进行分类和回归，在RoIhead中作者提出了RolPooling方法将不同尺度的候选区域全部pooling到一个尺度上。模块结构图如下所示：

实战 | 源码入门之Faster RCNN_第5张图片

图片来源于陈云的知乎

class VGG16RoIHead(nn.Module):                         #代码位于model/faster_rcnn_vgg16.py中
    def __init__(self, n_class, roi_size, spatial_scale,
                 classifier):
        # n_class includes the background
        super(VGG16RoIHead, self).__init__()

        self.classifier = classifier                   #vgg16的两层全连接，可见文中的Extractor部分VGG16的结构图
        self.cls_loc = nn.Linear(4096, n_class * 4)    #输出目标区域位置
        self.score = nn.Linear(4096, n_class)          #输出预测类别

        normal_init(self.cls_loc, 0, 0.001)            #正则化
        normal_init(self.score, 0, 0.01)

        self.n_class = n_class                         #类别
        self.roi_size = roi_size                       #roi大小
        self.spatial_scale = spatial_scale             #空间尺度
        self.roi = RoIPooling2D(self.roi_size, self.roi_size, self.spatial_scale)

    def forward(self, x, rois, roi_indices):
        #......省略
        pool = self.roi(x, indices_and_rois)     #RoI池化部分
        pool = pool.view(pool.size(0), -1)       #降维
        fc7 = self.classifier(pool)              #VGG16的两层全连接
        roi_cls_locs = self.cls_loc(fc7)         #预测出位置
        roi_scores = self.score(fc7)             #分类
        return roi_cls_locs, roi_scores

运行代码

整体来说该版本的代码环境相当简单，配置起来相当容易，没有什么坑，认真阅读作者的readme就好。在utils文件中有一个config.py文件，在里边可以修改文件读取的路径，学习率等参数，自己运行时根据自己的情况进行修改即可。小编运行自己的数据（非VOC2007）结果如下图：

实战 | 源码入门之Faster RCNN_第6张图片

总结

本篇文章主要的目的是推荐一个适合源码学习的Faster rcnn版本给大家，并对代码框架做了初步的介绍，希望对大家的源码学习有一定的帮助，由于整个算法实现的代码较为复杂，且细节比较多，很难通过一篇文章进行详细的说明，如果大家对本版本的代码感兴趣，可以自己阅读源码学习。在学习源码的时候我个人是有很多感想的，作为一个小白，通过源码的学习真的学习到了很多，之前论文阅读过几遍，别的版本的代码也拿来训练过数据，但是读了这个的源码，又如发现了新大陆，很多算法的细节和精髓才算有了深刻的理解，真的是纸上得来终觉浅，绝知此事要coding。除了算法本身，在一些代码的实现上也有很多的学习，真的感受到代码作者的功力深厚，再次对作者表示深深地敬意.最后留个问题，在阅读源码的时候，发现作者使用了visdom进行可视化，如运行的截图，小编还知道pytorch中一个可视化工具tensorboardX，但都不是很熟悉，还请知情人士在下方留言，详细的讲解一下两种可视化工具的优劣。由于小编是一个刚入门（入坑）的学习者，文章中的不当之处还请大家谅解和提出，很希望能与大家一起讨论学习。

最后再次放上源码链接：https://github.com/chenyuntc/simple-faster-rcnn-pytorch

参考：

https://zhuanlan.zhihu.com/p/32404424

https://www.cnblogs.com/kerwins-AC/p/9734381.html

推荐阅读

实战 | 相机标定
实战 | 图像矫正技术
实战 | Unity下ARKit与OpenCV的结晶
实战 | 基于SegNet和U-Net的遥感图像语义分割
实战 | 文字定位与切割
我用MATLAB撸了一个2D LiDAR SLAM
原来CNN是这样提取图像特征的。。。
最佳机器/深度学习课程 Top 5 ，吴恩达占了俩
机器学习必学十大算法
语义分割如何「拉关系」?
YOLO简史
这可能是「多模态机器学习」最通俗易懂的介绍
算力限制场景下的目标检测实战浅谈
开源 | 用深度学习让你的照片变得美丽
面试时让你手推公式不在害怕 | 线性回归
面试时让你手推公式不在害怕 | 梯度下降
深度学习在计算机视觉各项任务中的应用
干货 | 深入理解深度学习中的激活函数

你可能感兴趣的:(视觉SLAM)

视觉SLAM十四讲学习笔记——第十讲后端优化（2）晒月光12138 视觉SLAM十四讲学习笔记 slam ubuntu
上文提到考虑全局的后端优化计算量非常大，因此在计算增量方程时，借助H矩阵的稀疏性加速运算。但是随着时间的推移，累积的相机位姿和路标数量还是会导致计算量过大，以上一节的示例代码数据为例：16张图像，共提取到22106个特征点，这些特征点共出现了83718次。对于一个20Hz更新速度，上述的数据量甚至还不到1s的内容，因此在求解大规模定位建图问题时，一定要控制BA的规模。这里主要有两种解决思路：（1）
视觉slam十四讲学习笔记（六）视觉里程计 1 苦瓜汤补钙视觉SLAM十四讲笔记机器学习 ubuntu
本文关注基于特征点方式的视觉里程计算法。将介绍什么是特征点，如何提取和匹配特征点，以及如何根据配对的特征点估计相机运动。目录前言一、特征点法1特征点2ORB特征FAST关键点BRIEF描述子3特征匹配二、实践：特征提取和匹配三、2D-2D:对极几何1对极约束2本质矩阵3单应矩阵四、实践：对极约束求解相机运动五、三角测量总结前言1.理解图像特征点的意义,并掌握在单幅图像中提取出特征点，及多幅图像中匹
视觉SLAM十四讲学习笔记——第五讲相机与图像晒月光12138 视觉SLAM十四讲学习笔记自动驾驶计算机视觉人工智能
这一讲主要内容就是了解摄像机的成像模型以及OpenCV的使用。1.四种坐标系坐标系基本描述世界坐标系因为摄像机和物体可以随便摆放在空间中的任何位置，所以我们必须用一个固定的坐标系来描述空间中任何物体的位置和摄像机的位置和朝向，这个基准坐标系我们称之为世界坐标系。在计算机视觉中，我们通常把世界坐标系定义为摄像机坐标系或者所观测的物体的中心。摄像机坐标系摄像机坐标系的原点是摄像机的光心，X、Y轴分别平
视觉slam十四讲学习笔记（四）相机与图像苦瓜汤补钙视觉SLAM十四讲笔记相机机器学习
理解理解针孔相机的模型、内参与径向畸变参数。理解一个空间点是如何投影到相机成像平面的。掌握OpenCV的图像存储与表达方式。学会基本的摄像头标定方法。目录前言一、相机模型1针孔相机模型2畸变单目相机的成像过程3双目相机模型4RGB-D相机模型二、图像计算机中图像的表示三、图像的存取与访问1安装OpenCV2存取与访问总结前言前面介绍了“机器人如何表示自身位姿”的问题，部分地解释了SLAM经典模型中
ORB-SLAM3运行自制数据集进行定位教程极客范儿 ORB-SLAM ━═━═━◥MR ◤━═━═━IMU ORB-SLAM3
目前手上有一个特定的任务，做应急救援的视觉SLAM，目前公共数据集比较少，考虑自建数据集，从网络上爬虫火灾、地震的等手机录制的视屏，应用一些现有成熟ORB-SLAM3系统到这个数据集上看效果，然后根据效果得到一些模型改进思路。文章目录一、系统配置二、制作数据集1、脚本编写2、配置文件编写3、录制视频素材4、修改CMakeLists.txt5、编译运行一、系统配置系统版本ubuntu20.04Ope
视觉SLAM十四讲学习笔记（二）三维空间刚体苦瓜汤补钙视觉SLAM十四讲笔记计算机视觉算法
哔哩哔哩课程连接：视觉SLAM十四讲ch3_哔哩哔哩_bilibili目录一、旋转矩阵1点、向量、坐标系2坐标系间的欧氏变换3变换矩阵与齐次坐标二、实践：Eigen（1）运行报错记录与解决三、旋转向量和欧拉角1旋转向量2欧拉角四、四元数1四元数的定义2四元数的运算3用四元数表示旋转4四元数到旋转矩阵的转换五、实践：Eigen（2）useGeometryvisualizeGeometry总结前言问题
视觉slam十四讲学习笔记（三）李群与李代数苦瓜汤补钙视觉SLAM十四讲笔记人工智能学习
1.理解李群与李代数的概念，掌握SO(3),SE(3)与对应李代数的表示方式。2.理解BCH近似的意义。3.学会在李代数上的扰动模型。4.使用Sophus对李代数进行运算。目录前言一、李群李代数基础1群2李代数的引出3李代数的定义4李代数so(3)5李代数se(3)二、指数与对数映射1SO(3)上的指数映射2SE(3)上的指数映射三、李代数求导与扰动模型1BCH公式与近似形式2SO(3)李代数上的
视觉SLAM十四讲学习笔记（一）初识SLAM 苦瓜汤补钙计算机视觉人工智能
目录前言一、传感器1传感器分类2相机二、经典视觉SLAM框架1视觉里程计2后端优化3回环检测4建图5SLAM系统三、SLAM问题的数学表述四、Ubuntu20.04配置SLAM十四讲前言SLAM:SimultaneousLocalizationandMapping同时定位与地图构建（建图）。搭载特定传感器的主体，在没有环境先验信息的情况下，于运动过程中建立环地的模型。同时储计自己的运动。视觉SLA
【SLAM14讲编译依赖软件源码版本方面等问题汇总】终问鼎自动驾驶-SLAM c++自动驾驶 bug linux ubuntu
"逆转鹈鹕”0.视觉SLAM十四讲1.ch3-------Eigen32.ch4-------Sophus2.ch5-------JoinMap3.ch63.1---ceres3.2---g2o4.ch7--视觉里程计5.--ch8associate.py6.--ch9project以下是本人在学习SLAM中遇到的全部问题汇总（主要是依赖和软件方面的）。0.视觉SLAM十四讲1.ch3------
《视觉SLAM十四讲》第九讲前段实践中g2o实践代码报错解决方法大二哈
在《视觉SLAM十四讲》中针对于g2o初始化部分代码是无法执行的，在高博的Git上的代码也是无法编译的，会报错：error:nomatchingfunctionforcallto‘g2o::BlockSolver>::BlockSolver(g2o::BlockSolver>::LinearSolverType*&)’定位报错的代码段如下：typedefg2o::BlockSolver>Block
计算机视觉中的Homography单应矩阵应用小结 CS_Zero SLAM 计算机视觉CV 计算机视觉 slam 几何学
计算机视觉中的Homography（单应）矩阵应用小结Homography矩阵在StructurefromMotion(SfM)或三维重建、视觉SLAM的初始化过程有着重要应用，本文总结了单应矩阵出现场景与常见问题求解。文章目录计算机视觉中的Homography（单应）矩阵应用小结单应矩阵的推导单应矩阵的求解与分解位姿问题单应矩阵的推导一般地，单应模型出现的前提条件是空间点分布在同一个平面上，例外
【视觉SLAM十四讲学习笔记】第六讲——状态估计问题趴抖视觉SLAM十四讲学习笔记笔记 SLAM
专栏系列文章如下：【视觉SLAM十四讲学习笔记】第一讲——SLAM介绍【视觉SLAM十四讲学习笔记】第二讲——初识SLAM【视觉SLAM十四讲学习笔记】第三讲——旋转矩阵【视觉SLAM十四讲学习笔记】第三讲——旋转向量和欧拉角【视觉SLAM十四讲学习笔记】第三讲——四元数【视觉SLAM十四讲学习笔记】第三讲——Eigen库【视觉SLAM十四讲学习笔记】第四讲——李群与李代数基础【视觉SLAM十四讲
【视觉SLAM十四讲学习笔记】第六讲——非线性最小二乘趴抖视觉SLAM十四讲学习笔记笔记 SLAM
专栏系列文章如下：【视觉SLAM十四讲学习笔记】第一讲——SLAM介绍【视觉SLAM十四讲学习笔记】第二讲——初识SLAM【视觉SLAM十四讲学习笔记】第三讲——旋转矩阵【视觉SLAM十四讲学习笔记】第三讲——旋转向量和欧拉角【视觉SLAM十四讲学习笔记】第三讲——四元数【视觉SLAM十四讲学习笔记】第三讲——Eigen库【视觉SLAM十四讲学习笔记】第四讲——李群与李代数基础【视觉SLAM十四讲
INDEMIND双目惯性模组运行实时ORB-SLAM3教程极客范儿 ORB-SLAM ━═━═━◥MR ◤━═━═━ORB-SLAM3 INDEMIND ROS ubuntu 20.04 imu
现在实验室视觉SLAM已经不够满足，所以需要多模态融合，正巧购入高翔博士推荐的INDEMIND双目惯性模组，根据官方例程在中使用ROS接入ORB-SLAM3，这回有SDK及ORB-SLAM3安装过程中的各种常见性问题解决方法及安装细节，与官网教程略有不同，列举所有默认安装的依赖，做以记录。文章目录实验环境一、SDK安装1、SDK下载及准备安装2、安装依赖3、然后使用git下载SDK4、准备安装SD
科普类（双目视觉）——快速索引 JANGHIGH 科普类无人驾驶快速索引自动驾驶
科普类（双目视觉）——快速索引科普类——双目视觉在无人驾驶汽车中的应用（一）科普类——双目视觉SLAM在无人驾驶汽车中的作用（二）科普类——双目视觉在自动驾驶中存在的问题、挑战以及解决方案（三）科普类——双目视觉系统在无人驾驶汽车中的安装位置（四）科普类——基线的设计对于系统的性能的直接影响（五）科普类——百度Apollo使用的双目系统的硬件型号（六）科普类——进行基线设计、系统测试和优化的立体视
科普类——双目视觉SLAM在无人驾驶汽车中的作用（二） JANGHIGH 科普类无人驾驶汽车人工智能
科普类——双目视觉SLAM在无人驾驶汽车中的作用（二）在无人驾驶汽车中，视觉SLAM（SimultaneousLocalizationandMapping，即同时定位与地图构建）是一种关键技术，它允许车辆在未知环境中进行自我定位和地图构建。双目视觉系统在视觉SLAM中的应用起到了以下作用：精确定位：双目视觉系统通过计算两幅图像之间的视差，可以提供精确的深度信息。这些信息有助于SLAM算法更准确地估
【ORB-SLAM2源码梳理1】以单目mono_tum.cc为例，构建SLAM系统（含mono_tum.cc、System.cc关键代码解析） Jay_z在造梦 ORB-SLAM2 c++slam orb
文章目录前言一、进入mono_tum.cc1.导入TUM数据集图片：LoadImages()2.构建SLAM系统：System3.系统构建结束，开启跟踪线程1）一帧帧地读取对应路径下的rgb图像：2）将图像帧传入Tracking线程，开始一系列操作（关键）：二、代码导图前言因为对于视觉SLAM而言，单目涉及初始化等步骤，相对于双目和RGBD较为复杂，故从单目学起。学习记录。一、进入mono_tum
手把手带你死磕ORBSLAM3源代码(六十四) LocalMapping.cc LocalMapping Run 安城安数据库服务器网络运维 vim linux c语言
目录一.前言二.代码2.1完整代码一.前言以下是对该方法功能的详细解释：mbFinished被设置为false，表示局部映射过程尚未完成。方法进入一个无限循环，这是因为在视觉SLAM中，局部映射是一个持续进行的过程，需要不断地处理新的关键帧和地图点。通过调用SetAcceptKeyFrames(false)方法，局部映射告诉追踪器（Tracker）它目前正在忙，不应该接受新的关键帧。这是为了确保局
视觉SLAM十四讲|【四】误差Jacobian推导影子鱼Alexios algorithm 机器学习机器人
视觉SLAM十四讲|【四】误差Jacobian推导预积分误差递推公式ω=12((ωbk+nkg−bkg)+(wbk+1+nk+1g−bk+1g))\omega=\frac{1}{2}((\omega_b^k+n_k^g-b_k^g)+(w_b^{k+1}+n_{k+1}^g-b_{k+1}^g))ω=21((ωbk+nkg−bkg)+(wbk+1+nk+1g−bk+1g))其中，wbkw_b^kw
视觉SLAM十四讲|【六】基于特征匀速模型的重投影误差计算形式影子鱼Alexios algorithm 控制理论机器学习机器人人工智能
视觉SLAM十四讲|【六】基于特征匀速模型的重投影误差计算形式基本推导方法无时间戳延迟时，残差计算流程：世界坐标系中的第lll个地图点变换到相机坐标系下为flw=[x,y,z]Tf_l^w=[x,y,z]^Tflw=[x,y,z]T变换到相机坐标系下为flci=RcbRwbiT(flw−pwbi)+pcbf_l^{c_i}=R_{cb}R_{wb_i}^T(f_l^w-p_{wb_i})+p_{c
《SLAM十四讲》Ch7编译报错 Prejudices SLAM SLAM
《SLAM十四讲》Ch7编译报错原因：视觉SLAM书上的程序使用的g2o版本比较旧了，使用的是c++11版本的g2o。而自己在编译g2o的时候编译的是最新版本的g2o，里面大量使用了c++14标准库的一些新特性，比如std::index_sequence等等。而书上的CMakeLists.txt默认使用的是c++11进行cmake编译，所以报错解决：CMakeLists.txt中更改如下：set(
openvslam------slam解读系列 xiechaoyi123 SLAM系列 slam optimization
是什么:openvslam是日本先进工业科技研究（NationalInstituteofAdvancedIndustrialScienceandTechnology）所于2019年5月20日开源的视觉SLAM框架;github源码地址：https://github.com/xdspacelab/openvslam干什么的：先上图：通过不同类型的相机（单目，双目，RGBD，鱼眼或者全景相机）拍摄的序
ORB_SLAM3：IMU初始化过程梳理以及自己的理解追风筝的人～TH ORB_SLAM3 计算机视觉人工智能 c++
LocalMapping线程中IMU初始化:1、为什么要进行初始化？因为无法保证世界坐标系（单目初始化参考关键帧）的Z轴正好与重力方向平行，二者有角度，计算该角度的过程就是IMU初始化的过程。2、IMU初始化过程中不断优化尺度，在单目相机的视觉SLAM中，尺度指的是场景中真实物体的物理尺寸与它在相机图像中所对应的像素距离之间的比例关系。在视觉SLAM中，尺度是一个非常重要的概念，因为它决定了相机观
第一个项目总结：双目测距（python代码转为c++代码，最终输出点云图，再转为ros点云图，再实现可视化） zerogin+ c++opencv 开发语言
目录1.双目成像原理2.双目测距python代码3.python代码转为c++代码(1)双目相机参数（2）立体校正（3）立体匹配4.opencv的点云图转为ros点云图1.双目成像原理摘自《视觉SLAM十四讲》2.双目测距python代码(46条消息)双目测距理论及其python实现_python双目测距_javastart的博客-CSDN博客具体过程为：双目标定-->立体校正（含消除畸变）-->
SLAM中的二进制词袋生成过程和工作原理深蓝学院机器学习人工智能
长期视觉SLAM(SimultaneousLocalizationandMapping)最重要的要求之一是鲁棒的位置识别。经过一段探索期后，当长时间未观测到的区域重新观测时，标准匹配算法失效。当它们被健壮地检测到时，回环检测提供正确的数据关联以获得一致的地图。用于环路检测的相同方法可用于机器人在轨迹丢失后的重新定位，例如由于突然运动，严重闭塞或运动模糊。词袋的基本技术包括从机器人在线收集的图像中建
【视觉SLAM十四讲学习笔记】第五讲——相机模型趴抖视觉SLAM十四讲学习笔记笔记 SLAM
专栏系列文章如下：【视觉SLAM十四讲学习笔记】第一讲——SLAM介绍【视觉SLAM十四讲学习笔记】第二讲——初识SLAM【视觉SLAM十四讲学习笔记】第三讲——旋转矩阵【视觉SLAM十四讲学习笔记】第三讲——旋转向量和欧拉角【视觉SLAM十四讲学习笔记】第三讲——四元数【视觉SLAM十四讲学习笔记】第三讲——Eigen库【视觉SLAM十四讲学习笔记】第四讲——李群与李代数基础【视觉SLAM十四讲
2023-01-04日志独孤西
今天学习了惯导的一节课与视觉SLAM视觉里程计的部分知识。惯性导航方面，主要学习了加速度计和陀螺的基本实现原理，了解了不同类型的惯性传感器，区分ISA、IMU、INS，知道了平台式与捷联式的区别，对惯导的精度等级分类也有了了解，并对惯导发展历史进行了学习。视觉里程计方面，主要学习了ORB特征点法的工作原理，了解了对极几何的原理，对视觉里程计的2D-2D估计过程有了更全面的了解。视觉SLAM的数学原
视觉SLAM十四讲|【五】相机与IMU时间戳同步影子鱼Alexios 机器人机器学习
视觉SLAM十四讲|【五】相机与IMU时间戳同步相机成像方程Z[uv1]=[fx0cx0fycy001][XYZ]=KPZ\begin{bmatrix}u\\v\\1\end{bmatrix}=\begin{bmatrix}f_x&0&c_x\\0&f_y&c_y\\0&0&1\end{bmatrix}\begin{bmatrix}X\\Y\\Z\end{bmatrix}=KPZuv1=fx000
视觉SALM与激光SLAM的区别 Jiqiang_z LOAM系列阅读笔记 SLAM学习笔记机器学习人工智能深度学习
前言：这里比较一下视觉SLAM和激光SLAM的区别，仅比较其在算法层面上的一些不同，这里拿视觉SLAM算法：ORB-SLAM系列和激光SLAM算法：LOAM系列对比。一：特征提取1.ORB-SLAM（视觉SLAM）ORB-SLAM算法采用ORB特征点，ORB特征点一般提取在角点上面，每一个ORB特征点具有以下信息：位置信息：该ORB特征点所在的图像像素坐标。描述子信息：用来描述该特征点的周围信息。
视觉SLAM和激光SLAM适合的应用领域以及哪个更有前景稻壳特筑 SLAM SLAM
目录视觉SLAM的应用领域激光SLAM的应用领域视觉SLAM优势和局限性激光SLAM优势和局限性发展趋势和前景视觉SLAM的应用领域增强现实（AR）和虚拟现实（VR）：视觉SLAM能够提供丰富的视觉信息，有助于在现实世界中叠加虚拟图像，适用于AR眼镜和VR头显。消费电子产品：在智能手机、平板电脑等设备上，视觉SLAM可以用于室内导航、三维建模和交互游戏。机器人：小型或成本敏感的机器人，如家用清洁机
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他