基于深度学习的无人机在室内走廊环境中的视觉导航

与激光雷达和雷达不同,使用单目摄像头作为无人机传感器的优势之一是它能够检测各种视觉特征,例如颜色、纹理和形状。这种适应性使其能够在各种室内和室外环境中表现良好。将单目摄像头用于无人机的另一个好处是,它允许更轻巧和灵活的设计。该摄像机不需要额外的硬件或复杂的信号处理系统,使其成为具有成本效益的选择。此外,单目摄像头可以灵活部署并集成到无人机中,从而实现各种应用,例如搜索和救援行动、监视和检查。我们提出了一个混合模型,该模型由残差神经网络(ResNet)和密集连接卷积网络(DenseNet)的组合组成,使配备单目摄像头的无人机(UAV)能够在室内走廊环境中自主导航,而无需使用其他计算繁重的方法,如SLAM。(见图1)我们提出的方法是在 nitrUAVCorridorV1 数据集上测试的,该数据集包含无人机在走廊内的不同位置。

基于深度学习的无人机在室内走廊环境中的视觉导航_第1张图片

图1 自主导航的无人机

我们的研究目标是开发一种方法,通过使用简单的摄像头实现自主无人机在走廊中导航。为了确保模型在实时场景中高效运行,我们引入了一种称为Res-Dense-Net的新方法。该方法结合了两种高性能模型,ResNet-50和DenseNet-161,在以前的研究中已被证明在时间和性能方面都是有效的。

ResNet-50

图2 所示的ResNet 架构是一种被广泛认可且有影响力的卷积神经网络 (CNN) 架构,在计算机视觉任务中打破了无数记录。它于2015年由Microsoft研究首次推出,由何等的原始论文引起了人们对残差网络(ResNet)独特设计的关注,该设计允许更高效的训练和更深入的网络架构。ResNet架构包括跳过连接,允许梯度在反向传播期间更好地传播并减少梯度消失,这在深度神经网络中一直是一个重大问题。ResNet 架构由几层组成,可以分为四个块。第一个块包含三个残差单元,带有64个过滤器,第二个块包含四个残差单元,带有128个过滤器,第三个块包含六个残差单元,带有256个过滤器,最后一个块包含三个残差单元,包含512个过滤器。在这些块之后,有一个全局平均池化层,它将特征映射的空间维度减少到单个值。最后,有一个具有1000个输出节点的全连接层,通常用于图像分类任务。

基于深度学习的无人机在室内走廊环境中的视觉导航_第2张图片

 

图2 ResNet 50架构

 DenseNet

DenseNet161是一种卷积神经网络 (CNN)架构,由Huang 等人于2017年推出。它是DenseNet系列模型的变体,该系列模型以其层之间的密集连接模式而闻名。DenseNet161架构由161层组成,因此得名。它具有与其他CNN相似的整体结构,具有一系列卷积,池化和全连接层。然而,DenseNet161与其他CNN的不同之处在于它使用密集连接。

基于深度学习的无人机在室内走廊环境中的视觉导航_第3张图片

 

DenseNet161的具体架构可以分为几个主要组件。(见图3)网络从单个卷积层开始,该卷积层接收输入图像并生成一组特征图。网络的主要构建块是密集块。每个密集块由几个卷积层组成,然后是批量归一化和 ReLU 激活函数。每层生成的特征图被连接起来,并作为输入传递给块中的所有后续层。为了降低密集块之间特征图的维数,网络包括过渡层。每个过渡层由一个卷积层组成,然后是批量归一化、ReLU 激活和池化操作。最后一个密集块之后是全局平均池化层,该层对所有空间维度的特征映射进行平均,以生成单个特征向量。全局平均池化层通过softmax激活连接到全连接层,从而产生最终输出概率。

 Res-Dense-Net

我们提出了一种用于室内走廊环境中无人机(UAV)视觉导航的新型架构,称为Res-Dense-Net。该架构由两个分支组成:ResNet-50 和DenseNet-161,它们是计算机视觉任务中广泛使用的卷积神经网络 (CNN) 架构。ResNet-50分支旨在通过使用残差单元捕获高级特征,而DenseNet-161分支旨在通过密集连接所有层来学习数据中更复杂的特征。

基于深度学习的无人机在室内走廊环境中的视觉导航_第4张图片

 

图4 Res-Dense-Net架构

如图4所示,两个分支的输出使用加权层组合。该加权层使Res-Dense-Net能够受益于ResNet-50和DenseNet-161的优势,因为它利用了它们的互补特性。ResNet-50分支通过使用跳过连接来帮助减少梯度消失问题,而DenseNet-161分支使网络能够学习数据中更复杂的特征。将两个分支的输出组合在一起后,Res-Dense-Net有一个由平均池化层、全连接(FC)层和softmax函数组成的公共分支。平均池化层将特征图的空间维度减少到单个值,而FC层输出无人机相对于环境的预测位置和方向。softmax函数用于规范化输出值,以便它们可以解释为概率。

NitrUAVCorridorV1数据集包含35,000个用于翻译的训练图像和600个测试图像,以及用于旋转的21,000个训练图像和300个测试图像。这些图像是在印度鲁尔克拉国家理工学院的80个不同的走廊拍摄的,分别有59个和21个走廊入口用于训练和测试。它包含3个类:“右”,“左”和“前进”。做出该决定的目的是避免无人机撞到障碍物。如果无人机位于CBL的左侧,系统将输出类“right”以启动右滚动命令(见图5)。

基于深度学习的无人机在室内走廊环境中的视觉导航_第5张图片

 

图5 无人机在垂直于 CBL 的水平线上的不同位置

我们的方法成功地实现了比其他模型更好的性能,这是意料之中的。这是通过结合两种流行的架构来实现的,这使我们能够利用两者的优势在各种任务中实现最先进的结果。这种方法还促进了跨多个密集块的特征重用,从而改善了梯度在网络中的流动。

然而,我们的方法比其他模型稍慢,因为在Res-Dense-Net中添加密集连接增加了参数的数量和计算复杂性。尽管这会导致计算速度变慢,但对于通过使用密集连接实现的性能显著提高,这是必要的权衡。总体而言,我们的方法通过展示结合不同架构以实现卓越结果的潜力,为机器学习领域做出了宝贵的贡献。

源自:2023 Integrated Communication, Navigation and Surveillance Conference (ICNS) | 979-8-3503-3362-6/23/$31.00 ©2023 IEEE | DOI: 10.1109/ICNS58246.2023.10124261

你可能感兴趣的:(学术分享,深度学习,无人机,人工智能)