UniSeg:一种统一的多模激光雷达分割网络及OpenPCSeg代码库
https://arxiv.org/abs/2309.05573
点视图、体素视图和范围视图是点云的三种代表形式。它们都具有精确的3D测量,但缺乏颜色和纹理信息。RGB图像是这些点云视图的自然补充,充分利用它们的综合信息有利于更强大的感知。在本文中,我们提出了一个统一的多模态LiDAR分割网络,称为UniSeg,它利用的信息的RGB图像和三个视图的点云,并完成语义分割和全景分割同时。具体而言,我们首先设计了可学习的跨模态关联(LMA)模块,自动融合体素视图和距离视图特征与图像特征,充分利用图像丰富的语义信息,并具有鲁棒性的校准误差。然后,增强的体素视图和距离视图特征被转换到点空间,其中的三个点云特征的视图进一步自适应融合的学习交叉视图关联模块(LVA)。值得注意的是,UniSeg在三个公共基准中取得了令人鼓舞的结果,即,SemanticKITTI、nuScenes和Waymo开放数据集(WOD);它在两个基准测试的两个挑战中排名第一,包括nuScenes的LiDAR语义分割挑战和SemanticKITTI的全景分割挑战。此外,我们构建了OpenPCSeg码库,这是最大和最全面的户外LiDAR分割码库。它包含了大多数流行的户外LiDAR分割算法,并提供了可重复的实现。OpenPCSeg代码库将在https://github.com/PJLab-ADG/PCSeg上公开提供。
基于查询点监督的航空图像语义分割学习
https://arxiv.org/abs/2309.05490
语义分割在遥感中至关重要,高分辨率卫星图像被分割成有意义的区域。深度学习的最新进展显着改善了卫星图像分割。然而,这些方法中的大多数通常在需要高质量像素级注释的完全监督设置中进行训练,获得这些注释既昂贵又耗时。在这项工作中,我们提出了一种弱监督学习算法来训练语义分割算法,该算法只依赖于查询点标注,而不是全掩码标签。我们提出的方法执行准确的语义分割,并通过显着降低成本和时间手动注释,提高效率。具体来说,我们生成超像素,并将查询点标签扩展到那些组类似的有意义的语义的超像素。然后,我们训练语义分割模型,用超像素伪标签部分标记的图像进行监督。我们在航空图像数据集和不同的语义分割架构上对我们的弱监督训练方法进行了基准测试,表明与完全监督训练相比,我们可以达到有竞争力的性能,同时减少注释工作。
基于归一化流程的人脸编辑语义隐含分解
https://arxiv.org/abs/2309.05314
在StyleGAN的潜在空间中导航已经显示出人脸编辑的有效性。然而,由于潜在空间中不同属性之间的纠缠,所得到的方法在复杂的导航中往往遇到挑战。为了解决这个问题,本文提出了一种新的框架,称为SDFlow,在原始的潜在空间中使用连续的条件规范化流的语义分解。具体而言,SDFlow通过联合优化两个组件将原始潜在代码分解成不同的不相关变量:(i)语义编码器,用于从输入面估计语义变量,以及(ii)基于流的变换模块,用于将潜在代码映射到高斯分布的语义无关变量,以学习到的语义变量为条件。为了消除变量之间的纠缠,我们采用了一个互信息框架下的解纠缠学习策略,从而提供精确的操纵控制。实验结果表明,SDFlow在定性和定量上都优于现有的最先进的人脸编辑方法。源代码可在https://github.com/phil329/SDFlow获得。
鸟瞰图像分割中的视点稳健性研究
https://arxiv.org/abs/2309.05192
自动驾驶汽车(AV)要求用于感知的神经网络对不同的观点是鲁棒的,如果它们要部署在许多类型的车辆上,而没有重复的数据收集和标记成本。AV公司通常专注于从不同的场景和位置收集数据,但由于成本原因,而不是摄像机机架配置。因此,在大多数船队中仅存在少量钻机变化。在本文中,我们研究了AV感知模型是如何受到摄像机视点变化的影响,并提出了一种方法来扩展它们在车辆类型,而无需重复的数据收集和标记。使用鸟瞰图(BEV)分割作为一个激励性的任务,我们发现,通过广泛的实验,现有的感知模型是令人惊讶的敏感相机视点的变化。当使用来自一个相机装备的数据进行训练时,在推断时间对相机的俯仰、偏航、深度或高度的微小改变导致性能的大幅下降。我们引入了一种新的视图合成技术,并使用它来将收集的数据转换为目标钻机的观点,使我们能够为不同的目标钻机训练BEV分割模型,而无需任何额外的数据收集或标记成本。为了分析观点变化的影响,我们利用合成数据来缩小其他差距(内容,ISP等)。然后,我们的方法在真实数据上进行训练,并在合成数据上进行评估,从而能够对不同的目标钻机进行评估。我们将发布所有数据以供将来工作使用。我们的方法能够恢复平均14.7%的IoU,否则会在部署到新钻机时丢失。
MFPNet:面向轻量级语义分割的多尺度特征传播网络
https://arxiv.org/abs/2309.04914
相对于大量的研究集中在大规模的模型,轻量级语义分割的进展似乎是在一个相对较慢的速度前进。然而,现有的紧凑的方法往往遭受有限的特征表示能力,由于其网络的浅。在本文中,我们提出了一种新的轻量级分割架构,称为多尺度特征传播网络(MFPNet),以解决这一困境。具体而言,我们设计了一个强大的编码器-解码器结构,具有对称的残差块,由灵活的瓶颈残差模块(BRM),以探索深层次和丰富的多尺度语义上下文。此外,利用它们对潜在的远程上下文关系进行建模的能力,我们利用图卷积网络(GCN)来促进BRM块之间的多尺度特征传播。当评估基准数据集时,我们提出的方法显示出优越的分割结果。
如何使用ViTScore指标评估图像的语义通信?
https://arxiv.org/abs/2309.04891
语义通信(SC)被期望成为催化下一代通信的新范式转变,其主要关注点从准确的比特传输转向有效的语义信息交换。然而,以前和广泛使用的图像度量不适用于评估图像语义相似性在SC。传统的度量方法来度量两幅图像之间的相似性通常依赖于像素级或结构级,例如PSNR和MS-SSIM。直接使用CV社区中基于深度学习方法的一些量身定制的指标,例如LPIPS,对于SC是不可行的。为了解决这个问题,受NLP社区BERTScore的启发,我们提出了一种新的度量来评估图像语义相似性,称为Vision Transformer得分(ViTScore)。从理论上证明了ViTScore具有对称性、有界性和归一化等3个重要性质,使得ViTScore能够方便直观地进行图像测量。为了评估ViTScore的性能,我们通过5类实验将ViTScore与3个典型指标(PSNR、MS-SSIM和LPIPS)进行比较。实验结果表明,ViTScore能够更好地评价图像的语义相似度,这表明ViTScore在SC场景中是一种有效的性能指标。
学习形状先验的半监督实例分割
https://arxiv.org/abs/2309.04888
到目前为止,大多数实例分割方法都是基于监督学习,需要大量的注释对象轮廓作为训练的基础事实。在这里,我们提出了一个框架,搜索的目标对象的基础上的形状先验。形状先验模型通过变分自动编码器学习,该变分自动编码器仅需要非常有限的训练数据量:在我们的实验中,来自目标数据集的几十个对象形状块以及纯合成形状足以实现与监督方法相当的结果,并且可以完全访问三个细胞分割数据集中的两个数据集的训练数据。我们使用合成形状先验的方法优于预训练的监督模型,可以访问所有三个数据集上的有限的特定领域训练数据。由于先验模型的学习需要形状补丁,无论是真实的还是合成的数据,我们称这种框架为半监督学习。
SortedAP:重新思考实例细分的评估指标
https://arxiv.org/abs/2309.04887
设计用于评估实例分割的度量围绕着全面考虑对象检测和分割精度。然而,其他重要的属性,如敏感性,连续性,平等性,在目前的研究被忽视。在本文中,我们发现,大多数现有的度量有一个有限的分辨率分割质量。它们仅对掩码或错误预测的变化有条件敏感。对于某些指标,分数可以在窄范围内急剧变化,这可能提供结果之间的质量差距的误导性指示。因此,我们提出了一个新的度量标准sortedAP,它严格减少对象和像素级的缺陷,并在整个域上有一个不间断的惩罚规模。我们在https://www.github.com/looooongChen/sortedAP上提供了评估工具包和实验代码。
神经语义面映射
https://arxiv.org/abs/2309.04836
我们提出了一种自动化的技术,用于计算两个零属形状之间的映射,该映射在语义上相互匹配对应的区域。缺乏注释数据禁止直接推断3D语义先验;相反,当前现有技术方法主要优化几何特性或需要变化量的手动注释。为了克服缺乏带注释的训练数据,我们从预先训练的视觉模型中提取语义匹配:我们的方法从多个视点渲染该对3D形状;然后将得到的渲染馈送到现成的图像匹配方法中,该方法利用预先训练的视觉模型来产生特征点。这产生语义对应,其可以被投影回3D形状,从而产生在不同视点之间不准确且不一致的原始匹配。这些对应关系被细化和蒸馏成一个界面间的映射通过一个专用的优化方案,这促进了输出映射的双射性和连续性。我们说明,我们的方法可以生成语义的表面到表面的地图,消除手动注释或任何3D训练数据的要求。此外,它被证明是有效的,在高语义复杂度的情况下,对象是非等距相关的,以及在他们几乎等距的情况下。
一种用于全身PET/CT图像肿瘤自动分割的定位分割框架
https://arxiv.org/abs/2309.05446
氟脱氧葡萄糖(FDG)正电子发射断层扫描(PET)结合计算机断层扫描(CT)被认为是检测某些癌症(如肺癌和黑色素瘤)的主要方法。PET/CT图像中肿瘤的自动分割可以帮助减少医生的工作量,从而提高诊断质量。然而,由于许多肿瘤的小尺寸和高摄取正常区域与肿瘤区域的相似性,精确的肿瘤分割具有挑战性。为了解决这些问题,本文提出了一个定位到分割框架(L2 SNet)的精确肿瘤分割。L2 SNet首先在病变定位阶段中定位可能的病变,然后在病变分割阶段中使用位置线索对分割结果进行整形。为了进一步提高L2 SNet的分割性能,我们设计了一个自适应阈值方案,考虑到这两个阶段的分割结果。在全身FDG-PET/CT挑战数据集中使用MICCAI 2023自动病变分割的实验表明,我们的方法取得了有竞争力的结果,并在初步测试集中排名前7位。我们的工作可在:https://github.com/MedCAI/L2SNet。
用于腹部CT快速、低资源、准确的器官和泛癌分割的两阶段混合监督框架
https://arxiv.org/abs/2309.05405
腹部器官和肿瘤分割具有许多重要的临床应用,如器官量化、手术计划和疾病诊断。然而,人工评估本质上是主观的,具有相当大的专家间和专家内的差异性。在本文中,我们提出了一个混合监督框架,StMt,它集成了自我训练和平均教师的分割腹部器官和肿瘤使用部分标记和未标记的数据。我们引入了两阶段分割流水线和基于全体积的输入策略,以最大限度地提高分割精度,同时满足推理时间和GPU内存使用的要求。在FLARE 2023验证集上的实验表明,该方法具有良好的分割性能,以及快速和低资源的模型推理。我们的方法在验证集上获得了89.79%和45.55%的平均DSC评分,GPU存储时间固化下的平均运行时间和面积分别为11.25s和9627.82MB。
SSHNN:用于超声心动图图像分割的半监督混合NAS网络
https://arxiv.org/abs/2309.04672
准确的医学图像分割,特别是对于具有不可遗漏噪声的超声心动图图像,需要精心设计的网络。与人工设计相比,神经结构搜索(Neural Architecture Search,NAS)由于具有更大的搜索空间和自动优化能力,实现了更好的分割效果,但现有方法大多在逐层特征聚合方面较弱,采用"强编码器,弱解码器”结构,对全局关系和局部细节处理不足.为了解决这些问题,我们提出了一种新的半监督混合NAS网络精确的医学图像分割称为SSHNN。在SSHNN中,我们创造性地在逐层特征融合中使用卷积运算而不是归一化标量,以避免丢失细节,使NAS成为更强大的编码器。此外,引入Transformers补偿全局上下文和U形解码器的设计,有效地连接全局上下文和局部特征。具体来说,我们实现了一个半监督算法Mean-Teacher,以克服标记的医学图像数据集的体积有限的问题。CAMUS超声心动图数据集上的大量实验表明,SSHNN优于最先进的方法,实现了准确的分割。代码将公开提供。