语义分割
题目 解决问题 使用方法 code 框架
Dynamic Video Segmentation Network 运行速度+视频中运动表示主要的思想是使用两个network(一个full-segmentation, 一个flow-warp network), 前者准确,后者用来加速。 对一张图片划分四个region , 分别判断这四个region 过哪一个network, 判断方式引入 expected confidence score。 动态视频分段网络(DVSNet)框架的出现是为了在语义视频分割的质量和效率之间取得平衡。DVSNet框架由两个卷积神经网络组成:分割网络(例如DeepLabv2)和流动网络(例如FlowNet2)。前者产生高度准确的语义分割,但更深入和更慢。后者比前者快得多,但其输出需要进一步处理以产生较不准确的语义分段。DVSNet利用决策网络(DN)来确定哪些帧区域应根据称为预期置信度得分的度量转发到哪些路径。DN的使用提出了自适应关键帧调度策略,以在运行时自适应调整关键帧的更新周期。 https://github.com/XUSean0118/DVSNet tensorflow
Context Encoding for Semantic Segmentation 提出上下文语义编码模块与类别预测模块,在某种程度上解决或减轻了分割问题中类间样本不均衡的问题,而这类问题在以像素为度量的损失函数中是非常常见的。 通过引入上下文编码模块来探索全局上下文信息在语义分割中的影响,上下文编码模块捕获场景的语义上下文并选择性地突出显示与类相关的特征图。
在标准的训练过程中,只应用具体的每个像素的分割损失,并不很强调使用场景的全局上下文信息。
这里引入一种语义编码损失函数SE-loss,使得训练更加系统化。
这种损失函数会预测场景中出现的物体类别,来加强网络学习上下文语义信息的能力。
不像针对每个像素的损失函数,SE-loss对每个物体,不管大小,都是同等对待的。因此,我们发现在使用这个损失函数后,好多小物体的分割效果变好了。
这其实是一种解决或减轻类间样本不均衡问题的方法,这类问题在分割任务中是非常常见的。 https://github.com/zhanghang1989/PyTorch-Encoding pytorch
On the Robustness of Semantic Segmentation Models to Adversarial Attacks . . . .
Learned Shape-Tailored Descriptors for Segmentation 通过分组密集的像素明智的描述符来解决纹理分割的问题 引入和构造了学习的Shape-Tailored Descriptors,它们仅在感兴趣的区域内聚合图像统计信息,以避免混合不同纹理的统计信息,并且对复杂干扰(例如照明,透视和变形)不变。这是通过训练一个神经网络来区分各种尺度下基于形状的定向描述符来实现的 . .
Multi-Evidence Filtering and Fusion for Multi-Label Classification, Object Detection and Semantic Segmentation Based on Weakly Supervised Learning 监督对象检测和语义分割需要对象或甚至像素级别的注释。当仅存在图像级标签时,弱监督算法实现精确预测是具有挑战性的。 整个过程由四个阶段组成,包括训练图像中的对象定位,过滤和融合对象实例,训练图像的像素标记以及特定于任务的网络培训。为了在训练图像中获得干净的对象实例,我们提出了一种用于过滤,融合和分类从多个解决方案机制收集的对象实例的新算法。在这个算法中,我们结合了度量学习和基于密度的聚类来过滤检测到的对象实例。 . .
Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features 图像标签监控下的弱监督语义分割是一项具有挑战性的任务,因为它直接将高级语义与低级外观联系起来。 本文提出了一种迭代自下而上和自上而下的框架,它可以扩展目标区域,优化分割网络。我们从分类网络的初始本地化开始。尽管分类网络只对小的和粗略的区分对象区域有反应,但我们认为,这些区域包含关于对象的重要共同特征 . .
Bootstrapping the Performance of Webly Supervised Semantic Segmentation 我们专注于弱监督,开发一种训练高质量像素级分类器进行语义分割的方法,仅使用图像级别类标签作为提供的基本事实 我们的方法被制定为两阶段方法,其中我们首先致力于通过自举过程为训练图像创建精确的像素级掩模,然后将这些现在精确分割的图像用作更标准的代理地面实况监督设置。我们工作的关键驱动因素是,在目标数据集中,我们通常具有可靠的地面真实图像级标签,而从网络爬取的数据可能具有不可靠的标签,但可以过滤以仅包含易于分割的图像,因此具有可靠的边界。这两种形式的信息是互补的,我们使用这种观察来建立一种新型的双向转移学习。该框架在两个领域之间传递知识,目标领域和网络领域,引导弱监督语义分割的表现。 . .
On the Importance of Label Quality for Semantic Segmentation 我们发现ConvNets的表现主要取决于创建培训标签的时间。也就是说,一个较大的粗略注释的数据集可以产生与较小的精细注释数据集相同的性能。 . . .
Normalized Cut Loss for Weakly-Supervised CNN Segmentation 由于标准损失函数(例如交叉熵)不能区分种子和潜在错误标记的其他像素,所以这些掩模中的错误会导致较差的训练。 受到半监督学习的一般思路的启发,我们通过一种新的原则性损失函数来解决这些问题,该函数用“浅”分割中的标准标准评估网络输出 . .
Learning a Discriminative Feature Network for Semantic Segmentation 类内不一致和类内不明显。为了解决这两个问题,我们提出了一个判别特征网络(DFN), 它包含两个子网络:平滑网络和边界网络。具体来说,为处理类内不一致问题,我们特别设计了一个包含频道注意块的平滑网络和全局平均池以选择更具辨别性的特征。此外,我们提出了边界网络,使边界的双边特征与深层语义边界监督相区分。 . .
Context Contrasted Feature and Gated Multi-Scale Aggregation for Scene Segmentation 利用区分性背景和聚合多尺度特征来实现更好的分割至关重要。 在本文中,我们首先提出了一种新颖的上下文对比局部特征,它不仅利用了信息上下文,而且还聚焦了与上下文相反的局部信息。提出的上下文对比了局部特征,大大提高了解析性能,特别是对于不明显的对象和背景的东西。 . .
DenseASPP for Semantic Segmentation in Street Scenes 自动驾驶场景中的对象表现出非常大的尺度变化,这对于高级特征表示来说是极大的挑战,因为多尺度信息必须被正确编码。 尽管ASPP能够生成多尺度特征,我们认为在自动驾驶场景下,缩放轴上的特征分辨率不够密集。为此,我们提出密集连接的Atrous空间金字塔池(DenseASPP),它以密集的方式连接一组有趣的卷积层,从而生成不仅覆盖更大尺度范围的多尺度特征,还涵盖规模范围密集,没有显着增加模型的大小。 https://github.com/DeepMotionAIResearch/DenseASPP pytorch
MaskLab: Instance Segmentation by Refining Object Detection with Semantic and Direction Features 我们解决了实例分割的问题,同时解决了对象检测和语义分割的任务。为了实现这个目标,我们提出了一个名为MaskLab的模型,它产生三个输出:盒子检测,语义分割和指导预测 建立在Faster-RCNN对象检测器之上,预测框提供了对象实例的精确定位。在每个感兴趣的区域内,MaskLab通过结合语义和指导预测来执行前景/背景分割 . .
Dense Decoder Shortcut Connections for Single-Pass Semantic Segmentation 一种用于单通道语义分割的新型端到端可训练,深度编码器 - 解码器架构 我们的方法基于具有功能级远程跳过连接的级联架构。该编码器结合了ResNeXt残余构建块的结构,并采用重复构建块的策略,该构件块聚集了具有相同拓扑的一组变换。该解码器具有一种新颖的架构,由块组成,这些架构包括(i)捕获上下文信息,(ii)生成语义特征,以及(iii)实现不同输出分辨率之间的融合。 . .
Fully Convolutional Adaptation Networks for Semantic Segmentation 一个吸引人的选择是呈现合成数据(例如电脑游戏)并自动生成地面真相。然而,简单地应用在合成图像上学习的模型可能导致由于域偏移导致的真实图像上的高泛化误差 我们从视觉外观水平和表示水平域适应的角度来解决这个问题。前者将源域图像调整为目标域中的“样式”,后者试图学习域不变表示,具体而言,我们提出了完全卷积适应网络(FCAN),这是一种结合了外观适应网络(AAN)和表示适应网络(RAN)的新型深度语义分割体系结构。AAN在像素空间中学习从一个域到另一个域的转换,并且RAN在对抗学习方式下被优化以最大程度地愚弄具有所学习的源和目标表示的域鉴别器 . .
Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation 遵循一般对象检测范式,通过回归文本框位置来定位场景文本,但受场景文本的任意取向和大纵横比困扰。第二个直接分割文本区域,但大多需要复杂的后期处理。 提出了一种方法,它结合了两种方法的思想,同时避免了它们的缺点。我们建议通过定位文本边界框的角点并在相对位置分割文本区域来检测场景文本。在推理阶段,通过采样和分组角点生成候选框,通过分割图进一步评分,并由NMS进行抑制 . .
运动分割
The Best of Both Worlds: Combining CNNs and Geometric Constraints for Hierarchical Motion Segmentation 我们设计了一个分层运动分割系统,其中第一阶段识别简单的刚性运动分量,第二阶段将这些刚性运动分量组装成完整的对象,由每帧的语义分割指导。这个新的分级系统允许第一个低级阶段专注于透视投影的几何形状,将框架分割成其刚性运动。然后,在第二阶段,像行人和动物一样,可变形和明确表达的物体被模拟为多个刚性运动分量的组合,如语义分割结果所示。虽然运动分析和语义分割都没有错误,但它们的组合导致多标签运动分割问题的性能显着提高。 •一个新的运动分割分层模型,具有两个步骤:1.将帧分割为刚体运动; 2.使用SharpMask的物体知识将这些刚性部分组合成对象模型,以描述人物或动物等关节和可变形物体的运动。 •一种新的光流统计模型,作为基础运动场的噪声测量。我们使用Sintel数据库的统计数据来设置噪声分布参数。 •贝叶斯方法,用于计算与光流向量相关联的3D运动方向的可能性,其中我们整合了不可观测的运动场大小。这使我们能够以与透视投影和统计模型一致的方式将像素分配给刚性运动模型。 . .
Motion Segmentation by Exploiting Complementary Geometric Models 许多现实世界的序列不能方便地归类为一般或退化; 在这种情况下,在将基本矩阵或单应性模型用于运动分割时施加错误的二分法将导致困难。即使我们面临一般的场景运动,作为运动分割模型的基本矩阵方法仍然存在一些缺陷, 基本矩阵方法的全部潜力只有在我们明智地利用来自较简单的单应性模型的信息时才能实现。基于这些考虑,我们提出了一个多视图谱聚类框架,将多个模型协同组合在一起。 . .
Learning Pixel-Level Semantic Affinity With Image-Level Supervision for Weakly Supervised Semantic Segmentation 分割标签的不足是野外语义分割的主要障碍之一。 为了缓解这个问题,我们提出了一个新的框架,根据图像级别标签生成图像的分割标签。
交互式图像分割
Interactive Image Segmentation With Latent Diversity 交互式图像分割的特点是多模式。当用户点击一扇门时,他们打算选择门还是整个房子?我们提出了一种端对端的交互式图像分割方法来解决这种模糊问题。 我们的架构结合了两个卷积网络。第一种是训练合成一组符合用户输入的合理分段。其次是训练选择这些。通过选择单一解决方案,我们的方法保持与现有交互式分割界面的兼容性。通过在选择一个解决方案之前综合多种多样的解决方案,该架构被赋予探索多模式解决方案空间的代表性力量。 . .
Deep Extreme Cut: From Extreme Points to Object Segmentation 对象(最左侧,最右侧,顶部,底部像素)中使用极值点作为输入以获取图像和视频的精确对象分割。 我们通过在卷积神经网络(CNN)的输入中为图像添加额外的通道来实现这一点,该卷积神经网络包含以每个极值点为中心的高斯。CNN学习将这些信息转换为与那些极端点匹配的对象的分割。 有 .
Efficient Interactive Annotation of Segmentation Datasets With Polygon-RNN++ 用对象掩码手动标记数据集非常耗时 遵循Polygon-RNN的思想,使用人在回路中交互式地生成对象的多边形注释。我们对该模型进行了一些重要的改进:1)我们设计了一个新的CNN编码器体系结构,2)展示了如何使用强化学习有效地训练模型,3)使用图形神经网络显着提高输出分辨率,准确地注释图像中的高分辨率对象 . .
SeedNet: Automatic Seed Generation With Deep Reinforcement Learning for Robust Interactive Segmentation 提出了一种具有深度强化学习的自动种子生成技术来解决交互式分割问题 . . .
Referring Image Segmentation via Recurrent Refinement Networks 从自然语言描述中解决图像分割的问题。 现有的基于深度学习的方法基于最后一个卷积层的输出对图像表示进行编码 . .
视频目标分割
MoNet: Deep Motion Exploitation for Video Object Segmentation 从帧表示学习和分割细化两个方面深入挖掘运动线索来提高视频对象分割性能 MoNet利用计算的运动提示(即光流)通过对齐和整合来自其邻居的表示来加强目标框架的表示。新的表示为分割提供了宝贵的时间背景,并提高了对各种常见污染因素的鲁棒性,例如运动模糊,视频对象的外观变化和变形。
为了检查不一致的运动模式,我们提出了一个距离变换(DT)层来分离目标对象,并且显着移动背景运动 无 .
Blazingly Fast Video Object Segmentation With Pixel-Wise Metric Learning 交互式视频目标分割,用户点击分割物体
在这项工作中,我们学习了一个嵌入,其中同一个实例的像素旨在彼此靠近,并且我们将视频对象分割制定为像素级检索问题。 该公式也受到图像检索工作的启发 无 .
Motion-Guided Cascaded Refinement Network for Video Object Segmentation 将视频帧视为单独的和静态的将丢失隐藏在运动中的信息 我们提出了一个用于VOS的运动引导级联精化网络。通过假定对象运动通常与背景运动不同,对于视频帧,我们首先将活动轮廓模型应用于光流,以粗略地分割感兴趣的对象。然后,提出的级联细化网络(CRN)将粗分割作为指导以生成全分辨率的准确分割。通过这种方式,运动信息和深度CNN可以相互补充,从视频帧中准确地分割出对象。此外,在CRN中,我们引入单通道残留注意模块,将粗分割图作为注意事项,使我们的网络在培训和测试中都能高效高效。 https://github.com/feinanshan/Motion-Guided-CRN pytorch
CNN in MRF: Video Object Segmentation via Inference in a CNN-Based Higher-Order Spatio-Temporal MRF 我们提出了一个新的时空马尔可夫随机场(MRF)模型定义在像素来处理这个问题。与传统的MRF模型不同,我们模型中像素之间的空间相关性由卷积神经网络(CNN)编码 由于非常高阶的依赖关系,在MRF模型中执行推理非常困难。为此,我们提出了一种新颖的CNN嵌入算法来执行MRF中的近似推理。该算法通过在时间融合步骤和前馈CNN步骤之间交替进行 . .
Low-Latency Video Semantic Segmentation 加速 我们开发了一个视频语义分割框架,它包含两个新颖的组件:(1)一个特征传播模块,通过空间变化卷积自适应地融合特征,从而降低每帧计算的成本; 和(2)基于精度预测动态分配计算的自适应调度器。两个组件一起工作以确保低延迟,同时保持高分割质量。 . .
Instance Embedding Transfer to Unsupervised Video Object Segmentation 一种无监督视频对象分割的方法 通过传输封装在基于图像的实例嵌入网络中的知识。实例嵌入网络为每个像素生成一个嵌入向量,可以识别属于同一对象的所有像素。 . .
Semantic Video Segmentation by Gated Recurrent Flow Propagation . 它能够利用除了稀疏标记帧之外的未标记数据中的信息,以提高语义估计。我们的模型结合了卷积结构和时空变换器递归层,能够通过光流临时传播标签信息,基于其局部估计的不确定性自适应门控。流程,识别和门控时间传播模块可以共同进行端对端培训。 . .
Fast Video Object Segmentation by Reference-Guided Mask Propagation 加速 .
Fast and Accurate Online Video Object Segmentation via Tracking Parts 加速 部分追踪再分割 https://github.com/JingchunCheng/FAVOS caffe
Unsupervised Learning and Segmentation of Complex Activities From Video 本文提出了一种无监督地将视频复杂活动分成多个步骤或子活动的新方法, . .
Deep Spatio-Temporal Random Fields for Efficient Video Segmentation 介绍了一种时间和内存有效的结构化预测方法,可以在两个时间空间耦合神经元决策。 通过利用深度高斯条件随机场(GCRF)的最新进展,在密集连接的时空图上执行精确和高效的推理。我们的方法称为VideoGCRF(a)是有效的,(b)具有独特的全局最小值,并且(c)可以与当代深度网络一起被端对端地训练以用于视频理解。 . caffe2
Reinforcement Cutting-Agent Learning for Video Object Segmentation 我们将这个问题作为一个马尔科夫决策过程来制定,在这个过程中,智能体被学会在深度强化学习框架下对目标区域进行分割。 . .