IEEE Transactions on Image Processing文献跟踪
2021年9月 • 30卷 • 第9期
文献名/代码/相关性 |
方向 |
对象 |
实验方式 |
工作 |
亮点 |
数据集 |
Geometry Auxiliary Salient Object Detection for Light Fields via Graph Neural Networks(无/中) |
光学 |
光学平台采集物体 |
软硬结合 |
开发了基于光场的新型图形神经网络突出物体检测方法 构建了一个新的数据集(CITYU-Lytro) |
|
自建CITYU-Lytro |
Visual Explanation for Deep Metric Learning(有/低) |
公制学习 |
人脸 |
软件&理论 |
提出了基于激活分解的深度公制学习架构的新解释框架,其适用于一系列公制学习应用程序,如人脸识别、人员重新识别、图像检索等。 提出的特定点的激活图发现了点对点的激活强度 理论和实证分析,验证Grad-CAM算法的优越性。 |
提出的框架可以广泛应用于各种学习应用 |
与Grad-CAM对比 |
Dual Attention-in-Attention Model for Joint 4Rain Streak and Raindrop Removal(无、中) |
去噪 |
雨滴&雨痕 |
软件 |
使用双注意力模型同时去除雨痕与雨滴对图像获取的影响 |
|
雨滴、雨痕公用数据集 JRSRD |
Multi-Stream Fusion Network With Generalized Smooth L1 Loss for Single Image Dehazing(无/中) |
去噪 |
采集照片 |
软件 |
提出了一个端到端的卷积神经网络(MSFNet),按照编码器-解码器网络结构建立的。编码器是一个三流网络,以产生三个分辨率级别的特征。 提出了一种基于全连接的特征融合方法,每个用于特征融合的模块都接受来自所有流的特征作为输入。 设计了一个广义的平滑损失函数 |
1.基于全连接的特征融合方法 2.新的损失函数 3.提出了多尺度监督学习策略 |
训练:RESIDE 测试:SOTS |
AAN-Face: Attention Augmented Networks for Face Recognition(无/低) |
人脸识别 |
人脸 |
软件 |
提出了一个注意力擦除方案,随机擦除注意力图中的单元。 提出了一个注意力中心损失(ACL),为每个注意力图谱学习一个中心,使同一注意力图谱集中在同一面部部位 |
|
VGGFace2 MS-Celeb-1M |
Location Sensitive Network for Human Instance Segmentation(无/中) |
分割 |
人体照片 |
软件 |
提出了用于人类实例分割的位置敏感网络(LSNet) 使用多个采样点的位置来构建实例的点表示 |
|
COCOPersons OCHuman |
Person Re-Identification via Attention Pyramid(有/中) |
识别 |
人体照片 |
软件 |
提出了一种用于人员重新识别的注意力金字塔方法。与传统的只学习全局注意力图的方法不同,以多尺度的方式利用注意力区域。 将特征分割成多个局部部分,并学习相应的注意力 在多个数据集上证明了方法的优越性 |
所提出的注意力金字塔是一个轻量级便于移植的即插即用模块 |
Market-1501, DukeMTMC, CUHK03,MSMT17 |
TMMF: Temporal Multi-Modal Fusion for Single-Stage Continuous Gesture Recognition(无/低) |
手势识别 |
手势照片 |
软件 |
引入了一个单阶段的连续手势识别框架,称为时间多模式融合(TMMF),通过一个单一的模型对视频中的多种手势进行检测和分类。 引入了一个多模态融合机制,以支持整合来自多模态输入的重要信息,并且可以扩展到任何数量的模式。 提出了一个基于中点的损失函数,以鼓励地面实况和预测之间的平滑对齐,帮助模型学习自然的手势转换。 |
|
EgoGesture , IPN hand ChaLearn LAP Continuous Gesture dataset |
Superpixels With Content-Adaptive Criteria(无/中) |
超分辨率 |
图片 |
软件 |
提出了一种新的分割策略,将图像内容分类为包含物体边界的有意义的区域和包括颜色不均匀和纹理丰富的区域的无意义部分 设计了两种不同的标准来处理不同环境中的像素,以实现内容有意义区域的高精度超级像素,并保持内容无意义区域的超级像素的规则性 |
平衡准确性和紧凑性 对于准确性,采用颜色特征时增加一组权重,以成功地减少分割不足的误差 对于紧凑性,在梯度滤波器中加入了颜色和纹理滤波器,使纹理丰富的区域的超级像素显得有规律。 |
BSD500 SBD |
RGB-D Salient Object Detection With Ubiquitous Target Awareness(无/低) |
物体检测 |
RGB图片 |
软件 |
首先为RGB-D突出物体检测设定了一个新颖的深度感知设置,并提出一个泛在目标感知网络 提出了一个深度感知模块来促进对突出性的理解,并设计了一个深度感知的误差加权损失来挖掘模糊的像素 提出了一个通道感知融合模块,以自适应地选择跨水平特征,并提出了一个空间感知模块,以利用深度感知和低水平线索进行跨模式融合 提出了一个有效的门控多尺度预测器,通过多尺度特征的相互补充进一步提高性能。 在10个基准上进行了广泛的实验,以证明优越性 |
|
RGB-D SOD RGB SOD |
Conversational Image Search(无/低) |
文字图片识别 |
软件&理论 |
提出了一个新颖的上下文图像海量分析系统 设计了一个基于多模态分层图的神经网络,它学习了对话查询的嵌入,以更好地理解用户的意图。 设计了一个多形式的知识嵌入记忆网络,将异质的知识结构统一到一个同质的基础上,大大促进了相关知识的检索。 通过一个新的门控神经网络学习知识增强的图像表示,该网络从检索的相关知识中选择有用的知识。 |
对话式图像搜索的多形式知识建模的工作 |
自建MMD 2.0 |
|
Multiscale Spatio-Temporal Graph Neural Networks for 3D Skeleton-Based Motion Prediction(无/低) |
运动预测 |
三维人体骨架姿势 |
软件 |
提出了一个多尺度时空图神经网络(MST-GNN),以动作类别无关的方式预测未来基于三维骨架的人类姿势。 提出编码解码器框架,编码器用于学习运动的空间和时间特征,解码器用来生成未来的姿势。 |
|
Human 3.6M CMU Motion Capture 3D Pose in the Wild |
Salience-Guided Iterative Asymmetric Mutual Hashing for Fast Person Re-Identification(无/低) |
人体重识别 |
人体照片 |
软件 |
提出了一个新的显著性引导的迭代非对称散列框架。 提出了一种新的迭代式非对称相互训练策略。 在五个广泛使用的数据集上进行的广泛实验表明,所提出的方法取得了优于现有散列ReID方法的性能。 |
互补策略可以让两个模型通过非对称训练学习正则化的暗知识并为对方提供互补效果,以缓解相互学习的缺点,从而进一步提升最终性能。 |
Market1501 DukeMTMC-ReID CUHK03 MSMT LaST |
GMNet: Graded-Feature Multilabel-Learning Network for RGB-Thermal Urban Scene Semantic Segmentation(无/低) |
城市道路语义分割 |
道路图片 |
软件 |
提出了一种分级特征提取策略,将多级特征分为初级、中级和高级。然后,我们用两个不同的融合模块,即初级和高级特征的浅层特征融合模块和深层特征融合模块来整合RGB和热学模式。使用多标签监督来优化网络的语义、二进制和边界特征。 |
利用多层次的特征,将其分为三个等级的监督 引入浅层特征融合模块(SFFM)和深层特征融合模块(DFFM) |
RGB-T |
Robust Single-Image Super-Resolution via CNNs and TV-TV Minimization(无/中) |
超分辨率 |
低分辨率图片 |
软件 |
提出了一种基于交替乘法(ADMM)的算法来解决TV-TV最小化问题从而进行学习和重建, |
使得算法操作出来的超分辨率图片能够在降采样后一定与算法前原图相同 实验有反操作验证 |
SR test sets |
Joint Clustering and Discriminative Feature Alignment for Unsupervised Domain Adaptation(无/低) |
无监督学习 |
/// |
软件/理论 |
提出了一种用于UDA的联合聚类和判别特征排列(JCDFA)方法,该方法能够自然地将判别特征的挖掘和类判别特征的排列统一到一个框架中。通过分别优化两个新的指标来进行跨域的判别性特征排列 |
学习一个领域不变的表示空间的同时解决忽略目标数据的潜在判别特征的问题 |
Office-31 ImageCLEF-DA Office-Home VisDA-C |
Hierarchical Generation of Human Pose With Part-Based Layer Representation |
人体姿势识别 |
人体照片 |
软件 |
提出了一种新的人类姿势转移方法,考虑到了基于语义的人类部分表示。利用所提出的基于部位的层发生器,可以保证每个局部语义区域都有高质量的结果。 |
将整体的人体识别分割成多个部分进行识别 |
Human3.6M dataset Sport video dataset |
Generalized MSFA Engineering With Structural and Adaptive Nonlocal Demosaicing(无/高) |
多光谱滤波阵列(MSFA)相机 |
/// |
硬件/软件 |
为去马赛克化引入了非局部低秩正则化,并在马赛克形成后联合优化图像块,然后再将其聚合。 引入结构相似性指数进行评估,并将其从传统的两个空间维度扩展到多个空间-光谱-时间维度,彻底改变了块状匹配。 通过将区块匹配频率与两个连续迭代之间的重建差异相关联,得出了一个自适应的迭代策略,这使得运行效率得以提高。 |
非局部低秩优化被应用并扩展到多个空间-光谱-时间维度,以利用更多关键细节 采用新的结构相似性指标而不是传统的欧氏距离来提高区块匹配的准确性。 通过自适应迭代策略提高了运行效率。 |
自采 |
Discriminative Cross-Modality Attention Network for Temporal Inconsistent Audio-Visual Event Localization(无/中) |
注意力机制 |
/// |
软件/理论 |
提出了一个鉴别性的跨模态注意力网络来模拟多模态感知时自动过滤掉与事件无关的信息 设计了一个新颖的空间、顺序和跨模式的自适应注意力模块,以捕捉大多数事件相关信息。 引入了一个新的目标函数,以避免在训练过程中出现琐碎的解决方案, |
网络可以自适应地选择“在哪里”注意,“什么时候 ”注意,以及“哪一个”注意来进行视听事件的定位 |
AVE Dataset |
An Unified Recurrent Video Object Segmentation Framework for Various Surveillance Environments(无/中) |
移动物体分割 |
运动照片 |
软件 |
提出了一种简单、稳健、有效的统一的递归边缘聚合方法,其中不需要额外的训练模块或对测试视频帧进行微调,提出了一个循环边缘聚合模块(REAM),以提取有效的前景相关特征,捕捉与编码器和各自的解码器特征相联系的前一帧循环的时空结构相关性。通过跳过连接连接到解码器,进行综合学习,称为时空信息传播。 提出了具有多尺度密集残差的运动细化块,以结合来自光流编码器流和最后的REAM模块的特征进行整体特征学习。 |
不过分依赖于其他应用的额外训练模块或复杂的训练程序 |
DAVIS-2016 SegTrack-v2 CDnet-2014 GTFD LASIESTA AGVS |
Layout-to-Image Translation With Double Pooling Generative Adversarial Networks(有/低) |
语义翻译 |
输入的语义布局翻译成现实的图像 |
软件 |
提出了一个新颖的双池模块(DPM),由方形池模块(SPM)和矩形池模块(RPM)组成。SPM旨在捕捉不同空间尺度的输入布局的短程语义依赖,而RPM旨在捕捉水平和垂直方向的长程语义依赖。 |
模型保留语义信息,并不会忽略同一对象中的语义依赖 |
GauGAN |
Learning Dynamical Human-Joint Affinity for 3D Pose Estimation in Videos(无/低) |
姿势估计 |
视频 |
软件 |
提出了一种新的动态图网络(DG-Net),它可以动态地识别人体关节的亲和力,并通过自适应地学习视频中的空间/时间关节关系来估计三维姿势。 引入了动态空间/时间图卷积(DSG/DTG),根据视频中人体关节之间的空间距离/时间运动的相似性,为每个视频样本发现空间/时间的人体关节亲和力。 |
动态地调整视频中人与关节的空间/时间亲和力,并自适应地整合与关节相关的背景,以实现准确的三维姿势估计。 |
Human3.6M HumanEva-I MPI-INF-3DHP |
Joint Feature Optimization and Fusion for Compressed Action Recognition(无/低) |
动作识别 |
/// |
软件 |
提出了一个联合特征优化和融合框架,将特征优化问题建模为一个重建过程,用一组基数来表示特征,并提出一个联合特征优化模块,在两种模式下提取基数。 提出了一个低等级非局部注意模块,该模块将非局部操作与低等级约束相结合,以解决特征重建过程中的噪声和稀疏性问题。 引入了一个轻量级的特征融合模块和一个自适应的知识提炼方法,它使用运动向量和残差来产生类似于有光流的网络的预测结果。 |
有效利用运动向量和残差 |
HMDB-51 UCF-101 |
TDIOT: Target-Driven Inference for Deep Video Object Tracking(有/低) |
物体追踪 |
视频 |
软件 |
在Mask R-CNN的FPN-ResNet101主干上引入了一个新的推理架构,以联合进行检测和跟踪,而不需要为跟踪目的进行额外的训练。所提出的单一物体追踪器TDIOT应用了基于外观相似性的时间匹配来进行数据关联。在推理头层中加入了一个局部搜索和匹配模块,利用SiamFC。 引入了一个尺度自适应区域建议网络,该网络能够在目标的轨迹所指定的自适应扩大的空间邻域中搜索目标且在推理架构中加入了一个低成本的验证层。 |
能够利用目标物体的视觉和时间信息,而无需额外的训练。 |
VOT2016 VOT2018 VOT-LT2018 |
TEST: Triplet Ensemble Student-Teacher Model for Unsupervised Person Re-Identification(无/低) |
无监督学习 |
照片 |
软件/理论 |
提出了一种新型的Triplet Ensemble Student-Teacher(TEST)模型,用于无监督的人员重新识别。由一个教师网络T和两个学生网络S1和S2组成。与传统的自我组合模型类似,学生网络S1被用于更新教师网络T。 |
闭环学习机制 |
Market-1501 DukeMTMC-ReID MSMT17 |
Deep Learning-Based Forgery Attack on Document Images(无/中) |
文字识别 |
带有文字的照片 |
软件 |
通过现有的基于深度学习的技术提出了一种低成本的文档伪造算法,以编辑实用的文档图像。通过一套网络设计策略来解决现有文本编辑算法对复杂字符和复杂背景的限制。通过拆分源图像中的文字和背景信息,避免了监督数据中不必要的混乱。为了捕捉一些复杂成分的结构,提供文字骨架作为辅助信息,并在损失函数中明确考虑纹理的连续性。通过一些考虑到印刷和扫描通道失真的后处理操作,减轻了由文本编辑操作引起的伪造痕迹。 |
基于深度学习的文本编辑网络 编解码网络 |
自采 |
Bilateral Asymmetry Guided Counterfactual Generating Network for Mammogram Classification(无/高) |
医疗图像处理/分类 |
乳房X光片 |
软件/理论 |
利用对称先验生成的反事实来进行良性/恶性分类、 证明在对称先验下,反事实特征应该遵循反事实约束 提出了以反事实约束为指导的反事实生成网络。 |
加入对称侧的图像来分析确定病变区域 |
INBreast |
Deep Multiple Instance Hashing for Fast Multi-Object Image Search(无/低) |
物体检测 |
多种类别的大量图片 |
软件 |
提出了一种用于多对象图像检索的弱监督的深度多实例哈希(DMIH)方法。利用流行的CNN模型来建立原始图像和其多个对象的二进制哈希代码之间的端到端关系,可以有效地支持多对象查询,并将对象检测与哈希学习无缝集成。将物体检测视为一个二进制多实例学习(MIL)问题,这种实例从多尺度卷积特征图中自动提取。 |
用于多对象图像检索的弱监督 |
SIVAL Pascal VOC 2007 ILSVRC 2013 |
Domain Adaptive Ensemble Learning(有(伪代码)/低) |
目标检测 |
有/无标签的图片 |
软件 |
提出了一个统一的框架,称为领域适应性集合学习(DAEL)来解决多源无监督领域适应(UDA)问题以及领域泛化(DG)问题。DAEL模型由一个跨领域共享的CNN特征提取器和多个分类器头组成,每个分类器头都经过训练,专门用于一个特定的源领域。 |
使用伪标签来进行监督学习 |
PACS |
Joint Multi-Dimension Pruning via Numerical Gradient Update(无/低) |
网络框架 |
图片 |
软件/理论 |
提出了联合多维修剪(缩写为JointPruning),这是一种同时在空间、深度和通道三个关键方面修剪网络的有效方法。提出了一个总体框架,将修剪定义为寻求最佳的修剪向量(即层间通道数、空间大小、深度的数值),并构建一个从修剪向量到修剪后网络结构的唯一映射。 |
联合框架、梯度估计 |
ImageNet |
An Automatic and Optimal MPA Design Method(无/中) |
光学 |
偏振图像 |
软件/理论 |
提出了一种完全自动化的最佳微型偏振器阵列(MPA)设计方法(AO-MPA),它能产生明显改善的MPA。我们提出了六个设计原则,而不是单一的带宽标准,并展示了如何通过制定一个具有多个约束条件的三目标优化问题来利用它们来相互优化MPA设计。通过应用先进的多目标优化技术,快速自动搜索出一个更大的可能的MPA模式集。 |
多标准限制的优化 |
Qiu |
ChipQA: No-Reference Video Quality Prediction via Space-Time Chips(无/低) |
视频处理 |
视频 |
软件 |
提出了一个新的无参考视频质量评估(VQA)模型方法采用了一种高度本地化的时空(ST)切片的新理念,称为时空芯片(ST Chips)。ST芯片是沿着隐含捕捉运动的方向对视频数据进行的局部切割。我们使用以感知为动机的带通和归一化模型来首先处理视频数据,然后根据它们与自然视频统计的参数模型的吻合程度来选择定向的ST片。 |
视频数据局部分割 |
VQA |
Semantically Adversarial Learnable Filters(无/低) |
网络框架 |
图片 |
软件 |
提出了一个对抗性框架,通过考虑图像内容和标签的语义来制作误导分类器的扰动。所提出的框架在一个多任务目标函数中结合了结构损失和语义对抗性损失,以训练一个完全卷积的神经网络。 |
对图像进行对抗性操作 |
ImageNet |
Sparse Coding Driven Deep Decision Tree Ensembles for Nucleus Segmentation in Digital Pathology Images(无/高) |
医疗图像分割 |
细胞核 |
软件 |
提出了稀疏编码驱动的深度决策树群(ScD 2 TE),这是一种容易训练但功能强大的表征学习方法,在泛化核分割任务中具有与深度神经网络高度竞争的性能。探索了在快速卷积稀疏编码-决策树集合成对模块的基础上堆叠若干层的可能性,并生成一个具有解码器内和解码器间密集连接模式的层级编码-解码器架构。在这种架构下,所有的编码器在不同的层中共享相同的假设来表示图像,并与它们的解码器进行互动,以获得快速收敛。 |
不需要反向传播计算,且对超参数的依赖性更小 |
multi-organ |
Fs-DSM: Few-Shot Diagram-Sentence Matching via Cross-Modal Attention Graph Model |
图文匹配 |
图片 |
软件 |
提出了一个跨模态的注意力图模型,用于几张图的句子匹配任务,名为Fs-DSM。图的初始化模块将区域级的图特征和词级的句子特征视为Fs-DSM的节点,而边则表示为节点之间的相似度。信息传播模块是Fs-DSM的一个关键点,在这个模块中,通过一个不常见的对象识别策略来识别少许的内容,然后通过一个邻域聚合程序来更新节点,在所有视觉和文本节点之间进行跨模式传播,同时根据新的节点特征来重新计算边。全局关联模块整合了区域和词语的特征来表示全局图和句子。 |
可以有效的应用于图表 |
Flickr30K MSCOCO AI2D |
Action Anticipation Using Pairwise Human-Object Interactions and Transformers(无/低) |
行为预测 |
图片 |
软件 |
使用交叉相关来捕捉一帧中人-物对的二阶统计数据。交叉相关产生了一个框架的整体表征,也可以处理观察期每一帧中数量不等的人-物对。我们表明,基于交叉相关的帧表示比基于注意力和其他二阶方法更适合于行动预测。此外,我们观察到,使用变换器模型对框架式HO表征进行时间上的聚合,会比其他时间网络产生更好的动作预测。 |
提出一种新的多模式转换器,结合人-物、空间-时间和运动表征来预测未来行动。 |
EPIC-KITCHENS55 |
Learning to Match Anchor-Target Video Pairs With Dual Attentional Holographic Networks(无/低) |
视频超链接 |
视频 |
软件 |
建立注意力神经网络来学习一个紧凑的片段级表示,通过注意力机制为不同的描述符/特征内容分配不同的重要性权重。我们认为,潜在的有趣内容应该在表征中被强调。建立了一个全息构成网络,为链接的建立建立了Aboutness模型,其核心是使用循环相关。这两个网络串在一起,形成最终的超链接匹配系统。整个模型是以端到端的方式进行训练的。 |
以端到端的方式进行训练 |
Blip10000 |
Graph Attention Layer Evolves Semantic Segmentation for Road Pothole Detection: A Benchmark and Algorithms(有/低) |
道路坑洞检测 |
图片 |
软件 |
提出基于立体视觉的道路坑洞检测数据集和一种新的差异转换算法,据此可以高度区分损坏和未损坏的道路区域。 讨论了为语义分割而设计的SoTA CNNs,并通过大量的实验评估了它们在道路坑洞检测方面的性能。 提出了一种新型的CNN层,称为图注意层(GAL),它可以很容易地部署在任何现有的CNN中,为语义分割优化图像特征表示。 |
受图形神经网络启发的新型图形层,可以部署在任意CNN中 |
GAL-DeepLabv3+ |
Joint Multisource Saliency and Exemplar Mechanism for Weakly Supervised Video Object Segmentation(无/低) |
视频物体分割 |
视频 |
软件 |
整合多源显著性和纳入WSVOS的典范机制来制定一个新的框架。 提出了一个多源盐度模块,通过整合空间和时间盐度作为自下而上的线索来理解时空知识,它可以有效地消除由于混乱区域造成的干扰,并识别有吸引力的区域。 尝试将典范机制纳入WSVOS,提出了一个自适应典范模块来处理自上而下的线索,它可以为类内视频中共同出现的物体提供可靠的指导,并识别出有吸引力的区域。我们的框架由上述两个模块组成,提供了一个新的视角,即在缺乏参考帧的地面真实信息的情况下,直接构建自下而上线索和自上而下线索之间的对应关系。 |
对弱监督数据的似然函数进行建模 |
DAVIS YouTube-Objects SegTrack-v2 |
Multi-Task Learning Framework for Motion Estimation and Dynamic Scene Deblurring(无/中) |
去模糊 |
模糊图像 |
软件 |
提出了一个运动感知的特征学习框架,通过多任务学习实现动态场景的去模糊化。我们的多任务框架同时估计一个去模糊的图像和一个来自模糊图像的运动场。 运动估计网络可以有效地区分不同类型的模糊,这有利于图像的去模糊化。通过图像去模糊化了解隐含的运动信息可以提高运动估计的性能。 |
编码-解码结构 |
GoPro |
Relational Reasoning for Group Activity Recognition via Self-Attention Augmented Conditional Random Field(无/低) |
自注意力 |
图片 |
软件/理论 |
提出了一种用于群体活动识别的新的关系网络。该网络的本质是将条件随机场(CRFs)与自我注意力结合起来,推断出行为者的时间依赖性和空间关系。这种结合可以利用CRFs在模拟演员相互依赖的特征方面的能力,以及自我注意在学习视频中每个演员的时间演变和空间关系背景方面的能力。 |
将条件随机场与自我注意力结合起来 |
Volleyball Dataset Collective Activity Dataset New Collective Activity Dataset Collective Activity Extended Dataset |
Towards Fair Knowledge Transfer for Imbalanced Domain Adaptation(无/低) |
领域适应 |
图片 |
软件 |
提出了一个Towards Fair Knowledge Transfer(TFKT)框架来处理不平衡跨域学习中的公平性挑战。在源内和跨域结构图的指导下,提出了一种新型的跨域知识传播技术,以平滑少数源集的流形。此外,还利用跨域履行增强策略来实现领域适应。 |
混合不同的分类器和跨域原型 |
Office-31 Office-Home |
Semi-Supervised Pixel-Level Scene Text Segmentation by Mutually Guided Network(无/低) |
图像分割 |
图片 |
软件 |
提出了一种新的数据驱动的方法,用于从单一自然图像中进行像素级的场景文本分割。将文本区域遮罩作为辅助数据纳入这项任务,考虑到获取大规模的标记文本区域遮罩通常成本较低且耗时。提出了一个相互引导的网络,在一个分支中产生一个多边形级别的掩码,在另一个分支中产生一个像素级别的文本掩码。 |
通过将文本区域遮罩作为辅助数据有效解决像素级的文本分割问题 |
COCO-TS MLT-S ICDAR-2013-WARP TotalText |
Tracking Beyond Detection: Learning a Global Response Map for End-to-End Multi-Object Tracking(无/低) |
多目标跟踪 |
视频 |
软件 |
提出了一个有效的端到端深度学习框架,它可以直接将图像序列/视频作为输入,并输出所学类型的定位和跟踪的对象。学习了一个新的全局响应网络,将图像序列/视频中的多个物体投射到一个连续的响应图中,然后可以很容易地挑出每个被跟踪物体的轨迹。 |
端到端的目标检测,解放计算量以及性能 |
MOT16 MOT17 |
AGRNet: Adaptive Graph Representation Learning and Reasoning for Face Parsing(无/低 .) |
面部解析
|
人脸照片 |
软件 |
提出了自适应图表示学习和面部组件推理,旨在学习描述每个组件的代表性顶点,利用组件之间的关系,从而产生准确的解析结果,以防止歧义。 设计了一种自适应和可分化的图形抽象方法,在预测解析图的初始条件下,通过像素到顶点的投影来表示图形上的成分,其中某个面部区域内的像素特征被聚集到一个顶点上。 |
通过人脸组件之间的相关性辨别面部区域模糊像素 |
Face Parsing Human Parsing |
Direct Unsupervised Super-Resolution Using Generative Adversarial Network (DUS-GAN) for Real-World Data(有/中) |
超分辨率 |
低分辨率图片 |
软件 |
提出了一种使用生成对抗网络(GAN)的SISR任务的无监督方法,我们把它称为DUS-GAN。所提方法的新颖设计完成了SR任务,而没有对现实世界的LR数据进行退化估计。此外,还引入了一种新的基于人类感知的质量评估损失,即平均意见得分(MOS),以提高SR结果的感知质量。通过在不同的基于参考(即NTIRE真实世界SR挑战赛验证数据集)和无参考(即NTIRE真实世界SR挑战赛Track-1和Track-2)测试数据集上进行大量实验,验证了所提方法的针对性。 |
训练不需要监督 |
NTIRE-2020 Real-world SR Challenge dataset |
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos(无/低) |
视频语言定位 |
视频 |
软件 |
解决视频中的时间语言定位问题,其目的是在未修剪的视频中识别自然语言句子所描述的时刻的开始和结束点。然而,这并非易事,因为它不仅需要对视频和句子查询的全面理解,还需要对它们之间的语义对应关系进行准确捕捉。提出了一个多模态交互图卷积网络(MIGCN),它可以共同探索驻留在视频和句子查询中的复杂的模态内关系和模态间交互,以促进对视频和句子查询的理解和语义对应捕捉。 |
多尺度全连接层 |
Charades-STA ActivityNet |
Investigating Customization Strategies and Convergence Behaviors of Task-Specific ADMM(无/低) |
网络框架 |
/// |
软件/理论 |
提出了 "优化指导"(GO),一种新的定制策略,将特定任务模块嵌入到乘法交替方向法(ADMM)。通过引入一个基于最优性的标准来指导传播,GO-ADMM建立了一个与附加模块的选择无关的更新方案。现有的特定任务方法只是将其特定任务模块直接插入到数值迭代中。即使对插件模块有一些限制性的约束,他们也只能获得一些相对较弱的ADMM迭代结果的收敛特性。 |
使用特定的任务模块优化乘法交替方向法 |
Rain100L Rain1400 |
Predicting Task-Driven Attention via Integrating Bottom-Up Stimulus and Top-Down Guidance(有/中) |
无任务的注意力 |
照片 |
软件 |
处理了在人类做任务的日常场景中预测TDAttention的问题。受人类注意力分配由自上而下的指导和自下而上的刺激共同控制这一认知机制的启发,本文提出了一个认知解释型的深度神经网络模型来预测TDAttention。给定一个图像序列,首先提取自下而上的特征,如人的姿势和运动。 |
自下而上的注意力机制 |
CAD-120 TIA |