关注公众号,发现CV技术之美
本文转载自腾讯优图
第29届ACM国际多媒体会议(简称ACM MM)于10月20日至24日在成都举行。ACM MM是世界多媒体领域最重要的顶级会议,也是中国计算机学会推荐的该领域唯一的A类国际学术会议。
本次会议共计5天议程,有70场精彩报告,其中囊括了6场国内外顶尖学者的主旨报告、13场重磅专题研讨、51场国内外知名学者及学术新星的学术报告。会议将针对单个媒体和跨界整合多媒体元素的最具创新性和影响力的顶级热点研究成果进行分享交流。此外,在视频编码、视觉识别、大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等研究方向有多场精彩的学术分享报告,将充分展示全球高校、研究机构及高新企业在多媒体研究方面的最新进展。
腾讯优图实验室今年继续保持高质量输出,贡献了9篇计算机视觉相关的优质论文,涵盖弱监督图像描述及定位、表格结构识别、人脸安全等多个研究方向,这些技术创新和突破将有助于智慧城市、智慧文娱、智慧制造等场景的落地应用,进一步扩大中国AI技术的影响力,推进全球人工智能的发展。
▶️ 以下为腾讯优图实验室ACM MM2021精选论文的亮点集锦:
Distributed Attention for Grounded Image Captioning
弱监督图像描述及定位近年来逐渐受到国内外研究机构以及工业界关注。该任务是指对给定的图像自动生成一句话描述图像的内容,同时预测出描述中名词对应的目标位置。已有的工作主要通过正则化技术依靠注意力机制在生成图像描述的同时预测名词对应的目标的位置。这些方法的性能距离全监督的图像描述及定位有很大的差距。
其中最主要的问题在于,依靠注意力机制的大部分方法预测结果往往集中于目标的最具判别性的局部位置,无法完整的预测目标的整体内容。基于此,我们提出一种十分简单且有效的分布注意力机制,挑选多个语义相同但位置不完全重合的目标之后进行聚合,从而得到更加完整的目标位置。在公开的Flickr30K Entities数据集上,保持图像描述性能不降的情况下大幅刷新目标定位性能SOTA,与全监督的方法性能持平。
Discriminator-free Generative Adversarial Attack
深度学习网络容易受到对抗样本的影响,在图像上加入一些不显眼的扰动后基于DNN的识别任务可能失效。目前大多数对抗攻击方法基于梯度搜索,这类方法生成对抗样本的耗时长,也会受到显存资源不足的影响。基于生成的方法(GAN)可缓解这些问题,但这类方法一方面训练比较难收敛,另外生成的攻击样本效果和视觉质量不稳定。
我们发现判别器在对抗生成网络中并非必不可少,提出基于显著性区域的对称自动编码器方法(SSAE),该方法由显著性响应模块 (the saliency map)和特征角度正则解耦模块 (the angle-norm disentanglement)组成,用生成的显著性响应图去关注标签相关的区域,不再依赖判别器。在图像识别和图像检索任务上的大量实验证明SSAE方法生成的攻击样本不仅可以在主流网络模型上攻击效果好,同时也具有很好的视觉质量。
Show, Read and Reason:
Table Structure Recognition with
Flexible Context Aggregator
本文主要针对表格结构识别这一具有挑战性的问题进行研究。目前,业内方法往往采用基于图的上下文累积器,来稀疏地建模表格元素的上下文关系。然而,基于图的约束可能会引入过强的归纳偏置,无法充分地表示复杂的表格关系。为了让模型从数据中学习更合适的归纳偏置,本文引入Transformer作为上下文累积器。Transformer以密集上下文作为输入,同时由于的归纳偏置的弱化,Transformer对数据的规模要求更高,并且训练过程可能会不稳定。
为了解决上述问题,本文设计了FLAG (FLexible context AGgregator) 模块,它将Transformer与基于图的上下文累积器以一种自适应的方式结合在一起。基于FLAG,本文设计了一个端到端的网络,称为FLAG-Net ,该网络不需要额外的OCR信息,并且可以灵活地调整密集上下文(dense context)和稀疏上下文(sparse context)的累积,进行表格元素的关系推理。本文还进一步探索了FLAG中的上下文选择模式,这对于识别表格结构是至关重要的。在标准测试集上的实验结果表明,本文提出的FLAG-Net的性能大大超过业内其他方法。
LSTC: Boosting Atomic Action Detection with
Long-Short-Term-Context
相对于视频序列中的一般性运动检测,原子级的目标行为(如交谈,拾取,瞭望)的判断更加依赖于视频中上下文依赖关系的挖掘,同时这种依赖关系在不同的时间尺度上呈现若相关特性。
本文将视频目标的行为与其以来关系解耦为稠密的短时上下文依赖(Dense Short-term Context)和稀疏的长时上下文依赖 (Sparse Long-term Context),并通过概率图模型将两者解耦为条件独立的交互关系分别辅助目标原子行为的判别,同时引入了一种近似高阶的注意力机制(High-Order Attention Mechanism),在计算复杂度不提升的条件下,将传统的注意力模型从一对一推广到一对多的交互关系。在AVA以及Hieve等基准测试集上表明,这种长短时依赖独立推断的机制能够有效帮助行为检测器正确推断目标行为。
ASFD: Automatic and
Scalable Face Detector
在目前主流的目标检测器的设计范式中,特征增强以及特征融合模块已经成为了增强特征判别能力,提升检测效果的必备组件,但是由于数据分布上的差异,一般性目标检测网络中的特征增强模块并不能在人脸检测场景中带来稳定的提升。
为此,本文系统性地分析了数据分布差异对于特征增强和融合模块效果的影响,并据此针对人脸检测场景,提出了一个可微分的自动化特征增强模块搜索流程AutoFAE, 同时,本文基于改搜索流程建立了用于网络搜索的超集,以满足不同推理速度约束下搜索到最优性能的模型结构。在主流的人脸检测数据集Wider-Face, FDDB上,本文搜索的人脸检测架构能够在相同的推理速度下达到更好的检测效果。
Adaptive Normalized Representation
Learning for Generalizable
Face Anti-Spoofing
随着多样化人脸攻击形式的出现,活体检测的泛化性受到越来越多关注。现有方法往往直接对网络学习的特征进行约束,然而忽略了模型特征提取的过程,尤其是标准化的影响。针对该问题,本文提出了一种自适应标准化表征学习的活体检测新方法。具体而言,本文设计了一个自适应特征标准化模块(AFNM),该模块根据样本特征自适应地结合BN和IN标准化方式。并在在训练过程中结合元学习框架,在meta-test阶段重点学习AFNM模块,从而提升泛化性。此外,为进一步学习域无关的活体表征,本文设计了双重校准约束(DCC),包括域间兼容损失(IDC)和类间分隔损失(ICS)。多个学术数据集上实验结果表明我们方法优于现有方法,为实际场景下活体技术的应用提供了有效框架。
RecycleNet:
An Overlapped Text Instance
Recovery Approach
文本图像识别是理解多媒体媒介的关键技术手段。主流的设计范式关注独立文本行的精准识别,但这些方法在复杂真实场景如财务票据和学生作业簿上受到了严峻的挑战。简单通过优化识别方法本身或数据增强难以处理手写/印刷文本或印刷/印刷文本的套打(overlapping)。基于这个观察,本文介绍了RecycleNet,一个自动分离套打文本实例的策略。RecycleNet的关键设计在于定位并重用(recycle)了文本实例间套打的像素区域,将这些区域归还到其归属的全部实例,保障了分离后实例的完整性。RecycleNet平行于现有的文本识别解决方案,可作为可插拔模块,用很小的开销提升现有识别基线的精度。
Spatiotemporal Inconsistency Learning for
DeepFake Video Detection
随着人脸生成技术的快速发展,人脸伪造检测也受到越来越多的关注。现有的方法往往将人脸伪造检测问题建模为二分类问题并提出了基于图像和视频的检测方法。本文从一个新的角度出发,将该任务建模为时空不一致性学习过程,通过抓取伪造视频在空间和时序运动中的伪造痕迹来进行真假鉴别。
具体地,本文设计了一个新的STIL单元,主要包括空间不一致性模块(SIM),时间不一致性模块(TIM)以及信息互补模块(ISM)。其中SIM采用具有残差结构的注意力机制重点捕捉空间不一致,TIM分别从水平和竖直两个方向捕捉时序运动中的不一致,ISM则进一步促进空间不一致和时序不一致间的信息交互。STIL单元非常灵活,可以插到大多数已有的2D网络中。大量的实验表明我们提出的方法在多个数据集上优于现有的方法,同时详细的可视化也充分证明了我们方法的可解释性。
END
欢迎加入「CV论文」交流群备注:papers