今日人工智能领域新增论文 224篇,AI日读精选其中 36篇推荐给大家。这些论文主要来自CVPR,AAAI,ECAI,AISTATS,ESWC,WAAS,JMLR等会议与期刊。其中包含 计算机视觉论文17篇[1-17], 自然语言处理论文5篇[18-22], 方法论论文3篇[27-29], 知识图谱论文4篇[31-34], 推荐系统论文2篇[35-36]。
首先来看 计算机视觉论文:
- 在临床显微镜中处理
十亿像素完整幻灯片图像(WSI)的困难一直是实施计算机辅助诊断系统的长期障碍。由于现代计算资源无法以如此巨大的规模执行计算,因此当前的最佳技术方案是利用基于补丁的处理来保持WSI分辨率。但是,这些方法通常占用大量资源,且在处理时间上造成很大折衷。[6]证明传统的基于补丁的处理对于某些WSI分类任务是多余的,
在WSI分类任务中, 仅在少数情况下才需要高分辨率。这反映了在临床实践中观察到的情况:病理学家可以使用低分辨率物镜来筛选幻灯片,并且只有在不确定其发现时才切换到高分辨率。为消除这些冗余,研究者基于对缩减的WSI的预测置信度,提出一种选择性使用高分辨率处理的方法,称之为
选择性目标切换(Selective Objective Switch,SOS)法。该方法在常规用于自身免疫性肝病研究的684个肝脏-肾脏-胃免疫荧光WSI的新数据集上得到验证。通过将高分辨率处理限制为无法在低分辨率下可靠分类的案例,可以保持补丁程序级别分析的准确性,同时将推理时间减少7.74倍。
- [2]利用城市场景图像的内在特征,提出一个通用的附加模块,称为
高度驱动注意力网络(Height-Driven Attention Networks,HANet),用于改善城市场景图像的语义分割。其
根据像素垂直位置选择性强调信息化特征或类别。在城市场景图中,在水平分割的部分之间,逐像素类别分布明显不同。同样,城市场景图像具有其自身独特的特征,但大多数语义分割网络并未反映出体系结构中的此类独特属性。所提网络架构结合了利用属性来有效处理城市场景数据集的能力。当采用HANet时,研究者验证了在两个数据集上各种语义细分模型的一致性能(mIoU)增加。这种广泛的定量分析表明,将所提模块添加到现有模型中既容易又具有成本效益。在基于ResNet101的细分模型中,所提方法在Cityscapes基准上实现了当前最佳性能。此外,研究者通过可视化和解释注意力图来表明所提模型与在城市场景中观察到的事实是一致的。
- 最近的研究表明,在部分遮挡的情况下,深度卷积神经网络(DCNN)的泛化性都不够高。受合成模型在分类部分遮挡目标任务上成功应用的启发,[3]提出将合成模型和DCNN
集成到一个
统一合成卷积神经网络模型中,使其在部分遮挡的情况下,也能具有良好的泛化性。其主要思想是
将传统DCNN顶部全连接分类层替换为一个可微合成模型,而合成模型的生成性质使它能够定位遮挡物,并随后专注于对象的非遮挡部分。文章在MS-COCO数据集中的人工遮挡图像以及部分遮挡物体图像上进行了实验,实验结果表明,即使是使用增强过的部分遮挡数据进行训练,DCNN也无法对遮挡的对象进行稳健的分类。文章提出的模型在对部分被遮挡的物体进行分类时,即使在训练过程中没有“看见”被遮挡的物体,其结果在很大程度上也优于标准DCNN的结果。
-
地球上有成千上万种能说的语言,但只有一个视觉世界。扎根于这个视觉世界有可能弥合所有这些语言之间的鸿沟。[5]目标是
使用视觉基础来改善语言之间无监督的单词映射。关键思想是通过学习以母语描述的未配对教学视频中的嵌入内容,在两种语言之间建立通用视觉表示。鉴于这种
共享嵌入,研究者证明1)可以在语言之间映射单词,尤其是“视觉”单词;2)共享嵌入为现有的无监督基于文本的单词翻译技术提供了良好的初始化方法,从而为所提的混合可视文本映射算法MUVE奠定基础;3)所提方法通过解决基于文本方法的缺点而获得卓越的性能,该方法更健壮、以较少的通用性处理数据集、适用于资源贫乏的语言。研究者采用所提方法将单词从英语翻译为法语、韩语和日语而无需任何平行语料库,只需观看许多人在做事时讲话的视频即可。
- 大多数现有的
目标检测方法都依赖于每个类别所提供的大量标注样本和离线批处理训练。这些要求将这些模型的可扩展性限制为只能训练有限标注样本的新类。为了解决这个问题,[4]提出了一个
增量小样本检测(Incremental Few-Shot Detection)方法。具体来说,文章提出了一个基于增量学习的
ONCE检测器,用来检测带有少数样本的新目标类。ONCE完全遵从增量学习的范式,新类只需在少量训练样本的情况下进行一次前向过程,而不需要访问基本的目标类,这使得ONCE适合在嵌入式设备上进行部署。文章在标准目标检测和服装关键点检测任务上进行了大量的实验,并证明了其提出方法的有效性。
- 视频具有丰富的动态结构,并且其在日常生活中十分普遍,因此一个自然而然的想法是将视频数据作为强大的无监督学习信号,用来训练深度神经网络中的视觉表示。然而想大规模的实现此想法仍然是当前视觉领域的一个重大挑战。在[1]中,文章提出了一个
视频实例化嵌入(VIE)框架,该框架将用于学习深度
非线性嵌入的无监督损失函数扩展到了大型视频数据集上的多流时间处理架构中。文章表明,通过VIE训练的神经网络在从视频数据流进行无监督学习方面显著优于现有模型,其既可以用于Kinetics数据集中的动作识别,也可以用于ImageNet数据集中的对象识别。 自然语言处理方面:
-
注意力机制的最新进展已取代递归神经网络及其在机器翻译任务中的变体。使用注意力机制的Transformer在序列建模中获得当前最佳结果。基于注意力机制的神经机器翻译可并行,且比循环神经网络更有效解决了句中单词间的长程依赖问题。注意力机制的核心概念之一是
学习Query,Key,Value这三个矩阵,通过这些矩阵线性投影词嵌入来学习单词之间的全局依赖。进一步,多个Query,Key,Value矩阵可以同时学习以聚焦于嵌入维度的不同子空间,这就是Transformer中的多头注意力机制。[19]认为,
单词之间的某些依赖可以通过中间上下文来习得,效果比直接建模单词到单词的依赖更好。这中现象可能取决于某些依赖项的性质,或是模式的缺失导致,这些模式使模型很难使用多头自注意机制进行全局建模。在这项工作中,研究者提出一种使用卷积在多头环境中学习依赖关系的新方法。与Transformer相比,这种新多头注意力形式及传统形式在WMT 2014的英语到德语和英语到法语翻译任务上取得了更好的效果。研究者还引入了一个框架,用于在编码器训练期间学习正类标记和负类信息,以进一步提高识别结果,从而在WMT 2014英德翻译任务上使BLEU值达到32.1,比现有基准1.4BLEU更好;在英法翻译任务上,BLEU则为44.6,比现有最佳方法高出1.1BLEU。研究者称所提方法为
Transformer ++。
- 序列到序列模型试图捕获输入序列和输出序列中所有单词间的相关性。虽然这对于单词间相关性确实很强的机器翻译任务非常有用,但对于其中相关性通常处于抽象级别的会话建模而言则存在问题。人类倾向于专注对话上下文中讨论的基本概念,并产生相应的响应。基于此,[20]试图通过在
无监督情况下
学习上下文和响应中的基本概念来
模仿这种
响应生成机制。所提模型称为
Mask&Focus,将输入上下文映射到一系列概念,然后将这些概念用于生成响应概念。接着,上下文和响应概念共同生成最终响应。为自动从训练数据中学习上下文概念,研究者在输入中遮住一些单词,并观察遮罩对响应生成的影响。研究者训练模型来学习那些与上下文概念具有较高相互信息的响应概念,从而指导模型将注意力集中在上下文概念上。Mask&Focus在几个已建立的对话度量标准中,相对于现有基准有显著改进。
- 越来越多文献声称深度神经网络在处理恶意创建的对抗样本时是非常脆弱的。但是,目前尚不清楚这些模型在现实情况下(通常存在“自然而非恶意”的对抗样本)如何运行。[18]探讨
BERT在
处理无意间发生的嘈杂数据(尤其是键盘输入错误)方面的
鲁棒性。在
情感分析和问答基准上的大量实验表明:1)句中各单词的错别字不会产生同等影响, 信息丰富的错别字会造成更大损失;2)与插入、删除等操作相比,类型错误是造成破坏最大的因素;3)人机在识别对抗攻击方面有不同侧重点。
除此之外,本期还有如下看点:
-
多语言建模方面若要取得进展,需要具有挑战性和可信赖的评估方式。[23]提出
TyDi QA,一个
涵盖204种问答对、11种类型的多语言问答数据集。TyDi QA的语言在类型(即每种语言所表达的语言特征集)方面多种多样,因此,研究者希望在该语言集上表现良好的模型能够很好地在全球众多语言上推广。这项工作提供了对数据质量的定量分析,以及仅在英语语料库中找不到的观察到的语言现象的示例级别定性语言分析。为提供切合实际的信息搜索任务并避免启动效应(priming effects),问题由想知道答案但还不知道答案的人编写,并直接使用每种语言收集数据,而无需使用翻译。
最后,本期还包含2个新构造的 数据集[23-24],2个新提出的任务[25-26],1篇 综述[30],以及其他技术。
计算机视觉
Computer Vision
[1]
Unsupervised Learning from Video with Deep Neural Embeddings
Chengxu Zhuang, Tianwei She, Alex Andonian, Max Sobol Mark, Daniel Yamins
摘 要:
原 文:http://arxiv.org/pdf/1905.11954v2
资 源:https://github.com/neuroailab/VIE
[2]
Cars Can't Fly up in the Sky: Improving Urban-Scene Segmentation via Height-driven Attention Networks
Sungha Choi, Joanne T. Kim, Jaegul Choo
摘 要:
原 文:http://arxiv.org/pdf/2003.05128v1
资 源:github.com/shachoi/HANet
[3]
Compositional Convolutional Neural Networks: A Deep Architecture with Innate Robustness to Partial Occlusion
Adam Kortylewski, Ju He, Qing Liu, Alan Yuille
摘 要:
原 文:http://arxiv.org/pdf/2003.04490v1
[4]
Incremental Few-Shot Object Detection
Juan-Manuel Perez-Rua, Xiatian Zhu, Timothy Hospedales, Tao Xiang
摘 要:
原 文:http://arxiv.org/pdf/2003.04668v1
[5]
Visual Grounding in Video for Unsupervised Word Translation
Gunnar A. Sigurdsson, Jean-Baptiste Alayrac, Aida Nematzadeh, Lucas Smaira, Mateusz Malinowski, João Carreira, Phil Blunsom, Andrew Zisserman
摘 要:
原 文:http://arxiv.org/pdf/2003.05078v1
资 源:github.com/facebookresearch/
[6]
SOS: Selective Objective Switch for Rapid Immunofluorescence Whole Slide Image Classification
Sam Maksoud, Kun Zhao, Peter Hobson, Anthony Jennings, Brian Lovell
摘 要:
原 文:http://arxiv.org/pdf/2003.05080v1
资 源:github.com/cradleai/LKS-Dataset
[7]
Learning Video Object Segmentation from Unlabeled Videos
Xiankai Lu, Wenguan Wang, Jianbing Shen, Yu-Wing Tai, David Crandall, Steven C. H. Hoi
摘 要:
原 文:http://arxiv.org/pdf/2003.05020v1
资 源:https://github.com/carrierlxk/MuG
[8]
Cloth in the Wind: A Case Study of Physical Measurement through Simulation
Tom F. H. Runia, Kirill Gavrilyuk, Cees G. M. Snoek, Arnold W. M. Smeulders
摘 要:
原 文:http://arxiv.org/pdf/2003.05065v1
资 源:tomrunia.github.io/projects/cloth/Table
[9]
Equalization Loss for Long-Tailed Object Recognition
Jingru Tan, Changbao Wang, Buyu Li, Quanquan Li, Wanli Ouyang, Changqing Yin, Junjie Yan
摘 要:
原 文:http://arxiv.org/pdf/2003.05176v1
资 源:github.com/richardaecn/, github.com/tztztztztz/eql.detectron2, github.com/zhmiao/
[10]
LC-GAN: Image-to-image Translation Based on Generative Adversarial Network for Endoscopic Images
Shan Lin, Fangbo Qin, Yangming Li, Randall A. Bly, Kris S. Moe, Blake Hannaford
摘 要:
原 文:http://arxiv.org/pdf/2003.04949v1
[11]
AP-MTL: Attention Pruned Multi-task Learning Model for Real-time Instrument Detection and Segmentation in Robot-assisted Surgery
Mobarakol Islam, Vibashan VS, Hongliang Ren
摘 要:
原 文:http://arxiv.org/pdf/2003.04769v1
[12]
Channel Interaction Networks for Fine-Grained Image Categorization
Yu Gao, Xintong Han, Xun Wang, Weilin Huang, Matthew R. Scott
摘 要:
原 文:http://arxiv.org/pdf/2003.05235v1
[13]
ENSEI: Efficient Secure Inference via Frequency-Domain Homomorphic Convolution for Privacy-Preserving Visual Recognition
Song Bian, Tianchen Wang, Masayuki Hiromoto, Yiyu Shi, Takashi Sato
摘 要:
原 文:http://arxiv.org/pdf/2003.05328v1
[14]
PBRnet: Pyramidal Bounding Box Refinement to Improve Object Localization Accuracy
Li Xiao, Yufan Luo, Chunlong Luo, Lianhe Zhao, Quanshui Fu, Guoqing Yang, Anpeng Huang, Yi Zhao
摘 要:
原 文:http://arxiv.org/pdf/2003.04541v1
资 源:https://github.com/open-mmlab/mmdetectionAbbreviated
[15]
Off-Road Drivable Area Extraction Using 3D LiDAR Data
Biao Gao, Anran Xu, Yancheng Pan, Xijun Zhao, Wen Yao, Huijing Zhao
摘 要:
原 文:http://arxiv.org/pdf/2003.04780v1
[16]
Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning
Zhiyuan Fang, Tejas Gokhale, Pratyay Banerjee, Chitta Baral, Yezhou Yang
摘 要:
原 文:http://arxiv.org/pdf/2003.05162v1
资 源:https://github.com/bjascob/LemmInflect22
[17]
Unpaired Image-to-Image Translation using Adversarial Consistency Loss
Yihao Zhao, Ruihai Wu, Hao Dong
摘 要:
原 文:http://arxiv.org/pdf/2003.04858v1
自然语言处理
Natural Language Processing
[18]
Adv-BERT: BERT is not robust on misspellings! Generating nature adversarial samples on BERT
Lichao Sun, Kazuma Hashimoto, Wenpeng Yin, Akari Asai, Jia Li, Philip Yu, Caiming Xiong
摘 要:
原 文:http://arxiv.org/pdf/2003.04985v1
[19]
Transformer++
Prakhar Thapak, Prodip Hore
摘 要:
原 文:http://arxiv.org/pdf/2003.04974v1
[20]
Mask & Focus: Conversation Modelling by Learning Concepts
Gaurav Pandey, Dinesh Raghu, Sachindra Joshi
摘 要:
原 文:http://arxiv.org/pdf/2003.04976v1
[21]
SAFE: Similarity-Aware Multi-Modal Fake News Detection
Xinyi Zhou, Jindi Wu, Reza Zafarani
摘 要:
原 文:http://arxiv.org/pdf/2003.04981v1
资 源:https://github.com/KaiDMML/FakeNewsNet, https://github.com/tensorflow/models/tree/master/research/slim#, https://github.com/nikhilmaram/Show_and_Tell6
[22]
Understanding the Downstream Instability of Word Embeddings
Megan Leszczynski, Avner May, Jian Zhang, Sen Wu, Christopher R. Aberger, Christopher Ré
摘 要:
原 文:http://arxiv.org/pdf/2003.04983v1
资 源:github.com/thunlp/OpenKE/tree/OpenKE-PyTorch, github.com/zalandoresearch/flairUnderstandingtheDownstreamInstabilityofWordEmbeddings, github.com/harvardnlp/sent-conv-torch/tree/master/data, github.com/HazyResearch/smallfryUnderstandingtheDownstreamInstabilityofWordEmbeddings, github.com/stanfordnlp/GloVeUnderstandingtheDownstreamInstabilityofWordEmbeddings, github.com/allenai/allennlp, github.com/facebookresearch/, https://github.com/HazyResearch/anchor-stability, github.com/tmikolov/word2vec, github.com/HazyResearch/anchor-stability/blob/master/README.mdfilefordetailed
数据集
Dataset
[23]
TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages
Jonathan H. Clark, Eunsol Choi, Michael Collins, Dan Garrette, Tom Kwiatkowski, Vitaly Nikolaev, Jennimaria Palomaki
摘 要:
原 文:http://arxiv.org/pdf/2003.05002v1
资 源:24github.com/google-research/bert, 3github.com/google-research-datasets/tydiqa
[24]
PANDA: A Gigapixel-level Human-centric Video Dataset
Xueyang Wang, Xiya Zhang, Yinheng Zhu, Yuchen Guo, Xiaoyun Yuan, Liuyu Xiang, Zerun Wang, Guiguang Ding, David J Brady, Qionghai Dai, Lu Fang
摘 要:
原 文:http://arxiv.org/pdf/2003.04852v1
任务与挑战
Task & Challenge
[25]
The MineRL Competition on Sample-Efficient Reinforcement Learning Using Human Priors: A Retrospective
Stephanie Milani, Nicholay Topin, Brandon Houghton, William H. Guss, Sharada P. Mohanty, Oriol Vinyals, Noboru Sean Kuno
摘 要:
原 文:http://arxiv.org/pdf/2003.05012v1
资 源:https://github.com/minerllabs/competition_submission_starter_template, https://github.com/AIcrowd/repo2docker, https://github.com/minerllabs/baselines
[26]
A Benchmark for Systematic Generalization in Grounded Language Understanding
Laura Ruis, Jacob Andreas, Marco Baroni, Diane Bouchacourt, Brenden M. Lake
摘 要:
原 文:http://arxiv.org/pdf/2003.05161v1
资 源:github.com/LauraRuis/groundedSCAN, github.com/LauraRuis/multimodal_seq2seq_gSCAN
方法论
Methodology
[27]
FuDGE: Functional Differential Graph Estimation with fully and discretely observed curves
Boxin Zhao, Y. Samuel Wang, Mladen Kolar
摘 要:
原 文:http://arxiv.org/pdf/2003.05402v1
资 源:https://github.com/boxinz17/FuDGE
[28]
Trusted Confidence Bounds for Learning Enabled Cyber-Physical Systems
Dimitrios Boursinos, Xenofon Koutsoukos
摘 要:
原 文:http://arxiv.org/pdf/2003.05107v1
[29]
Auditing ML Models for Individual Bias and Unfairness
Songkai Xue, Mikhail Yurochkin, Yuekai Sun
摘 要:
原 文:http://arxiv.org/pdf/2003.05048v1
综述
Survey
[30]
Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey
Sanmit Narvekar, Bei Peng, Matteo Leonetti, Jivko Sinapov, Matthew E. Taylor, Peter Stone
摘 要:
原 文:http://arxiv.org/pdf/2003.04960v1
知识图谱
Knowledge Graph
[31]
Dividing the Ontology Alignment Task with Semantic Embeddings and Logic-based Modules
Ernesto Jiménez-Ruiz, Asan Agibetov, Jiaoyan Chen, Matthias Samwald, Valerie Cross
摘 要:
原 文:http://arxiv.org/pdf/2003.05370v1
资 源:https://github.com/facebookresearch/StarSpace, https://github.com/ernestojimenezruiz/logmap-matcher, https://github.com/plumdeq/neuro-onto-part
[32]
Entity Extraction from Wikipedia List Pages
Nicolas Heist, Heiko Paulheim
摘 要:
原 文:http://arxiv.org/pdf/2003.05146v1
资 源:https://github.com/5j9/wikitextparserEntity
[33]
Compacting Frequent Star Patterns in RDF Graphs
Farah Karim, Maria-Esther Vidal, Sören Auer
摘 要:
原 文:http://arxiv.org/pdf/2003.05238v1
资 源:https://github.com/SDM-TIB/Graph-Factorization
[34]
Crop Knowledge Discovery Based on Agricultural Big Data Integration
Vuong M. Ngo, M-Tahar Kechadi
摘 要:
原 文:http://arxiv.org/pdf/2003.05043v1
推荐系统
Recommendation System
[35]
Uncovering the Data-Related Limits of Human Reasoning Research: An Analysis based on Recommender Systems
Nicolas Riesterer, Daniel Brand, Marco Ragni
摘 要:
原 文:http://arxiv.org/pdf/2003.05196v1
资 源:github.com/CognitiveComputationLab/ccobra
[36]
Learning Diverse Fashion Collocation by Neural Graph Filtering
Xin Liu, Yongbin Sun, Ziwei Liu, Dahua Lin
摘 要:
原 文:http://arxiv.org/pdf/2003.04888v1
方便重温,点个在看~