如果你想在人工智能领域深耕,阅读经典论文是一个必须要做的事情。
但是,怎么读?读哪些?论文中哪些是关键?都是需要让人去琢磨的地方。
最近,有一份资源悄然流传出来,里面汇集了29篇经典的机器学习论文的总结,这些论文都是作者近半年来读到的。
每篇论文,作者都给出了论文的主要思路,与其他相关的研究有什么区别,这篇论文有哪些亮点与创新点等等。而且,基本上每篇论文都附上了链接。
这些论文,一共分为六个部分。
这部分,一共6篇。分别是:
BERT: Language Model Pretraining
来自谷歌AI,提出了一种强大的新的语言表征模型。
You May Not Need Attention
来自艾伦人工智能研究所,提出了一种循环神经翻译模型,不需要注意力机制,也没有单独的编码器和解码器。
Trellis Networks for Sequence Modeling
论文提出了用于序列建模的新架构Trellis Networks,是时间卷积网络和RNN之间的理论桥梁,但适用范围比前者更小,比后者更广泛。来自CMU和英特尔。
On the Evaluation of Common Sense Reasoning in Natural Language Processing
来自麦吉尔大学,目标是深入到用于评估模型性能的测试集中,并试图理解它在多大程度上对模型行为进行了严格测试。这篇论文主要讨论的是Winograd Schema Challenge (WSC),图灵测试的一个变种,旨在判定AI系统的常识推理能力。并提出了一个新的评估标准,弥补WSC等基准测试中的局限性。
SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient
这篇论文来自上海交通大学等。作者提出了一个序列生成框架SeqGAN,来解决GAN在生成离散数据时的局限性。
Evaluating Language GANs and Neural Text Generation
这篇论文研究了当前用于比较文本生成的度量标准为什么无法全面描述模型的运行情况,并在与传统的最大似然估计方法相比的情况下,评估了用于生成文本的GAN的性能。
这部分,一共4篇。分别是:
One-Shot Imitation Learning
来自OpenAI,提出了一个元学习框架,能够从极少数演示中学习,去完成任何给定的任务。
Importance Weighted Actor Learner Architectures
来自DeepMind,开发了一个新的分布式智能体IMPALA,不仅在单机训练中能更有效地使用资源,而且在不牺牲数据效率和资源利用率的情况下,可以扩展到数以千计的机器上。
Multi-Task RL Using Pop Art Normalization
强化学习领域,算法大部分都是一次训练一个任务,每个新任务都需要重新训练智能体。学习算法通用,但每个解决方案都不通用。这篇论文提出了一种方法,优化了同时掌握多个顺序决策任务时的资源分配和注意力分散问题,在57款不同的Atari游戏中的表现超过了中等水平的人类,这也是第一次单个智能体在这一多任务领域超过人类。
Proximal Meta Policy Search
来自加州大学伯克利分校等,开发了一个新的元学习算法,克服了不良信用分配的问题和先前评估元策略梯度方面的困难。
这部分,一共9篇。分别是:
Curiosity Driven Learning
论文作者来自OpenAI和加州大学伯克利分校,目标是弄清楚在没有外部奖励信号的情况下,仅仅由好奇心驱动的学习能够使强化学习系统走多远。这也是第一次大规模研究纯粹由好奇驱动的强化学习。
Episodic Curiosity Through Reachability
论文提出了一种新的好奇方法,利用情景记忆形成奖励,作者来自谷歌大脑、DeepMind等。
Model-Based Active Exploration
提出了一种主动探索环境的算法。通过计划观察新事件,而不是仅仅对偶然遇到的新事物做出反应,最大限度地减少了全面模拟环境所需的数据。作者来自“递归神经网络之父”Jürgen Schmidhuber的创业公司NNAISENSE。
Combined Reinforcement Learning via Abstract Representations
来自麦吉尔大学等,对比了基于模型和无模型的强化学习,然后讨论了他们提出的CRAR方法如何将这两种结构结合起来。
Agent Empowerment
这是一篇经典论文,来自赫特福德大学,论文讨论了“授权”的概念,提出了一种关于智能体的效用函数,适用于没有提供任何明确短期回报的情况。
Recurrent World Models Facilitate Policy Evolution
论文作者David Ha(谷歌AI)和Jürgen Schmidhuber,以无监督的方式快速训练生成型循环神经网络,通过压缩的时空表征 (Spatio-Temporal Representations) ,来为那些常见的强化学习环境建模。作者曾对这篇论文做过一个总结:“世界模型”可以让人工智能在“梦境”中对外部环境的未来状态进行预测。
Learning Plannable Representations with Causal InfoGAN
来自加州大学伯克利分校等,要解决的问题是:给定初始状态和期望目标的情况下,如何让系统通过学习,得到一系列可以达成目标的动作。
Counterfactually Guided Policy Search
无模型的强化学习,需要大量的数据训练。研究者可以建立学习环境模型,生成合成轨迹,并在这些轨迹上进行训练。但这些模型简化了真实环境,而且可能不准确。这篇论文提出了一个明确的因果/反事实模型,来生成具有更高保真度的轨迹。来自DeepMind。
The Impact of Entropy on Policy Regularization
这篇论文通过定性研究表明,在某些环境中,引入熵正则化可以使优化曲面更加平滑、连接局部最优值,从而使用更大的学习速率。并提出了一个理解底层优化场景的新工具。来自谷歌大脑。
这部分,一共3篇。分别是:
Emergence of Grounded Compositional Language in Multi-Agent RL
来自OpenAI和加州大学伯克利分校,这篇论文做了一个有趣的实验,看一群智能体在受到激励的情况下,能否有效地发展出某种类似语言的东西。基于这个实验,论文的作者提出了一种多智能体的学习方法。
Intrinsic Social Motivation via Causal Influence
在这篇谷歌等机构的论文中,在多智能体强化学习中,赋予一种新的内在社会动机,试图解决有更明确目标的多智能体协调问题。
Relational Forward Models for Multi Agent Learning
介绍了一种用于多智能体学习的模型,可以在学习环境中准确预测智能体未来的行为,来自DeepMind等。
这部分,一共2篇。分别是:
Adversarial Reprogramming of Neural Networks
对六种ImageNet分类模型的对抗性重新编程,并调整了这些模型的用途,以执行相应任务。来自谷歌大脑。
On the Intriguing Connections of Regularization, Input Gradients and Transferability of Evasion and Poisoning Attacks
这篇论文来自卡利亚里大学等,作者对不同的模型进行了实证分析,研究不同模型之间的对抗样本迁移情况有何不同。
这部分,一共5篇。分别是:
Test to Image Generation With AttnGAN
一篇来自微软研究院等机构的论文,提出了一个注意力生成对抗网络,用于文本到图像的生成。
An intriguing failing of convolutional neural networks and the CoordConv solution
这篇来自Uber的论文,针对卷积神经网络在空间坐标转换问题上的缺陷,提出了一种名为CoordConv的解决方案。工作原理是使用额外的坐标通道使卷积访问输入坐标。
Visualizing the Loss Landscape of Neural Networks
这篇论文提出了一种可视化损失函数的新方法,解决了理解损失函数的特征如何影响模型性能的问题。来自马里兰大学学院市分校等。
Embedding Grammars
这篇论文来自杨百翰大学。将单词嵌入的语义泛化能力和语境无关的语法结构(比如正则表达式)结合起来,创造混合语义语法。
Deep Image Reconstruction from fMRI Data
来自日本ATR计算神经科学实验室,提出了一种新的图像重建方法,借助fMRI技术和深度学习算法,根据人类的大脑活动重建人类看到的图像。
这份总结的作者,是一位名为Cody Wild的小姐姐,在一家名为Sophos的安全技术公司担任数据科学家,喜欢猫。
每半年,她会花一个月的时间,给自己读到的经典机器学习论文写总结,这已经是第三次了
大家可以再Twitter上面关注她。ID:@decodyng。
最后,这份总结笔记传送门:
https://docs.google.com/document/d/15o6m0I8g6O607mk5YPTh33Lu_aQYo7SpHhNSbLPQpWQ/edit#
转自 量子位