表征学习+强化学习

Firstly,我们先谈谈表征学习

  • wikipedia给出的定义大概是:表征学习(又称特征学习 representation learning)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。
  • 瓶颈:(1)以前都是手工提取特征,但很困难、很昂贵、很耗时、并依赖于强大专业知识。(2)深度神经网络虽然可以有效地学到数据丰富的特征,但特征难以解读。通常神经网络层数越多,训练成本也越高。
  • 和预测学习不同:不是搞预测,就是因为现在的输出比如图片、视频、语言、声音等等都是高维且冗余复杂的,传统的手动提取特征已经变得不切合实际,所以需要借助优秀的特征学习技术。
  • 类似机器学习,特征学习可以被分为两类:
    (1)监督式特征学习:有标记的数据
    (2)无监督式特征学习:主成分分析、自动编码、矩阵分解、聚类分析

历史

  • 100多年前就是说要高数据特征学习
  • 1901年,Karl Pearson提出主成分分析(Principal Component Analysis),用线性投影的方法学习数据的低维度特征
  • 1936年,Ronald Fisher提出了线性判别分析(Linear Discriminant Analysis)
  • 之后,PCA和LDA有各种各样的变形如:核PCA(kernel PCA)、广义判别分析(Generalized Discriminant Analysis)也相继提出。
  • 2000年,机器学习社区兴起了流形学习(Manifold Learning)即发掘高维数据中的内在结构。
  • 基于神经网络的线条是在1986年发现反向传播算法可以在隐藏层里学习到关于输入数据的内在表征
  • 2006年,Geoffrey Hinton提出贪婪分层预训练和深度神经网络微调的方法,解决了神经网络用于特征学习的两大难题
    (1)模型过拟合 Model Overfitting
    (2)梯度扩散Gradient Diffusion
  • 现状:对于图像,大家会先使用训练好的深度神经网络模型(如VCG,ResNet等)提取特征信息,再用于强化学习(RL),视觉导航(Visual Navigation)任务等等。
    表征学习历史:from 《An Overview on Data Representation Learning: From Traditional Feature Learning to Recent Deep Learning》2017

参考一篇博客OFENet

博客地址

motivation

  • RL采样效率低下
  • 直接从obs->action,很容易被很多无用信息干扰,一般RL只有2-3层,很难学

current application:一般通过辅助任务学习state representation

  • AE(Auto Encoder)降维 Autonomous reinforcement learning on raw visual input data in a real world application 2012年,引用数208
  • SFA(Slow feature analysis)观察视觉中随时间变化的特征 Slow Feature Analysis:Unsupervised Learning of Invariances 2002年引用数1295
  • ML-DDPG(Model Learning)假设next_obs可预测,可以用监督学习代替非监督学习,可以更好的学到跟reward相关的state特征 Learning State Representation for Deep Actor-Critic Control 2016年引用33
  • ATC(Augmented Temporal Contrast)在图像增强的基础上,使用图像和图像之间的差别来做loss。Decoupling Representation Learning from Reinforcement Learning 视频 Github 2020年引用数32

contribution

  • 前提:state的维度越低,RL的效果越好(经验)
  • 动机:用足够少的,state表达足够多的统计信息
  • 文章提出一种逆向思维,在完成state压缩抽象的情况下,提高内在state的维度可以提高效果。

相关论文

表征学习+强化学习相关论文

  • 2019 Deepmind发布表征学习4个数据集:【数据集GitHub地址 】 【论文地址】 【 报道地址】

  • 2019年Niv实验室表征学习综述:Nature Neuroscience文章(目前神经生物学领域最顶级的2本期刊之一)
    论文:Learning task-state representations 【论文地址】【中文笔记】2019年引用数85
    文章重点:主要贡献是总结出了两个人们进行表征学习的关键,通过注意力和聚类
    提到了3篇实验分析论文:
    (1)注意力+强化学习+表征学习:Reinforcement Learning in Multidimensional Environments Relies on Attention Mechanisms【中文笔记】2015年引用数237
    (2)Perceptual estimation obeys Occam's razor 2013年引用数37
    (3)Statistical computations underlying the dynamics of memory updating. 2014年引用数52

表征学习相关论文

  • 1901 Karl Pearson发表主成分分析的论文
    On lines and planes of closest fit to systems of points in space.

  • 1936 Ronald Fisher发表最早期的线性判别分析论文
    The use of multiple measurements in taxonomic problems.

  • 1943 Warren McCulloch and Walter Pitts 创建了第一个人工神经元模型
    A logical calculus of the ideas immanent in nervous activity.

  • 1958 Frank Rosenblatt建立了世界上第一个两层神经网络用于二元分类
    The perceptron: A probabilistic model for information storage and organization in the brain.

  • 1974 Paul Werbos提出了反向传播(Backpropagation)算法用于训练多层感知器
    Beyond regression: New tools for prediction and analysis in the behavioral sciences.

  • 2006 Geoffrey Hinton提出贪婪分层预训练和深度神经网络微调的方法
    A fast learning algorithm for deep belief nets. Neural computation

未来方向

  • 我们可以利用深度神经网络学习丰富的特征来表示环境的模型,然后通过基于模型的深度强化学习(Model-based Deep Reinforcement Learning) 训练机器人(Robotics)来慢慢靠近通用人工智能......

你可能感兴趣的:(表征学习+强化学习)