增强学习、增量学习基础知识

 一:增强学习(Q-learning)要解决的问题:一个能感知环境的自治agent,怎样通过学习选择能达到其目标的最优操作。agent的任务就是从这个非直接的,有延迟的回报中学习,以便后续的动作产生最大的积累效应,agent通过学习改进自身的性能并选择行为。

强化学习:从环境状态到行为映射的学习,以使系统行为从环境中获得的积累奖赏值最大,该方法不同与监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错的方法来发现最优行为策略。增强学习的目标是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价为最佳。

增强学习的目的就是求解马尔科夫决策过程(MDP)的最优策略,基本解法有:动态规划法,蒙特卡罗方法,时间差分法,Q学习。

增强学习在很多领域获得应用:自动直升机,机器人控制,手机网络路由,市场决策,工业控制,高效网页索引等。

深度强化学习(DQN)是深度学习与强化学习的结合,就是用深度学习网络自动学习动态场景的特征,然后通过强化学习学习对对场景特征的决策动作序列。

二:增量学习 

1:为什么需要增量学习算法?

      数据库中的数据时动态变化的;数据量(训练样本)的变化引起重复学习;应避免在海量数据的情况下重复学习;只需修改 因数据变化而涉及的规则;增量学习是数据挖掘算法走向实用化的关键技术问题之一;

2:增量学习的重要性体现在2个方面:

    ①:实际的数据库中,数据量往往是逐步增加的,因此,面临新的数据时,学习方法应能对训练好的系统进行某些改动,以对新数据中蕴含的知识进行学习。

    ②:对一个训练好的系统进行修改的时间代价通常低于重新训练一个系统所需的代价。

增量式算法:就是每当新增数据时,并不需要重建所有的知识库,而是在原有的知识库的基础上,仅仅做由于新增数据所引起的更新,这更符合人的思维原理。

对于传统的批量学习技术来说,如何从日益增加的新数据中学得有用的信息是一个难题,随着数据规模的不断增加,对时间和空间的需求也会迅速增加,最终会导致学习的速度赶不上数据更新的速度。机器学习是一个解决此问题的有效方法,然而传统的即其学识是批量学习方式,需要再进行学习之前准备好所有的数据,为了能满足在线学习的需求,需要抛弃以前的学习结果,重新训练和学习,这对时间和空间的需求都很高,因此,迫切需要研究增量学习方法,可以渐进的进行知识更新,且能修正和加强以前的知识,使得更新后的知识能适应增加的数据。

与传统的数据分类技术相比,增量学习分类技术具有显著的优越性,体现在两方面:

一:由于其无需保存历史数据,从而减少存储空间的占用 。

二:由于其在新的训练中充分利用了历史的训练结果,从而显著地减少了后续训练时间。

增量学习是一种广泛应用的智能化数据挖掘与知识发现技术,其思想是逐步积累时,学习精度也随之提高。

增量学习是一个学习系统能不断地从新样本中学习新知识,并能保存大部分以前学习到的知识,增量学习类似人类自身学习模式,因为人在成长过程中,每天学习和接受新的事物,学习是逐步进行的,而且,对已经学习到的知识,人类一般是不会遗忘的。

增量学习算法可以渐进的进行知识更新,且能修正和加强以前的知识,使得更新后的知识能适应新到达的数据,而不必重新对全部数据进行学习。增量学习降低了对时间和空间的需求,更能满足实际要求。

增量学习具有以下特点:

1:可以从数据中学习新知识;

2:从前已经处理过的数据不需要重复处理;

3:每次只有一个训练观测样本被看到和学习;

4:学习新知识的同时能保存以前学习到的大部分知识;

5:一旦学习完成后训练观测样本被丢弃;

6:学习系统没有关于整个训练样本的先验知识;


你可能感兴趣的:(机器学习)