机器学习 强化学习

强化学习和监督学习的区别

  1. 强化学习收到的反馈是评估性的而非指导性的,只告知好坏不告知正确答案。学习者必须自己经过多次尝试找到能获取更好反馈的输入。
  2. 通常当前的行为不仅影响此时的反馈,还影响后续的反馈。
阿尔法狗

阿尔法狗就使用监督学习+强化学习

  • 先通过深度监督学习,输入大量的人类对弈样本(每个样本包含当前局面和人类棋手落子方案),以模拟人类棋手落子为目标,训练了一个策略网络(policy network)。(其加强版 阿尔法元 直接跳过了此步骤,不再使用人类对弈样本,而是从0开始使用强化学习)
  • 再通过强化学习中的策略梯度技术,不断和前几次迭代中的随机一个自己对弈,以赢棋为目标不断优化网络参数,进一步提升策略网络。
  • 使用机器与机器对弈创造大量棋局样本,用于训练出估值网络(value network),无需走完全局就能预测胜率。
  • 快速走子网络
    一个轻量级的策略网络,速度更快,用于配合蒙特卡罗树搜索
  • 蒙特卡罗树搜索(Mente Carlo tree search)
    推演当前的各种落子造成的后续局面及其未来落子。

强化学习基本流程

决策主体(agent)的动作(action)作用于环境(environment),改变了环境的状态(state),环境状态改变后反馈给主题一个观察(observation)和一个回报(reward),主体再据此发出新的动作。
强化学习的目的是找到最佳的策略(proxy),使主体发出一系列动作后,积累到最多的回报。

你可能感兴趣的:(机器学习 强化学习)