机器学习笔记 - Deep Q-Learning算法概览

一、Q-Learning

        强化学习大致可以分为两类:无模型强化学习算法基于模型的强化学习算法。无模型强化学习算法不会学习环境转换函数的模型来预测未来状态和奖励。Q 学习、深度 Q 网络策略梯度方法是无模型算法,因为它们不创建环境转换函数的模型。

1、Q-学习算法

        Q-学习算法的流程为:

        1. 初始化您的 Q 表

        2. 使用 Epsilon-Greedy 探索策略选择一个操作

        3. 使用贝尔曼方程更新 Q 表

你可能感兴趣的:(深度学习从入门到精通,强化学习,Q学习,Q-Learning,深度Q学习,神经网络)