强化学习 Model-Based 和 Model-Free

Model指的是针对环境的建模,即输入Action,环境的响应:Reward和State。

Model-Free:环境对输入的响应就是一个映射,without model,如常见的深度强化学习DQN/A3C/PPO等;

Model-Based:环境对输入的响应是统计概率分布P(s_new|s,a),如动态规划等传统强化学习方法。

强化学习 Model-Based 和 Model-Free_第1张图片

你可能感兴趣的:(强化学习,强化学习)