【机器学习】强化学习 (一)强化学习简介

【机器学习】强化学习 (一)强化学习简介_第1张图片

一、强化学习简介

1.1 问题定义

【机器学习】强化学习 (一)强化学习简介_第2张图片

【机器学习】强化学习 (一)强化学习简介_第3张图片

1.2 马尔可夫决策过程

【机器学习】强化学习 (一)强化学习简介_第4张图片

【机器学习】强化学习 (一)强化学习简介_第5张图片

【机器学习】强化学习 (一)强化学习简介_第6张图片

【机器学习】强化学习 (一)强化学习简介_第7张图片

举例说明马尔可夫决策过程

【机器学习】强化学习 (一)强化学习简介_第8张图片

例1:

【机器学习】强化学习 (一)强化学习简介_第9张图片

例2:

【机器学习】强化学习 (一)强化学习简介_第10张图片

执行动作的策略

【机器学习】强化学习 (一)强化学习简介_第11张图片

强化学习的目标是让智能体通过不断尝试,找到最优的策略(policy),即在每个状态下选择什么动作,以最大化累积的奖励。强化学习的常见算法有:

  • Q学习(Q-learning):一种基于值函数(value function)的方法,它用一个表格(Q-table)记录每个状态-动作对的期望奖励(Q-value),并根据贪心或探索-利用的原则更新表格。

  • 策略梯度(policy gradient):一种基于策略函数(policy function)的方法,它用一个参数化的函数(如神经网络)表示策略,并根据奖励的梯度方向更新参数。

  • 深度强化学习(deep reinforcement learning):一种结合深度学习和强化学习的方法,它用深度神经网络来近似值函数或策略函数,如DQN、DDPG、A3C等。

如何通过马尔可夫决策过程找到最优策略?

【机器学习】强化学习 (一)强化学习简介_第12张图片

【机器学习】强化学习 (一)强化学习简介_第13张图片

【机器学习】强化学习 (一)强化学习简介_第14张图片

强化学习在制造业中的应用

【机器学习】强化学习 (一)强化学习简介_第15张图片

【机器学习】强化学习 (一)强化学习简介_第16张图片

【机器学习】强化学习 (一)强化学习简介_第17张图片

【机器学习】强化学习 (一)强化学习简介_第18张图片

参考网址:

https://zh.wikipedia.org/wiki/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0 强化学习 - 维基百科,自由的百科全书 (wikipedia.org)

你可能感兴趣的:(机器学习,人工智能)