强化学习和生成对抗网络

1. 强化学习的定义

强化学习(reinforcement learning)是机器学习的一个重要分支,是一门多领域交叉学科,它的本质是自行解决决策问题,并且能进行连续决策。
强化学习有四个主要组成部分∶
1.代理(Agent)reward action state
2.环境(Environment)
3.行动(Action Environment)
4.奖励(Reward)

简而言之,强化学习是一个让代理在环境中不断尝试各种行动,并能通过奖励来影响行动模式,使得奖励最优化(或者趋近于最优)的一种算法。
强化学习和生成对抗网络_第1张图片

2. 两种学习任务

强化学习和生成对抗网络_第2张图片

两种学习RL的方式
Value Based
写出一个value function,这个value function可以告诉我们每一步的未来rewards会有多大
强化学习和生成对抗网络_第3张图片

3. Policy Based

在这里,我们希望最优化一个policy function而不是一个value function
强化学习和生成对抗网络_第4张图片

有两种policy可以选择∶
Deterministic∶相同state下,永远给出相同的action,简单来说就是每次在同样的情况下做出一样的选择
Stochastic∶给出一个所有action的可能性的distribution,意思是在选择具有随机性,在某些对抗性游戏中,随机决策是必须的

4. 生成模型

强化学习和生成对抗网络_第5张图片

5. 生成模型大家族

强化学习和生成对抗网络_第6张图片

6. DCGAN

强化学习和生成对抗网络_第7张图片
强化学习和生成对抗网络_第8张图片

你可能感兴趣的:(生成对抗网络,人工智能,神经网络)