深度学习基础

深度强化学习

教程链接

DataWhale强化学习课程JoyRL

https://johnjim0816.com/joyrl-book/#/ch7/main

深度学习基础

强化学习的问题可以拆分成两类问题,即预测与控制。预测的主要目的是根据环境的状态以及动作来预测状态的价值与动作的价值,而控制的主要目的是根据状态价值和动作价值来选择动作。预测主要是告诉我们当前状态下采取什么动作比较好,而控制则是按照某种方式决策。

深度学习的作用是用来提高强化学习中预测的效果。深度学习本身就是一个当前预测与分类效果俱佳的工具。注意,深度学习只是一种非常广泛的应用,但并不是强化学习的必要条件。

从训练模式上来看,深度学习和强化学习,尤其是结合了深度学习的深度强化学习,都是基于大量的样本来对相应算法进行迭代更新并且达到最优的,这个过程我们称之为训练。但与另外两者不同的是,强化学习是在交互中产生样本的,是一个产生样本、算法更新、再次产生样本、再次算法更新的动态循环训练过程,而不是一个准备样本、算法更新的静态训练过程。

练习题

  1. 逻辑回归与神经网络之间有什么联系?

首先逻辑回归是一种线性分类器,可以使用激活函数将其函数值映射到一定空间,然后根据一个阈值来判断输出的类别。其可以看作为一个只有一个神经元的单层神经网络,其中神经元的输入是特征变量,阈值函数是神经元的后处理。

神经网络是由多个神经元组成的复杂结构,它可以有多个输入、多个输出,也可以有多个隐藏层。神经网络可以处理非线性可分的数据。经网络中的每个神经元也可以使用sigmoid函数或者其他激活函数,但是神经网络的输出不一定需要阈值函数,而是可以使用softmax函数或者其他函数来得到概率分布或者回归值

  1. 全连接网络、卷积神经网络、循环神经网络分别适用于什么场景?

全连接网络是最基本的神经网络,它的每个神经元都与上一层的所有神经元相连,每个神经元的输出作为下一层神经元的输入。适用于输入数据具有固定长度的分类问题。

卷积神经网络是利用卷积核对输入数据进行特征提取的神经网络,它可以捕捉数据中的局部模式和空间层次结构,具有平移不变性以及参数共享的特点。适用于处理高维数据,如图像分类。

循环神经网络是一种具有记忆功能的神经网络,它可以有一个循环连接,从而捕捉输入数据中的序列信息和时间依赖性,用于视频图像以及文本分析等。

  1. 循环神经网络在反向传播时会比全连接网络慢吗?为什么?

循环神经网络在反向传播时会比全连接网络慢。

首先会基于记忆单元的反向传播,需要将网络在每个时间步的状态和梯度都保存下来,然后从最后一个时间步开始,沿着时间的反方向逐步计算梯度,并将每个时间步的梯度累加起来。

同时由于循环神经网络的权重在每个时间步都是共享的,需要依照时间顺序依次进行计算,不能做到并行。

你可能感兴趣的:(深度学习,人工智能)