动手学深度学习笔记一

Task01 错题

一.线性回归

加法的广播机制: 给Xw中的每个元素加上的偏置是一样的.
参数的形状与批量大小没有关系,也正是因为如此,对同一个模型,我们可以选择不同的批量大小。
2.
y_hat的形状是[n, 1],而y的形状是[n],两者相减得到的结果的形状是[n, n],相当于用y_hat的每一个元素分别减去y的所有元素,所以无法得到正确的损失值。对于第一个选项,y_hat.view(-1)的形状是[n],与y一致,可以相减;对于第二个选项,y.view(-1)的形状仍是[n],所以没有解决问题;对于第三个选项和第四个选项,y.view(y_hat.shape)和y.view(-1, 1)的形状都是[n, 1],与y_hat一致,可以相减。
3.
批量的损失函数平均值,其中nn是批量大小。

二.Softmax与分类模型

softmax([100, 101, 102])的结果等于
softmax([-100, -101, -102])???未懂

三.多层感知机

在多层感知机中引入激活函数的原因是,将多个无激活函数的线性层叠加起来,其表达能力与单个线性层相同。

相较于sigmoid和tanh,Relu的主要优势是计算效率高且不会出现梯度消失问题
tanh可以由sigmoid平移伸缩得到,所以两者有区别

附:
1.过拟合、欠拟合
2.梯度消失、梯度爆炸

Task02

一.文本预处理

句子长度统计与构建字典无关。
需要 构建token到索引的映射,构建索引到token的映射。

二.语言模型

n阶马尔科夫假设是指各个词的出现是相互独立的,要预测下一个词只与前面n个相关
如果使用nn元语法模型存在数据稀疏问题,最终计算出来的大部分参数都是0
3.
训练数据中的每个字符最多可以出现在一个样本中
随机采样中前后批量中的数据是不连续的。
4.
训练数据中总共有11个样本,而批量大小为2,所以数据集会被拆分成2段,每段包含5个样本:[0, 1, 2, 3, 4]和[5, 6, 7, 8, 9],而时间步数为2,所以第二个批量为[2, 3]和[7, 8]。

三.循环神经网络基础

循环神经网络通过不断循环使用同样一组参数来应对不同长度的序列,故网络的参数数量与输入序列长度无关。
2.
梯度裁剪只能应对梯度爆炸而不能对应梯度裁剪的一种方法
3.
一个随机分类模型(基线模型)的困惑度等于分类问题的类别个数,有效模型的困惑度应小于类别个数。
4.
采用的采样方法不同会导致隐藏状态初始化方式发生变化
采用相邻采样仅在每个训练周期开始的时候初始化隐藏状态是因为相邻的两个批量在原始数据上是连续的
随机采样中每个样本只包含局部的时间序列信息,因为样本不完整所以每个批量需要重新初始化隐藏状态。

四.循环神经网络进阶

实现深层循环神经网络需要修改的参数num_layers=2
3.
GRU有重置门和更新门,没有遗忘门。
4.
每个循环单元中的记忆细胞和循环单元的值为LSTM模型中的隐状态,而非参数,因此不需要初始化。
门控单元中用于计算遗忘门的权重与偏差需要更新
5.
深层循环网络能有效抽取更高层更抽象的信息,层数越深效果未必越好,层数的加深会导致模型的收敛变得困难。

LSTM和GRU能一定程度缓解梯度消失与梯度爆炸的问题。

附:
1.机器翻译及相关技术
2.注意里机制与Seq2seq模型
3.Transformer

你可能感兴趣的:(动手学深度学习笔记一)