lesson 5

1、PCA主成分分析就是将输入的矩阵通过简单的线性变换转换成一个用较少数量的特征就可以覆盖原矩阵大部分元素的新矩阵

2、在表格处理中,为类别变量创建的也是嵌入矩阵,其实就是矩阵,比独热编码输入做矩阵乘法免去了计算和内存负担

3、与独热编码相乘和进行数组查询是一样的,最好使用数组查询。对一个矩阵和一个独热编码矩阵相乘,实际上并不需要生成独热编码矩阵,只需输入一组整数,然后假装是进行了独热编码,这就叫做embedding,实际上嵌入就是在数组里进行查找的意思

4、能让梯度下降得到好结果的途径,就是权重矩阵是否能够挖掘出用户品味的特征和对应的电影特征,这些特征就叫做潜在因子或潜在特征

5、如何处理异常情况加入偏差,偏差值意味着每部电影都会有一个整体评价,实际上所有的神经网络库都可以直接设置偏差,无需人为地添加一列全1

6、当加载预训练模型是,是否可以查看一下激活层,看其是用户识别物体的哪种特征
答:当然可以

7、fit_one_cycle的第一个参数是什么意思,是不是相当于epoch
答:是的,fit_one_cycle和fit的第一个参数就是epoch,epoch就是模型把所有输入数据都运算一遍的过程

8、movielens_1hot中的独热编码不属于神经网络,只是为了生成新的数据而做的预处理,是神经网络的新输入

9、'''learn=collab_learner(data,n_factors=40,y_range=y_range,wd=1e-1)''',factors的数量等于嵌入矩阵的宽度,标准解决协同过滤的方法一直以来都叫做matrix factorization

10、学习率可以在多数情况下是3e-3,wd在多数情况下是0.1

11、权重衰减只有在训练神经网络时才有用,在每次批量计算的时候,减去某个常量*权重


权重衰减

12、'fit_one_cycle'是干什么的,它真正起的作用是什么?
fit_one_cycle

答:左边的图表示每batch的学习率,adam有一个学习率,默认使用adam,这个学习率的初始值很低,前一半时间段不断增长,后半段时间逐渐衰减,右边画的是动量图,这个组合就叫做one_cycle,它能达到super convergence(超收敛),训练速度提高十倍

13、正则化的基本方法就是权重衰减、批量归一化和随机失活,还可以通过数据增强来避免过拟合

你可能感兴趣的:(lesson 5)