1. 为什么说regularization是阻止overfitting的好办法?
overfitting是由high variance导致,high variance 是由特征太多,特征值过度敏感导致,regularizer能够减少特征数量和降低特征值敏感度,所以说是个好方法。
模型表现差,可以因为模型太呆板,太固执;也可以因为是模型太随性,太无主见;regularizer提供了一个叫的旋钮,调大能让模型不要太随性,调小能让模型不要太呆板。
参考:
一句话版机器学习:为什么说regularization是阻止overfitting的好办法
图解机器学习:为什么以及如何用bias variance诊断模型病症
课程:Diagnosing Bias vs. Variance
笔记:为什么以及如何用bias variance诊断模型病症
图解机器学习:为什么说regularizer是模型治疗手段(bias variance诊断方式)
课程:Regularization and Bias_Variance
笔记:为什么说regularizer是模型治疗手段(bias variance诊断方式)
中期理解整理
李宏毅深度学习课程(全2课2017年版)笔记汇总_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
2.16 直观理解regularization.mp4
3.1 如何直观理解bias and variance01.mp4
3.2 如何直观理解bias and variance02.mp4
3.3 如何解决模型的bias过大的问题.mp4
3.4 如何解决variance过高的问题.mp4
早期理解整理
吴恩达深度学习课程(全):掰开揉碎版
1.4 正则化 课程 笔记
1.5 为什么正则化可以减少过拟合? 课程 笔记
2. 如何直观理解PCA的目的和原理?
PCA的目的:是对高维数据降维度,作为一种技巧参与到模型训练中实现提升训练速度效率;
PCA的原理:
一方面,通过投影projection将高维数据投影到线,平面,3维,或K维空间上,在设定保留数据结构信息(比如95%)的条件下,通过trial and error 筛选出一个合适的K值,来实现最大化降低维度和最大化保留数据信息的博弈(在这里实现了多个eigenvectors数量的确定即K值);
另一方面,通过比较不同线(平面,空间)之间的投影距离,选取投影距离之和最短的线作为K=1情况下的最优线(在这里完成了eigenvector内部值的计算);
最后,K个eigenvectors组合成一个matrix,matrix的transposition对原数据做变形,变形后的结果就是降维后的新数据;如果用同一个matrix还可以对新数据做还原,还原后的数据是原数据到K维空间上的投射点。
参考:
- 一句话版机器学习:如何直观理解PCA的目的和原理
- PCA的数学原理
- 奇异值分解(SVD) 的 几何意义
吴恩达机器学习PCA的视频课程和笔记理解
图解机器学习:为什么要对数据做降维和压缩,可视化有助于理解压缩后的维度内涵
课程:Motivation I_ Data Compression Motivation II_ Visualization
笔记:为什么要对数据做降维和压缩,可视化有助于理解压缩后的维度内涵
图解机器学习:如何理解PCA是一种projection降维的最优方案以及PCA的算法逻辑
课程:Principal Component Analysis Problem Formulation
课程:Principal Component Analysis Algorithm
笔记:如何理解PCA是一种projection降维的最优方案以及PCA的算法逻辑
图解机器学习:PCA是如何通过K寻找最优的降维幅度的
课程:Choosing the Number of Principal Components
笔记:PCA是如何通过K寻找最优的降维幅度的
图解机器学习:如何理解PCA中的U_reduce, x, z, x_approximation的关系
课程:Reconstruction from Compressed Representation
笔记:如何理解PCA中的U_reduce, x, z, x_approximation的关系
图解机器学习:实际模型训练中如何正确使用PCA和规避常见错误用法
课程: Advice for Applying PCA
笔记:实际模型训练中如何正确使用PCA和规避常见错误用法
3. 主成分分析(PCA)主成分维度怎么选择?
关于K的内涵:PCA目的是降维度,降维的方法是做投影projection, 假如 [图片上传失败...(image-b49e5c-1537289879749)]
, 那么到底是投影到1维直线上,2维平面上,还是3维空间中?回答这个问题,是K的使命。
关于K值怎么定:trial and error, 将K=1(直线),2(平面),3(空间)。。。分别带入到一个不等式中,选择那个最能满足不等式成立的K值即可。
关于这个不等式:设定好我们希望PCA保留原有数据variance信息的百分比(如95%),不等式核心内容是做最大限度降维与最大化保留数据结构信息的博弈。
参考:
一句话版机器学习:PCA的维数K应该怎么选?
图解机器学习:为什么要对数据做降维和压缩,可视化有助于理解压缩后的维度内涵
课程:Motivation I_ Data Compression Motivation II_ Visualization
笔记:为什么要对数据做降维和压缩,可视化有助于理解压缩后的维度内涵
图解机器学习:如何理解PCA是一种projection降维的最优方案以及PCA的算法逻辑
课程:Principal Component Analysis Problem Formulation
课程:Principal Component Analysis Algorithm
笔记:如何理解PCA是一种projection降维的最优方案以及PCA的算法逻辑
图解机器学习:PCA是如何通过K寻找最优的降维幅度的
课程:Choosing the Number of Principal Components
笔记:PCA是如何通过K寻找最优的降维幅度的
图解机器学习:如何理解PCA中的U_reduce, x, z, x_approximation的关系
课程:Reconstruction from Compressed Representation
笔记:如何理解PCA中的U_reduce, x, z, x_approximation的关系
图解机器学习:实际模型训练中如何正确使用PCA和规避常见错误用法
课程: Advice for Applying PCA
笔记:实际模型训练中如何正确使用PCA和规避常见错误用法
4. 为什么说PCA不应该被用来规避overfitting?
从overfitting角度看,定义中内置了Y值,Y值的监督让我们看到training loss与validation loss的训练足后次数后的巨大差异,巨大差异造就了overfitting;
所以没有Y值,就谈不上overfitting;
从PCA角度看,PCA眼里只有特征即X,完全无视Y值,虽然降维后,仍保持X极高比例的variance信息,但没有任何依据说新生成的低维数据能提炼任何与Y值相关的信息;
因此,指望PCA规避overfitting,逻辑上不成立。
参考: 一句话版机器学习:为什么说PCA不应该被用来规避overfitting?
更多关于PCA的吴恩达课程和笔记,见:
图解机器学习:为什么要对数据做降维和压缩,可视化有助于理解压缩后的维度内涵
课程:Motivation I_ Data Compression Motivation II_ Visualization
笔记:为什么要对数据做降维和压缩,可视化有助于理解压缩后的维度内涵
图解机器学习:如何理解PCA是一种projection降维的最优方案以及PCA的算法逻辑
课程:Principal Component Analysis Problem Formulation
课程:Principal Component Analysis Algorithm
笔记:如何理解PCA是一种projection降维的最优方案以及PCA的算法逻辑
图解机器学习:PCA是如何通过K寻找最优的降维幅度的
课程:Choosing the Number of Principal Components
笔记:PCA是如何通过K寻找最优的降维幅度的
图解机器学习:如何理解PCA中的U_reduce, x, z, x_approximation的关系
课程:Reconstruction from Compressed Representation
笔记:如何理解PCA中的U_reduce, x, z, x_approximation的关系
图解机器学习:实际模型训练中如何正确使用PCA和规避常见错误用法
课程: Advice for Applying PCA
笔记:实际模型训练中如何正确使用PCA和规避常见错误用法