专栏介绍:本栏目为 “2022春季中国科学院大学王亮老师的深度学习” 课程记录,这门课程与自然语言处理以及机器学习有部分知识点重合,重合的部分不再单独开博客记录了,有需要的读者可以移步 自然语言处理专栏和机器学习专栏。 如果感兴趣的话,就和我一起入门DL吧
这一部分参考博客:机器学习:算法中的泛化误差、偏差、方差、噪声的理解(超详细)
J ~ ( w ; X , y ) = α ∥ w ∥ 1 + J ( w ; X , y ) \tilde{J}(\boldsymbol{w} ; \boldsymbol{X}, \boldsymbol{y})=\alpha\|\boldsymbol{w}\|_{1}+J(\boldsymbol{w} ; \boldsymbol{X}, \boldsymbol{y}) J~(w;X,y)=α∥w∥1+J(w;X,y)
Ω ( θ ) = ∥ w ∥ = ∑ i ∣ w i ∣ \Omega(\theta)=\|\mathbf{w}\|=\sum_{i}\left|w_{i}\right| Ω(θ)=∥w∥=∑i∣wi∣
L1正则化之后将会获得一个稀疏模型,利于特征选择。
L1正则化是指权值向量w ww中各个元素的绝对值之和,通常表示为 ∥ w ∥ 1 \|w\|_{1} ∥w∥1
以下内容参考:深度学习中的Momentum算法原理
参考:深度学习 — 优化入门二
优点:
Batch Normalization的计算方法:
终于结束了,内容实在是太多了,博文中很多东西都只是一句话带过,还需要深入学习