机器学习 面试题-第五章 正则化(大厂必问,历经半年整理)

文章目录

  • 老铁们✌,重要通知!福利来了!!!
  • 5.正则化
    • 手推L1,L2
    • 5.1 什么是正则化?如何理解正则化?
    • 5.2 L0、L1、L2正则化?
    • 5.3 L1和L2正则化有什么区别?‍
    • 5.4 L1在0处不可导是怎么处理的?
    • 5.5 L1正则化产生稀疏性的原因?对稀疏矩阵的理解?
    • 5.6 为何要常对数据做归一化?
    • 5.7 归一化的种类
    • 5.8 归一化和标准化的区别
    • 5.9 需要归一化的算法有哪些?这些模型需要归一化的主要原因?
    • 5.10 树形结构的不需要归一化的原因?

老铁们✌,重要通知!福利来了!!!

【计算机视觉 复习流程剖析及面试题详解 】
【深度学习算法 最全面面试题(30 页)】
【机器学习算法 最全面面试题(61页)】

5.正则化

手推L1,L2

机器学习 面试题-第五章 正则化(大厂必问,历经半年整理)_第1张图片

5.1 什么是正则化?如何理解正则化?

定义: 在损失函数后加上一个正则化项(惩罚项),其实就是常说的结构风险最小化策略,即损失函数 加上正则化。一般模型越复杂,正则化值越大。
正则化项是用来对模型中某些参数进行约束,正则化的一般形式:
在这里插入图片描述

第一项是损失函数(经验风险),第二项是正则化项
公式可以看出,加上惩罚项后损失函数的值会增大,要想损失函数最小,惩罚项的值要尽可能的小,模型参数就要尽可能的小,这样就能减小模型参数,使得模型更加简单。

5.2 L0、L1、L2正则化?

L0范数:计算向量中非0元素的个数。
L0范数和L1范数目的是使参数稀疏化。
L1范数比L0范数容易优化求解。

5.3 L1和L2正则化有什么区别?‍

机器学习 面试题-第五章 正则化(大厂必问,历经半年整理)_第2张图片

5.4 L1在0处不可导是怎么处理的?

1.坐标轴下降法是沿着坐标轴的方向
Eg: lasso回归的损失函数是不可导的
2.近端梯度下降(Proximal Algorithms)
3.交替方向乘子法(ADMM)

5.5 L1正则化产生稀疏性的原因?对稀疏矩阵的理解?

机器学习 面试题-第五章 正则化(大厂必问,历经半年整理)_第3张图片

L1 正则化会使得许多参数的最优值变成 0,这样模型就稀疏了。
稀疏矩阵指有很多元素为0,少数参数为非零值。只有少部分特征对模型有贡献,大部分特征对模型没有贡献或者贡献很小,稀疏参数的引入,使得一些特征对应的参数是0,所以就可以剔除可以将那些没有用的特征,从而实现特征选择,提高模型的泛化能力,降低过拟合的可能。

5.6 为何要常对数据做归一化?

1.归一化后加快的梯度下降对最优解的速度。
2.归一化有可能提高精度。

5.7 归一化的种类

机器学习 面试题-第五章 正则化(大厂必问,历经半年整理)_第4张图片

5.8 归一化和标准化的区别

标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。
归一化的目的是方便比较,可以加快网络的收敛速度;标准化是将数据利用z-score(均值、方差)的方法转化为符合特定分布的数据,方便进行下一步处理,不为比较。

5.9 需要归一化的算法有哪些?这些模型需要归一化的主要原因?

线性回归,逻辑回归,KNN,SVM,神经网络。
主要是因为特征值相差很大时,运用梯度下降,损失等高线是椭圆形,需要进行多次迭代才能达到最优点,如果进行归一化了,那么等高线就是圆形的,促使SGD往原点迭代,从而导致需要迭代次数较少。

5.10 树形结构的不需要归一化的原因?

因为它们不关心变量的值,而是关心变量分布和变量之间的条件概率,如决策树,随机森林;对于树形结构,树模型的构造是通过寻找最优分裂点构成的,样本点的数值缩放不影响分裂点的位置,对树模型的结构不造成影响,
而且树模型不能进行梯度下降,因为树模型是阶跃的,阶跃是不可导的,并且求导没意义,也不需要归一化。

你可能感兴趣的:(机器学习,人工智能,python,算法)