【计算机视觉 复习流程剖析及面试题详解 】
【深度学习算法 最全面面试题(30 页)】
【机器学习算法 最全面面试题(61页)】
定义: 在损失函数后加上一个正则化项(惩罚项),其实就是常说的结构风险最小化策略,即损失函数 加上正则化。一般模型越复杂,正则化值越大。
正则化项是用来对模型中某些参数进行约束,正则化的一般形式:
第一项是损失函数(经验风险),第二项是正则化项
公式可以看出,加上惩罚项后损失函数的值会增大,要想损失函数最小,惩罚项的值要尽可能的小,模型参数就要尽可能的小,这样就能减小模型参数,使得模型更加简单。
L0范数:计算向量中非0元素的个数。
L0范数和L1范数目的是使参数稀疏化。
L1范数比L0范数容易优化求解。
1.坐标轴下降法是沿着坐标轴的方向
Eg: lasso回归的损失函数是不可导的
2.近端梯度下降(Proximal Algorithms)
3.交替方向乘子法(ADMM)
L1 正则化会使得许多参数的最优值变成 0,这样模型就稀疏了。
稀疏矩阵指有很多元素为0,少数参数为非零值。只有少部分特征对模型有贡献,大部分特征对模型没有贡献或者贡献很小,稀疏参数的引入,使得一些特征对应的参数是0,所以就可以剔除可以将那些没有用的特征,从而实现特征选择,提高模型的泛化能力,降低过拟合的可能。
1.归一化后加快的梯度下降对最优解的速度。
2.归一化有可能提高精度。
标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。
归一化的目的是方便比较,可以加快网络的收敛速度;标准化是将数据利用z-score(均值、方差)的方法转化为符合特定分布的数据,方便进行下一步处理,不为比较。
线性回归,逻辑回归,KNN,SVM,神经网络。
主要是因为特征值相差很大时,运用梯度下降,损失等高线是椭圆形,需要进行多次迭代才能达到最优点,如果进行归一化了,那么等高线就是圆形的,促使SGD往原点迭代,从而导致需要迭代次数较少。
因为它们不关心变量的值,而是关心变量分布和变量之间的条件概率,如决策树,随机森林;对于树形结构,树模型的构造是通过寻找最优分裂点构成的,样本点的数值缩放不影响分裂点的位置,对树模型的结构不造成影响,
而且树模型不能进行梯度下降,因为树模型是阶跃的,阶跃是不可导的,并且求导没意义,也不需要归一化。