机器学习算法校招笔试面试题集

BAT机器学习面试1000题系列

https://blog.csdn.net/sinat_35512245/article/details/78796328

.L1和L2的区别。

L1范数(L1 norm)是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。 
比如 向量A=[1,-1,3], 那么A的L1范数为 |1|+|-1|+|3|. 
简单总结一下就是: 
L1范数: 为x向量各个元素绝对值之和。 
L2范数: 为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数

Lp范数: 为x向量各个元素绝对值p次方和的1/p次方. 
在支持向量机学习过程中,L1范数实际是一种对于成本函数求解最优的过程,因此,L1范数正则化通过向成本函数中添加L1范数,使得学习得到的结果满足稀疏化,从而方便人类提取特征。 
L1范数可以使权值稀疏,方便特征提取。 
L2范数可以防止过拟合,提升模型的泛化能力。
 

LR和SVM的联系与区别?

@朝阳在望,联系: 
1、LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题) 
2、两个方法都可以增加不同的正则化项,如L1、L2等等。所以在很多实验中,两种算法的结果是很接近的。 
区别: 
1、LR是参数模型,SVM是非参数模型。 
2、从目标函数来看,区别在于逻辑回归采用的是Logistical Loss,SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。 
3、SVM的处理方法是只考虑Support Vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重。 
4、逻辑回归相对来说模型更简单,好理解,特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些,SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。 
5、Logic 能做的 SVM能做,但可能在准确率上有问题,SVM能做的Logic有的做不了。
 

GBDT和XGBoost的区别是什么?

@Xijun LI:XGBoost类似于GBDT的优化版,不论是精度还是效率上都有了提升。与GBDT相比,具体的优点有: 
1.损失函数是用泰勒展式二项逼近,而不是像GBDT里的就是一阶导数; 
2.对树的结构进行了正则化约束,防止模型过度复杂,降低了过拟合的可能性; 
3.节点分裂的方式不同,GBDT是用的基尼系数,XGBoost是经过优化推导后的。

最大似然估计原理

xgboost原理

https://blog.csdn.net/github_38414650/article/details/76061893

GBDT和随机森林的区别

三,随机森林和GBDT的区别:

随机森林采用的bagging思想,而GBDT采用的boosting思想。这两种方法都是Bootstrap思想的应用,Bootstrap是一种有放回的抽样方法思想。虽然都是有放回的抽样,但二者的区别在于:Bagging采用有放回的均匀取样,而Boosting根据错误率来取样(Boosting初始化时对每一个训练样例赋相等的权重1/n,然后用该算法对训练集训练t轮,每次训练后,对训练失败的样例赋以较大的权重),因此Boosting的分类精度要优于Bagging。Bagging的训练集的选择是随机的,各训练集之间相互独立,弱分类器可并行,而Boosting的训练集的选择与前一轮的学习结果有关,是串行的。
组成随机森林的树可以是分类树,也可以是回归树;而GBDT只能由回归树组成。
组成随机森林的树可以并行生成;而GBDT只能是串行生成。
对于最终的输出结果而言,随机森林采用多数投票等;而GBDT则是将所有结果累加起来,或者加权累加起来。
随机森林对异常值不敏感;GBDT对异常值非常敏感。
随机森林对训练集一视同仁;GBDT是基于权值的弱分类器的集成。
随机森林是通过减少模型方差提高性能;GBDT是通过减少模型偏差提高性能

https://blog.csdn.net/login_sonata/article/details/73929426

bigo

逻辑回归特征离散化优点 特征离散化方法

什么是过拟合  过拟合解决

参数估计

分奖金

二叉树每一层的最大值

有一个数在数据组中出现次数超过一半 最小复杂度找出来

n方矩阵 顺时针排列

hive join map reduce阶段 过程 

hive TXT文件建表 国家省城市 

广告渠道Abc 广告订单成本 123 广告收益 efg 假设最大成本x 求满足的最大收益

 

泛化误差Bias(偏差),Error(误差),Variance(方差)及CV(交叉验证)

Error = Bias^2 + Variance+Noise

  • 什么是Bias(偏差)

Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,即算法本身的拟合能力


  • 什么是Variance(方差)

Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。反应预测的波动情况。


  • 什么是Noise(噪声)

这就简单了,就不是你想要的真正数据,你可以想象为来破坏你实验的元凶和造成你可能过拟合的原因之一,至于为什么是过拟合的原因,因为模型过度追求Low Bias会导致训练过度,对测试集判断表现优秀,导致噪声点也被拟合进去了


作者:mrlevo520
链接:https://www.jianshu.com/p/8d01ac406b40
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

 

2,逻辑回归多重共线性的解决办法

https://blog.csdn.net/nieson2012/article/details/48980491

3 判别模型,生成模型,

https://blog.csdn.net/haolexiao/article/details/70217607

l1,l2正则l1,l2正则

4,过拟合和解决办法

http://lib.csdn.net/article/machinelearning/33798

5,逻辑回归特征离散化优点,特征离散化方法

https://blog.csdn.net/u010358304/article/details/80693541

6,参数估计方法及区别

https://blog.csdn.net/ch1209498273/article/details/78313859

 

你可能感兴趣的:(机器学习算法校招笔试面试题集)