货拉拉算法工程师笔试题——回忆版

题型

单选题 17
多选题 3
问答题 5

单选题

1.有两个样本点,第一个点为负样本,它的特征向量是(0,-1);第二个点为正样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()

A. 2x+y=4

B. x+2y=5

C. x+2y=3

D. 以上都不对
解析:
货拉拉算法工程师笔试题——回忆版_第1张图片2.生成式模式与判定式模式的考查。
生成式:朴素贝叶斯、HMM、Gaussians、马尔科夫随机场
判别式:LR,SVM,神经网络,CRF,Boosting
记住上面的分类应该就没问题了。
3.给出0-1矩阵的定义,求总共有多少种0-1矩阵?

多选题

1.给出4个选项,选择哪些可以做激活函数?
下面哪些是神经网络的激活函数?(ABC)
A. sigmoid
B. ReLU
C. 反正切tanh
D. 交叉熵CE

2.哪些不能用来处理过拟合?

3.机器学习中L1正则化和L2正则化的区别是?
A.使用L1可以得到稀疏的权值
B.使用L1可以得到平滑的权值
C.使用L2可以得到稀疏的权值
D.使用L2可以得到平滑的权值
注:
  L1正则化偏向于稀疏,它会自动进行特征选择,去掉一些没用的特征,也就是将这些特征对应的权重置为0.
  L2主要功能是为了防止过拟合,当要求参数越小时,说明模型越简单,而模型越简单则,越趋向于平滑,从而防止过拟合。

问答题

  1. xgBoot如何处理缺失值?
  • 1)在特征k上寻找最佳 split point 时,不会对该列特征 missing 的样本进行遍历,而只对该列特征值为 non-missing 的样本上对应的特征值进行遍历,通过这个技巧来减少了为稀疏离散特征寻找 split point 的时间开销。
  • 2)在逻辑实现上,为了保证完备性,会将该特征值missing的样本分别分配到左叶子结点和右叶子结点,两种情形都计算一遍后,选择分裂后增益最大的那个方向(左分支或是右分支),作为预测时特征值缺失样本的默认分支方向。
  • 3)如果在训练中没有缺失值而在预测中出现缺失,那么会自动将缺失值的划分方向放到右子结点。

2.梯度下降法的原理

3.贝叶斯公式?
在这里插入图片描述
公式中,事件Bi的概率为P(Bi),事件Bi已发生条件下事件A的概率为P(A│Bi),事件A发生条件下事件Bi的概率为P(Bi│A)。

4.精确度,召回率和F值的公式?

预测
1 0
实际 1 True Postive(真正例) False Negative(假负例)
0 False Postive(假正例) True Negative(真负例)

TP:真正例,FN:假负例

FP :假正例,FN:真负例

精确率:TP/(TP + FP)
召回率:TP/(TP+FN)
F值:精确率 * 召回率 * 2 /(精确率 + 召回率)

5.KKT的公式
货拉拉算法工程师笔试题——回忆版_第2张图片

总结

题目挺简单的,只是本人太菜!有些东西记不得了,欢迎补充。

你可能感兴趣的:(机器学习)