整理近一年的机器学习面试题大全(知乎专栏同步更新)

本人知乎更新地址: https://zhuanlan.zhihu.com/p/97742344

最大似然估计和最小化KL散度之间的关系?

image

总结 a. 最小化 KL 散度其实就是在最小化分布之间的交叉熵 b. 许多作者使用术语 “交叉熵’’ 特定表示伯努利或 softmax 分布的负对数似然，但那是用词不当的。 c. 任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。例如，均方误差是经验分布和高斯模型之间的交叉熵。 d. 我们可以将最大似然看作是使模型分布尽可能地和经验分布 pˆ_data 相匹配的尝试。理想情况下，我们希望匹配真实的数据生成分布 p_data，但我们没法直接知道这个分布。

e. 虽然最优 θ 在最大化似然或是最小化 KL 散度时是相同的，但目标函数值是不一样的。在软件中，我们通常将两者都称为最小化代价函数。因此最大化似然变成了最小化负对数似然(NLL)，或者等价的是最小化交叉熵。将最大化似然看作最小化 KL 散度的视角在这个情况下是有帮助的，因为已知 KL 散度最小值是零。当取实数时，负对数似然是负值。

2. 条件概率分布公式?

image

3. AdaBoost

image

4. AdaBoost中的Weight Trimming?

image

5. AdaBoost是一个具有里程碑意义的算法，因为其实第一个具有什么性质的算法?

第一个具有适应性的算法，即能适应弱学习器各自的训练误差率，这也是其名称的由来（Ada为Adaptive的简写）。

AdaBoost的具体流程为先对每个样本赋予相同的初始权重，每一轮学习器训练过后都会根据其表现对每个样本的权重进行调整，增加分错样本的权重，这样先前做错的样本在后续就能得到更多关注，按这样的过程重复训练出M个学习器，最后进行加权组合

6. AdaBoost采用指数损失的原因?

image

这意味着 sign(f(x)达到了贝叶斯最优错误率，即对于每个样本 x都选择后验概率最大的类别。若指数损失最小化，则分类错误率也将最小化。这说明指数损失函数是分类任务原本0-1损失函数的一致性替代函数。由于这个替代函数是单调连续可微函数，因此用它代替0-1损失函数作为优化目标。

指数损失吸引我们的地方是 1: 它良好的可计算性； 2: 在更新权重分布时简单的形式。其他方面并不会带来比对率损失（交叉熵）更好的结果，原因如上.

统计学告诉我们，利用期望公式，然后求导可知，使得指数损失期望最小的函数正是1/2*odds。这也就是说，指数损失的加性模型的优化过程实际上是在逼近1/2对率。回忆，另一个逼近对率损失的代价函数是什么？当然也就是我们常见的交叉熵。因此，二者本质上有相同的解。所以说，指数损失本身并没有带来优化上的特殊，优点在于计算和表达简单。

7. Bagging

image

8. Bagging和Boosting和Stacking区别?

image

9. CART分类树算法对于连续特征和离散特征处理的改进?

image

10. CART用gini指数来选择特征的原因?

image

11. CART算法介绍

image

12. CART算法伪代码?

image

13. How are the primal and the dual problems related?

image

14. kd树

image

15. kd树算法复杂度?

image

16. KKT条件中的对偶互补条件是啥?

image

17. KKT条件什么时候成立, 具体是啥?

image

18. KL散度

image

19. k近邻法

image

20. LDA优缺点?

image

21. logistic回归

image

22. Real AdaBoost是什么?

image

23. smo为什么要选择一个违反约束条件最严重的的点?

image

24. stacking

image

25. Why does XGBoost perform better than SVM?

image

26. xgboost

xgboost: A) xgboost的目标函数?

image

xgboost: B) 如何分布求解square loss?

image

xgboost: C) 如何分步求解第t个函数f_t?

image

xgboost: D) 树结构定义?

image

xgboost: E) 树的复杂度定义?

image

xgboost: F) 目标函数推导

image

xgboost: G) 举例说明如何计算树结构分数?

image

xgboost: H) Searching Algorithm for Single Tree ?

image

xgboost: I) 最优切分点划分

image

xgboost: J) 离散特征处理

Xgboost没有单独处理离散和连续特征, 只需要对离散特征进行one-hot编码, 然后xgboost便可使用推导出的评分公式来根据分类变量进行score split

xgboost: K) 剪枝和正则化

image

xgboost: L) 生成一棵树后如何Boosting?

image

xgboost: M) gradient boosting为什么使用泰勒展开?

image

xgboost: Compare GBM and XGBoost?

image

xgboost: Objective Function

image

xgboost: Regularization (正则化)

image

xgboost: Ridge regression , Lasso , Logistic regression?

image

xgboost: Tree Ensemble methods?

image

xgboost: what's the advantage of XGBoost over GBM?

image

Xgboost: XGBoost的特点?

image

xgboost: 二阶泰勒展开在xgboost里非常有效, 为什么通常机器学习优化还是使用梯度下降法?

image

xgboost: 完整的gradient boosting伪代码?

image

xgboost: 常见的loss function?

image

xgboost: 离散值为什么建议one-hot编码?

image

xgboost算法从头到尾推导一遍?

image

27. 不觉得最大熵原理很奇怪吗?

image

28. 为什么要考虑线性规划的对偶问题?

image

29. 主定理的公式?

image

30. 举一个CART回归树的例子?

image

31. 举例理解朴素贝叶斯分类器?

image

由于0.063>6.80×10^−5，因此，朴素贝叶斯分类器将测试样本“测1”判别为“好瓜”。

32. 什么是极大似然估计?

image

33. 什么是经验风险最小化?

image

34. 从哲学的角度解释一下最大熵原理?

image

35. 偏差,方差

image

36. 全概率公式

image

37. 关于最大熵模型的严重困惑：为什么没有解析解？

image

38. 决策树

决策树定义

image

剪枝

image

启发函数

image

决策树学习基本算法伪代码?

image

决策树算法优缺点?

image

决策树算法对比?

image

对决策树启发函数做对比?

image

39. 前向分步算法

image

40. 加法模型 (Additive Model) 和指数损失函数 (Exponential Loss)

image

41. 加法模型的Shrinkage?

image

42. 如何用图解释EM算法, 说出算法步骤?

image

43. 如何解决过拟合与欠拟合?

image

44. 对偶问题中的主问题是什么?

image

45. 常用核函数

image

46. 常见距离与相似度度量?

image

47. 序列最小最优化(SMO)算法

image

48. 感知机

image

感知机的优化策略是什么?

image

感知机的对偶形式是什么?

image

49. 拉格朗日函数是什么? 拉格朗日乘子是啥?

image

50. 提升方法

提升(boosting)是一种常用的统计学习方法,是集成学习的一种.它通过改变训练样本的权重(概率分布),学习多个弱分类器(基本分类器),并将这些分类器线性组合来构成一个强分类器提高分类的性能.

51. 提升树

image

52. 支持向量机基本概念

image

53. 最大熵模型

image

54. 最小二乘法

image

55. 期望风险是什么?

image

56. 朴素贝叶斯分类的优缺点

image

57. 机器学习常见的损失函数?

image

58. 概率密度函数和似然函数之间的关系?

image

59. 求解对偶问题的解d*

image

60. 用隔壁老王的故事, 说明先验分布、后验分布、似然估计这几个概念是什么意思

image

61. 监督学习的问题可以转化为什么? 这时候目标函数是什么?

监督学习的问题可以转化为经验风险或者结构风险函数的最优化问题

这时候经验或者结构风险函数就是最优化的目标函数。

62. 线性可分SVM的对偶算法

image

63. 线性可分支持向量机

image

64. 线性支持向量机

image

65. 经验风险,期望风险和结构风险的区别是什么?

image

66. 经验风险是什么?

image

67. 结构风险是什么?

image

68. 结构风险最小化的目的是啥, 为什么要定义结构风险函数?

image

69. 给出一个贝叶斯分类的例子?

image

70. 讲一个关于卷积的一个血腥故事?

image

71. 贝叶斯公式是什么

image

72. 贝叶斯分类器

image

73. 逻辑回归损失函数为什么使用最大似然估计而不用最小二乘法？

image

74. 非线性支持向量机

image

75. 风险函数与监督学习的关系

监督学习的目的就是选择令期望风险最小化的模型，但是由于联合分布 P(x,y)未知，风险函数的值并不能直接计算，所以监督学习就称为一个病态问题（ill-formed problem）。

76. Batch Normalization 和 Group Normalization有何区别？

BN是在 batch这个维度上进行归一化，GN是计算channel方向每个group的均值和方差

(未完待续)

整理近一年的机器学习面试题大全(知乎专栏同步更新)

你可能感兴趣的:(整理近一年的机器学习面试题大全(知乎专栏同步更新))