秋招面试题(NLP)总结2. 机器学习

机器学习算法常考的点主要包括:朴素贝叶斯,SVM,LR,CRF,HMM,XGBOOST,LGB,线性回归,决策树,KNN,k-mean,GBDT,PCA,LAD,ADABOOST,特征工程,评价指标,正则化,生成/判别/概率模型之类的等。

零. 数学基础

  1. 最小二乘法的推导公式,最小二乘究竟是什么,和极大似然的关系
  2. 手推任何机器学习公式(LR、SVM、GBDT、XGBOOST)
  3. 讲一下极大似然估计,写一个公式,极大似然估计和最大后验估计的区别是什么?
  4. 了解贝叶斯公式么,写一个
  5. 极大似然估计=最大似然估计,能否用代码实现
  6. EM算法与FM算法公式推导
  7. 给出前向传播算法的公式,并给出解释
  8. 简述反向传播算法的原理,可给出公式推导
  9. 解释一下AUC的计算方法和它代表的意义
  10. 如何理解最大熵算法,用公式表示呢
  11. 如何理解元启发式算法
  12. KL散度的计算公式
  13. 假设两个分布A 和 B,我们一般怎么衡量两个分布之间的距离,一般用什么距离?
  14. 假设有两个分布P和Q,你觉得P和Q的KL散度和 Q和P的KL散度是相等的吗?
  15. 解释一下AUC的计算方法和它代表的意义

一. SVM

  1. SVM怎么解决不容易找到超平面的问题
  2. 介绍SVM和SVM核函数
  3. SVM过拟合如何解决
  4. SVM中,高斯核为什么会把原始维度映射到无穷多维?
  5. SVM中有哪些调参经验
  6. SVM的理论依据与SVM手推实现
  7. SVM有哪些核函数,对应有哪些使用场景和特点
  8. SVM为什么用hinge loss,解释hinge loss
  9. SVM的核函数有哪些?你都用过哪些?
  10. SVM 需不需要做 normalization?
  11. 解释核函数及其应用
  12. SVM多分类怎么做到的(OVR、OVO、层次SVM),分析各自的特点
  13. SVM,高斯核实映射到多少维,为什么
  14. KKT 条件SVM的推导过程,
  15. 使用hinge loss的意义,为什么linear svm的bound要设为1?
  16. 什么是kernel trick?对应无限维空间可以使用哪种kernel function?
  17. 使用hinge loss的意义,为什么linear svm的bound要设为1?

二. GBDT

  1. GBDT和逻辑回归的区别
  2. GBDT和Xgboost的区别,XGBoost相比于GBDT有哪些改进
  3. 如何改进和提升Xgboost模型
  4. 介绍一下LightGBM与Xgboost的区别
  5. GBDT推导
  6. Xgboost原理,怎么防过拟合
  7. boosting和bagging在不同情况下的选用
  8. Adaboost和XGBoost的区别,Adaboost和XGBoost是怎么进行预测的
  9. LightGBM和XGBoost,GBDT的区别(LGB=GBDT+GOSS+EFB)
  10. DEEP&WIDE模型,DEEP FM知道吗?
  11. Adaboost,gbdt,xgboost,从损失函数,基学习器,训练方式等方面说明,写了xgboost的泰勒展开
  12. Gbdt是怎么选择特征的,答借助于CART树模型进行选择,类似于ID3,C4,5用信息增益和信息增益率。GBDT还可以构建特征什的
  13. XGBOOST ,LGB 生长策略,分类策略
  14. Xgboost怎么解决拟合和泛化问题的
  15. GBDT是否只能用CART树,GBDT中残差计算公式
  16. lightgbm的直方图加速讲一下?具体是怎么来做的?
  17. lightgbm的叶子节点是怎么分裂的?说一下

 

三. 逻辑回归

  1. 逻辑回归不做标准化有影响吗,神经网络呢?
  2. Lr做分类,有的连续特征为什么要离散化,离散化的优点
  3. Lr模型的输入和输出分别是什么
  4. Lr对商品进行点击进行概率预测,输入需要做一些什么处理
  5. LR(逻辑回归)是怎么优化的?
  6. Lr---对商品,估计商品点击的概率--预测
  7. 为什么Lr按照分布需要将特征如何进行离散化
  8. lr模型---根据做特征交叉,为什么
  9. lr中如何缓解过拟合
  10. 减轻特征工程的手段,--如何构建更多的特征
  11. 逻辑回归和 SVM 之间的区别 --- SVM 自带正则化,各自适用的使用场景
  12. 逻辑回归的损失函数。
  13. 逻辑回归中logit函数和sigmoid函数的关系
  14. 当数据量特别大的时候,逻辑回归(LR)怎么做并行化处理?
  15. 你能详细的讲解一下,线性回归的原理么?具体讲解一下线性回归的底层原理,比如说如何训练,如何得到参数,如何调整参数等?
  16. lr的损失函数是什么?lr为什么不用min square loss?

四. 多层感知机

  1. 线性和非线性存在什么关系之间的关系
  2. 特征工程你知道吗?用过吗?对于连续特征,我们通常有两种处理方式:1. 连续特征离散化;2. 特征缩放,这两种分别在什么情况下做?
  3. 特征相关性你一般用什么指标?(皮尔逊系数),写出皮尔逊系数的公式
  4. 画一下混淆矩阵,写一下精确率和召回率的公式
  5. 谈谈判别式模型和生成式模型?
  6. 怎么衡量两个分类的相似度
  7. 混淆矩阵和softmax输出的两个概率之差这两种方法确定分类相似度的异同
  8. Softmax的计算公式写一下呢

五. 随机森林和决策树

  1. 介绍随机森林
  2. 讲一下随机森林,GBDT,XGBoost
  3. GBDT和随机森林的区别来说一下?
  4. GBDT和随机森林的树的深度哪一个比较深?为什么?
  5. XGBoost和随机森林的特征重要性是怎么计算的?
  6. 树模型如何处理离散型特征
  7. 决策树手推实现
  8. 排队论模型服从什么分布
  9. 介绍决策树模型及其扩展
  10. 介绍决策树有哪些
  11. 决策树ID3算法的特征选择指标,口述一下数学公式(信息增益)
  12. KNN原理,kd树的构建与搜索,讲原理
  13. lda的实现方法,lda中的奇异值分解矩阵实现
  14. ID3、C4.5、CART树是什么?分别说下它们的优势?
  15. 用一些特征判断用户会不会点击某商品,用cart好还是c4.5好

六. 优化算法与优化器

  1. 如何解决过拟合 L1 L2的区别,batchnorm的作用
  2. 梯度消失爆炸的原因怎么解决
  3. 如何解决模型不收敛问题 以及如何加快模型的训练速度
  4. 解决梯度爆炸的方式(算法层面)
  5. bn/ln/wn的区别以及适用场景
  6. 如何解决sigmoid函数饱和后的梯度消失问题
  7. 过拟合的解决方法,如何防止过拟合
  8. 为什么rnn比cnn和全连接层神经网络更容易发生梯度消失或爆炸
  9. 怎么判断过拟合,怎么防止过拟合,说一下dropout
  10. 模型训练的停止标准是什么?如何确定模型的状态(指标不再提升)
  11. 数据不平衡怎么做
  12. 正负样本不均衡的问题,如何解决?一种可行的方案是用拒绝推断,一种方案是用smote 
  13. 深度学习模型在训练过程中如何加速收敛
  14. 模型学习中,正负样本的训练方式不同有什么影响
  15. 少样本情况怎么缓解
  16. Batch Normalization为什么能够解决梯度爆炸问题
  17. 有哪些优化方法,有哪些二阶优化方法,牛顿法存在哪些问题
  18. 过拟合和欠拟合的特征,如何预防?
  19. 不均衡问题如何处理?
  20. 梯度消失问题和损失函数有关吗?
  21. 梯度优化的角度,提高迭代速度(梯度下降到牛顿法、拟牛顿法、SGD、MBGD,动量,NAG,自适应的Adagrad、RMSpropAdam
  22. 随机梯度下降相比全局梯度下降好处是什么
  23. 归一化有哪些方式,说一下为什么要归一化呢
  24. 解释下什么是Early Stop,有什么作用

七. 优化器

  1. 介绍优化器的作用,以及不同优化器的区别Adam,SGD,BertAdam
  2. 为什么要Warmup
  3. SGD min-SGD的区别
  4. 对epoch做shuffle,类似于哪一种优化器
  5. 什么情况下不适用动量优化器,WGAN要保证梯度平滑,使动量优化器容易过拟合,防止梯度突变
  6. 用梯度下降的思路求开根号
  7. 如何理解一阶优化器,二阶优化器
  8. 如何做标签平滑
  9. Adam如何设置参数使学习率衰减?
  10. 描述梯度下降法的原理
  11. 参数优化方法说一下(梯度下降的三种方式的优缺点)
  12. 深度学习里面的优化方法momentum和Adam来分别讲一下原理和公式

八. 激活函数与正则化

  1. 激活函数有哪些以及他们的区别
  2. batch-normalization和layer-normalization的区别,在训练阶段和测试阶段,Batch Normalization和Dropout有什么不同
  3. Dropout 和L1 和l2是什么关系,有什么异同
  4. 正则项为什么能减缓过拟合
  5. 权重衰减等价于哪个正则项
  6. 正则化有 L1 和 L2 正则化,区别是什么?
  7. Dropout有什么作用,为什么会提升效果,它类似于Bagging,Bagging是什么
  8. 有哪些正则化方法,L1,L2正则化,决策树,剪枝
  9. batch_normal为什么需要还原
  10. 激活函数无限维的问题
  11. 存在哪些加速收敛的方法,BN, GN, IN, FN的原理详细解释一下呢,BN为什么能够加速收敛
  12. BN为啥可以缓解过拟合,详细讲一下 ,BN有哪些需要学习的参数啊,BN训练和测试是怎么做的?
  13. BN一般用在网络的那个部分呢

九. 分类与聚类算法

  1. 聚类算法,各种聚类算法的优缺点 划分:K-means 层次:AGNES 密度:DBSACN 模型:EM
  2. kmeans算法,K-means算法中的K怎么确定的?
  3. 说一下K-means聚类的原理以及过程?
  4. K-means聚类怎么衡量相似度的?(我说欧式距离)
  5. 写一下欧式距离的公式
  6. 生成式学习和判别式学习的区别
  7. 如何理解EM算法
  8. POI的聚类怎么做的?
  9. 层级聚类
  10. 如何理解无监督学习,什么时候用无监督学习
  11. 如何理解K-means聚类,层次聚类,谱聚类、dbscan、fast clustering、psla、lda

十. 贝叶斯算法

  1. 朴素贝叶斯是一个什么类型的算法, 用来解决什么问题。详细讲一下其损失函数。
  2. 朴素贝叶斯的x是连续值的时候该如何计算
  3. 贝叶斯分类的前提假设
  4. 朴素贝叶斯的底层原理,比如说,如何选参数,如何训练模型,如何做分类?

十一. 概率图模型

  1. 概率图模型,有向图模型和无向图模型分别作了哪些假设?CRF的训练目标是什么?
  2. CRF与HMM,特征函数,有向图无向图,因子分解。

十二. 损失函数与激活函数

  1. mse和交叉熵的区别
  2. 交叉熵,相对熵的关系,交叉熵的计算公式
  3. Bagging, boosting , 偏差,方差关系
  4. 损失函数中的KL散度和MMD的作用是什么
  5. Sigmoid 和 ReLU 区别,ReLU 解决了什么问题。
  6. PCA跟softmax差別
  7. 介绍一下Gumbel-Softmax trick
  8. 如何理解层次化Softmax
  9. 讲一下偏差和方差的区别,可从欠拟合和过拟合的角度入手
  10. 神经网络为啥用交叉熵。
  11. sigmoid,tanh,ReLU, leaky ReLU, PReLU, ELU,random ReLU等
  12. RELU的缺点是什么,如何解决
  13. 为什么用sigmoid函数进行非线性映射(从二项分布的伯努利方程角度)

你可能感兴趣的:(秋招)