机器学习面试题总结

文章目录

      • 1.TFIDF优点和缺点
      • 2.相似度计算有哪些方法(Jaccard、欧氏距离、Cosine)
      • 3.朴素贝叶斯算法,对缺失值、异常值是否敏感
      • 4.朴素贝叶斯为什么适合增量计算
      • 5.朴素贝叶斯的优缺点
      • 6.逻辑回归和朴素贝叶斯的区别?
      • 7.线性回归和逻辑回归的区别?
      • 8.随机梯度下降(SGD)和批量梯度下降(BGD)的区别
      • 9.什么是AUC
      • 10.模型中的w参数,为什么不能过大?
      • 11.什么是正则化项?
      • 12.过拟合的问题?
      • 13.解决过拟合的方法?

1.TFIDF优点和缺点

2.相似度计算有哪些方法(Jaccard、欧氏距离、Cosine)

3.朴素贝叶斯算法,对缺失值、异常值是否敏感

4.朴素贝叶斯为什么适合增量计算

5.朴素贝叶斯的优缺点

6.逻辑回归和朴素贝叶斯的区别?

  • 逻辑回归是判别模型,朴素贝叶斯是生成模型
    • 判别模型:逻辑回归是直接对P(Y|X)直接建模、学习和求解,是在给定观测变量值前提下目标变量的条件概率模型
    • 生成模型:所有的变量是全概率模型

7.线性回归和逻辑回归的区别?

  • 线性回归样本的输出都是连续值,逻辑回归的输出只能取0和1
  • 拟合函数也有区别:
    • 线性回归:f(x) = θ1x1 + θ2x2 + …… + θnxn
      • 目标是拟合函数
    • 逻辑回归:f(x) = p(y=1 | x; θ) = sigmoid(1 / (1 + e^-z))
      • 目标是拟合对1类样本的概率

8.随机梯度下降(SGD)和批量梯度下降(BGD)的区别

9.什么是AUC

AUC是描述负样本出现在正样本前面的概率

10.模型中的w参数,为什么不能过大?

容易导致梯度更新波动大

11.什么是正则化项?

简单理解,就是在损失函数中增加范数,添加了约束,让w参数学的更小,如果是L1正则的话,除了让w学小之外,还可以过滤掉影响较小的特征,让模型变的更简洁,可解释性更好

12.过拟合的问题?

(1)如果数据中有噪音,模型如果把噪音也学的非常好的话,导致模型失效
(2)如果模型参数学习的很大,会导致求sigmoid函数预测的时候,导致输出值很大,容易使得误差变的很大,从而导致了更新中,带来了更多的波动
(3)w参数值很大,容易过拟合,哪怕是影响不大的信号,在面对巨大的w的时候,容易把其影响力放大,这是不合理的

13.解决过拟合的方法?

  • 降低模型复杂度 处理过拟合的第一步就是降低模型复杂度
  • 增加更多数据:使用更大的数据集训练模型
  • 数据增强,对原有样本做变换,图像中常用,比如把一个正常的图片进行翻转
  • 正则化,L1和L2
  • dropout,网络减枝
  • 早停
  • 重新清洗数据:把明显异常的数据剔除
  • 使用集成学习方法:把多个模型集成在一起,降低单个模型的过拟合风险
  • BatchNorm,批量归一

你可能感兴趣的:(面试准备,机器学习,人工智能)