机器学习面试题第一天

每天几道机器学习、深度学习、计算机视觉的面试题用来充实自己,题不在多,在于能不能理解,如果只是简单的复制粘贴,就是去了意义,我尽量将每道题都能用直接作为回答的答案来写,啦啦啦,开始啦!

1、逻辑回归的优缺点?

优点:

a、简单快速内存小,可在短时间内迭代多个版本的模型。

b、模型的可解释性非常好,可以直接看到各个特征对模型结果的影响,可解释性在某些领域很重要,所以业界很多仍然使用逻辑回归模型。

c、特征工程如果做的好,那么模型的效果不会太差。

d、特征工程可以并行开发,大大加快开发速度。

e、模型结果可以很方便的转化为策略规则,且线上部署简单。

总之:简单、快速、内存小、迭代快、解释性好、依赖于特征工程、结果易用。

缺点:

a、容易欠拟合。

b、相比集成模型,准确度不高。

c、对数据要求高。对缺失、异常、共线性敏感、不能直接处理非线性特征。

d、在数据清洗和特征工程上花费时间。

e、适应能力有限。

总之:过分依赖数据、过分依赖特征工程、比集成模型差、适应力有限。

2、逻辑回归是线性模型吗?

逻辑回归是一种广义线性模型 = 线性模型 + Sigmoid函数,是非线性模型。

3、逻辑回归和线性回归的区别?

a、逻辑回归输出的是离散型变量,用于分类。

      线性回归输出的是连续性变量,用于回归预测。

b、逻辑回归 = 线性回归 + Sigmoid函数,将样本映射到[0,1]之间。

c、逻辑回归假设变量服从伯努利分布、线性回归假设变量服从高斯分布。

d、逻辑回归用最大似然法预测最优参数值、线性回归用最小二乘法去对自变量因变量关系进行拟合。

4、逻辑回归是如何解决过拟合的问题的?

a、减少特征数量。

b、采用正则化策略、L1和L2正则化。

5、在逻辑回归中,为什么常常做特征组合?

特征组合可以引入非线性特征,提升模型的表达能力。

基本特征 = 全局建模、特征组合 = 个性化建模,全局建模会导致对部分样本有偏向性,个性化建模会导致数据爆炸、过度拟合。

基本特征 + 特征组合兼顾了全局和个性化。

6、逻辑回归样本满足什么分布?

伯努利分布,分类标签通过伯努利分布得出,分类器就是为了估计这个分布。

7、什么是特征的离散化?什么是特征交叉?逻辑回归为什么会对特征进行离散化?

a、特征离散化是将数值型特征(一般是连续型的)转变为离散特征。

b、特征交叉也叫作特征组合,是将单独的特征进行组合,使用相乘/相除/笛卡尔积等形成合成特征,有助于表示非线性关系。

c、实际工作中很少直接将连续型变量带入逻辑回归模型中,而是将特征进行离散化后再加入模型。

优点:

a、简化模型,使模型变得更稳定,降低了模型过拟合的风险。

b、离散化之后的特征对异常数据有很强的鲁棒性。实际工作中的很难解释的异常数据一般不会做删除处理,如果特征不做离散化,这个异常数据带入模型,会给模型带来很大的干扰。

c、离散特征的增加和减少都很容易,且稀疏向量的内积乘法运算速度快,易于模型的快速迭代。

d、逻辑回归属于广义线性模型,表达能力有限,特征离散化之后,每个离散变量都有单独的权重,相当于给模型引入了非线性,能够提高模型的表达能力。

f、离散化后的特征可进行特征交叉,进一步引入非线性,提高模型的表达能力。

8、高度相关的特征带入逻辑回归到底有什么影响?为什么逻辑回归要将高度相关特征剔除?

a、在损失函数最终收敛的情况下,就算有很多相关度很高的特征,也不会影响模型的效果。

b、减少特征数量,提高模型的训练速度,减少过拟合的风险。

      去掉高相关特征可以让模型的可解释性更好。

9、逻辑回归的特征系数的绝对值可以认为是特征的重要性吗?

特征系数的绝对值越大,对分类效果的影响越显著,但不能表示系数更大的特征重要性更高。

今天机器学习部分就先这样吧,时间有限啊,还有深度学习和cv知识点需要学习一下,今天还没整理论文呢,哭哭

你可能感兴趣的:(Machine,learning)