线性回归和逻辑斯蒂回归 - 面试篇

(面试不需要每个知识点你都会,但你简历上写的几个,最好钻研透)

线性回归

线性回归是分析因变量与自变量(通常有多个)之间的关系,这种关系是线性的,并且因变量为连续值(离散的为分类)。
例如,自变量为房子面积的大小,距离市中心的距离,卧室的个数等,因变量为房子的价格。

模型的基本思想:用梯度下降法对最小二乘法形式的误差函数进行优化

(只说这些肯定不够,糊弄不了面试官,下面才是重点)

问: 用极大似然估计最小二乘?

最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
“模型已定,参数未知”。利用试验结果得到某个参数值能够使样本出现的概率为最大
中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。
线性回归和逻辑斯蒂回归 - 面试篇_第1张图片
线性回归和逻辑斯蒂回归 - 面试篇_第2张图片

问:线性回归损失函数?
线性回归和逻辑斯蒂回归 - 面试篇_第3张图片
问:既然你上面加了正则化,那么说一下L1, L2正则吧?
使用正则化,可以降低模型的复杂度。
加上L1正则化给了模型的拉普拉斯先验,加上L2正则化给了模型的高斯先验。
从参数的角度来看,L1得到稀疏解,去掉一部分特征降低模型复杂度。L1正则化是L1范数而来,投到坐标图里面,是棱型的,最优解在坐标轴上取到,所以某些部分的特征的系数就为0。
L2得到较小的参数,如果参数很大,样本稍微变动一点,值就有很大偏差。相当于降低每个特征的权重。
更细致的可以看我这篇博客:防止过拟合的方法,及dropout原理 - 面试篇

问:线性回归的优缺点?
实现简单,但不能拟合非线性数据


逻辑斯蒂回归(LR)

概念:分类/事件发生的概率

问:logistic函数?
线性回归和逻辑斯蒂回归 - 面试篇_第4张图片
问:logistic参数估计?(参数 θ \theta θ 怎么变化/调整)
线性回归和逻辑斯蒂回归 - 面试篇_第5张图片
线性回归和逻辑斯蒂回归 - 面试篇_第6张图片
线性回归和逻辑斯蒂回归 - 面试篇_第7张图片
问:对数几率模型?/ LR和线性回归的关系?
线性回归和逻辑斯蒂回归 - 面试篇_第8张图片
问:LR的损失函数怎么算? 手推 (重点)
线性回归和逻辑斯蒂回归 - 面试篇_第9张图片
把上面那个参数估计会了,这个很简单。[题外话:有次面百度推荐部门实习,C++,机器学习都没太会,面试官还比较好,只是说让我下次来先复习下](不知道为什么我面试不会,之前一直没有正视数学,不敢,以为很难,其实只有一点一点深入才能够弄懂,懂了后就简单了。)
或者:
线性回归和逻辑斯蒂回归 - 面试篇_第10张图片
问:为什么可以用似然函数?
因为目标是要让预测为正的的概率最大,且预测为负的概率也最大,即每一个样本预测都要得到最大的概率,将所有的样本预测后的概率进行相乘都最大,这就能到似然函数了。
最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
“模型已定,参数未知”。利用试验结果得到某个参数值能够使样本出现的概率为最大

问:LR优缺点?
优点:实现简单,分类时计算量小、速度快、存储资源要求低
缺点:容易过拟合、一般准确度不高,原始的LR模型只能处理2分类问题


以上为面试过程碰到的,加上自己想的,汇总而得。
参考资料:小象学院
有的答案网上找的。

你可能感兴趣的:(逻辑斯蒂回归,线性回归,机器学习,面试,人工智能,机器学习,算法,面试)