面试中遇到过的问题

Logistic Regression

二分类问题,使用sigmoid函数,
为什么使用sigmoid函数:
因为二分类问题标记为{0,1},LR产生的预测值是连续的实数,因此要把它转换为0/1。如果直接使用单位阶跃函数,值是不连续的。而sigmoid是最理想的,在预测值=0附近曲线很陡,而且能将预测值转化为一个接近0/1的y值
怎么得出loss function?
使用极大似然法MLE来估计w和b,最大化“对数似然”
求解loss function?
梯度下降法,牛顿法
为什么使用最小二乘法/MSE?
欧式距离是最自然最直观的距离,正态分布是最常见最容易处理的噪声分布,自然最小二乘就是最优的方法
如何选择阈值?
最大化specificity(true negatives)和sensitivity(true positives)
通过cross validation

L1和L2范数

正则化是保证模型“简单”的基础上最小化训练误差M
l1与l2比较,l1得到的是稀疏解,正则化后去掉没有信息的feature,把这些特征的权重置为0.l2则让每个元素都很小,不为0。但是l2可导,而l1在0处不可导。
L2不能控制feature的“个数”,但是能防止模型overfit到某个feature上;相反L1是控制feature“个数”的,并且鼓励模型在少量几个feature上有较大的权重。
BIC和L2范数的区别
l1,l2在模型训练的过程中通过加约束来达到生成更好的模型的目的。
而AIC,BIC是在已经训练好的不同模型里面筛选出相对最好的那个模型。

评估模型

  1. 直接留出training和testing
  2. cross validation

性能度量

均方误差
错误率,精度: 精度=1-错误率
查准率precision,查全率recall,F1
ROC AUC: ROC 横坐标False positive rate,纵坐标true positive rate,比较两个分类器因为they take into account all possible thresholds.

选择subset的评判标准中,Adjusted R2、BIC、AIC、Cp的全称、含义及区别

应用于Model selection in linear regression,使用多少变量,哪些变量。比如best selection中,相同变量数的模型比较用R2,下一步不同模型需要得到lowest estimated test error,一般是Lowest cross-validation error,linear regression中则可使用这几种。
Backward selection前提n>p,面试中被问过“如果n>p产生过拟合问题怎么办?”当时面试官的回答是加入正则化。

Select variables with small p-values?
为什么不直接选择小的p-value?
1. Only measures relevance on training data
2. Only works well when n>>p (n: data; p: variables)

不使用R2和RSS因此使用以下三种。
BIC:Bayesian information criterion
AIC:Akaike information criterion
Cp:Mallow’s Cp

和用l1、l2有什么差别?
(课件上)

R语言中使用:

library(leaps)
regfit.bwd=regsubsets(price~.,data = data.lm, nvmax = 39, method = "backward")
reg.summary=summary(regfit.bwd)
# plot BIC
plot(reg.summary$bic ,xlab="Number of Variables ",ylab="BIC",
     type='l')
# Select variables based on BIC
plot(regfit.bwd,scale="bic")

假设空间

假设空间由不同feature可能取值的形成的假设组成

决策树

classification是根据信息增益选择feature分类的,Regression tree在做feature选择时是怎么做的?

如何理解信息增益?

知乎直观好回答:https://www.zhihu.com/question/22104055

你可能感兴趣的:(面试,数据挖掘面试)