机器学习--处理分类问题常用的算法(二)

下面的题都是来自于牛客网的面试宝典

1.分层抽样的适用范围

分层抽样利用事先掌握的信息,充分考虑了保持样本结构和总体结构的一致性,当总体由差异明显的几部分组成的时候,适合用分层抽样

2.LR和线性回归的区别

线性回归用来预测,LR用来做分类。线性回归是来拟合函数,LR是来预测函数。线性回归用最小二乘法来计算参数,LR用最大似然估计来计算参数。

3.生成模型和判别模型基本形式,有哪些?

生成式:朴素贝叶斯、HMM、Gaussians、马尔科夫随机场
判别式:LR、SVM、神经网络、CRF、Boosting

4.核函数的种类和应用场景

线性核、多项式核、高斯核。
特征维数高选择线性核
样本数量可观、特征少选择高斯核(非线性核)
样本数量非常多选择线性核(避免造成庞大的计算量)

5.分类算法列一下有多少种?应用场景

单一的分类方法主要包括:LR逻辑回归,SVM支持向量机,DT决策树、NB朴素贝叶斯、NN人工神经网络、K-近邻;
集成学习算法:基于Bagging和Boosting算法思想,RF随机森林,GBDT,Adaboost,XGboost

6.SVM核函数的选择

当样本的特征很多且维数很高时可考虑用SVM的线性核函数。当样本的数量较多,特征较少时,一般手动进行特征的组合再使用SVM的线性核函数。当样本维度不高且数量较少时,且不知道该用什么核函数时一般优先使用高斯核函数,因为高斯核函数为一种局部性较强的核函数,无论对于大样本还是小样本均有较好的性能且相对于多项式核函数有较少的参数。

7.核函数的作用

核函数隐含着一个从低维空间到高维空间的映射,这个映射可以把低维空间中线性不可分的两类点变成线性可分的。

8.SVM为什么使用对偶函数求解

对偶将原始问题中的约束转为了对偶问题中的等式约束,而且更加方便了核函数的引入,同时也改变了问题的复杂度,在原始问题下,求解问题的复杂度只与样本的维度有关,在对偶问题下,只与样本的数量有关。

9.SVM和全部数据有关还是和局部数据有关?

SVM只和分类界限上的支持向量点有关,换而言之只和局部数据有关。

10.为什么高斯核能够拟合无穷维度

因为将泰勒展开式代入高斯核,将会得到一个无穷维度的映射。

11.LR和SVM 区别

1)LR是参数模型,SVM是非参数模型。
2)从目标函数来看,区别在于逻辑回归采用的是logistical loss,SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。
3)SVM的处理方法是只考虑support vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重。
4)逻辑回归相对来说模型更简单,好理解,特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些,SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。
5)logic 能做的 svm能做,但可能在准确率上有问题,svm能做的logic有的做不了。

你可能感兴趣的:(面试,机器学习,算法,分类)