机器学习面试题(二)

1.生成模型与判别模型的区别?
监督学习方法分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。
生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率P(Y|X)作为预测的模型,即生成模型: P(X,Y)P(X) P ( X , Y ) P ( X )
这样的方法称为生成方法,因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯和隐马尔可夫模型。
判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y,典型的判别模型包括:KNN,感知机,决策树,LR, SVM, 提升方法和条件随机场。

生成方法的特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法,此时判别方法就不能用。
判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

2.特征工程
数据预处理:无量纲化(标准化、区间缩放法、归一化),对定量特征二值化(离散化),对定性特征进行独热编码,缺失值的处理(删除,统计填充,统一填充,预测填充),数据变换

特征选择:
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:
•特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
•特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种:
•Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。
•Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。
•Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。

Filter:方法选择法(使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征),相关系数法(使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的P值),卡方检验(经典的卡方检验是检验定性自变量对定性因变量的相关性,选择卡方值排在前面的K个特征作为最终的特征选择),互信息法(同理,选择互信息排列靠前的特征作为最终的选择特征)

Wrapper:递归特征消除法(递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练)

Embedded:基于惩罚项的特征选择法(使用带惩罚项的基模型,除了筛选出特征外,同时也进行了降维),基于树模型的特征选择法(训练能够对特征打分的预选模型)

降维:
当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。常见的姜维方法除了基于L1惩罚项的模型以外,另外还有主成分分析法(PCA)和线性判别分析(LDA),线性判别分析本省也是一个分类模型。
主成分分析法(PCA):
PCA的思想是通过坐标轴转换,寻找数据分布的最优子空间,从而达到降维、去相关的目的。
下面的图是直接从《机器学习实战》中截取的,原始数据二维特征,三分类问题,左图是原始数据。进行PCA特征转换,第一个新坐标轴选择的是原始数据中方差最大的方向(线B),第二个新坐标轴与第一个坐标轴正交且具有最大方差的方向(线C),当特征维度较多时,重复上述过程,会发现大部分的方差都包含在前几个新的坐标轴中,通过选择保留前N个坐标轴达到降维的效果,下面中上是特征转换的图右,中下是降维后的图。在数学上,是先用原始数据协方差矩阵的前N个最大特征值对应的特征向量构成映射矩阵,然后原始矩阵左乘映射矩阵,从而对原始数据降维。下图右面列出了两个随机变脸之间协方差的计算公式、怎么计算矩阵的协方差矩阵、矩阵的特征值、特征向量。特征向量可以理解为坐标准换中的新坐标轴的方向,特征值表示矩阵在对应的特征向量上的方差,特征值越大,方差越大,信息量越多。
机器学习面试题(二)_第1张图片

线性判别分析(LDA):
LDA的原理是将带上标签的数据点,通过投影的方法,投影到维度更低的空间,使得投影后的点,会形成类别区分,相同类别的点,将会在投影后更接近,不同类别的点距离越远。
机器学习面试题(二)_第2张图片

LDA算法的主要步骤:
机器学习面试题(二)_第3张图片

ICA独立成分分析:
PCA特征转换降维,提取的是不相关的部分,ICA独立成分分析,获得的是相互独立的属性。ICA算法本质寻找一个线性变化z=Wx,使得z的各个特征分量之间的独立性最大。ICA相比于PCA更能刻画变量的随机统计特性,且能抑制噪声。ICA认为观测到数据矩阵X是可以由未知的独立元举证S与未知的矩阵A相乘得到。ICA希望通过矩阵X求得一个分离矩阵W,使得W作用在X上所获得的矩阵Y能够逼近独立源矩阵S,最后通过独立元矩阵S表示矩阵X,所以说ICA独立成分分析提取出的特征中的独立部分。

列举Random Forest和GBDT的区别?
梯度下降法求解最优化问题的原理和步骤?
8.常见的聚类算法
9.树模型
10.PMF(概率质量函数),PDF(概率密度函数),CDF(累积分布函数)
线性分类器三中最优准则:
Fisher准则,感知准则函数,支持向量机
准确率、召回率、F1值

你可能感兴趣的:(机器学习)