机器学习常见面试题

校招季整理,会一直更新

1、判别式模型和生成式模型

判别方法:由数据直接学习决策函数 Y = f(X),或者由条件分布概率 P(Y|X)作为预测模型,即判别模型。
生成方法:由数据学习联合概率密度分布函数 P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。
由生成模型可以得到判别模型,但由判别模型得不到生成模型。
常见的判别模型有K近邻、SVM、决策树、感知机、线性判别分析(LDA)、线性回归、传统的神经网络、逻辑斯蒂回归、boosting、条件随机场
常见的生成模型有朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题生成模型(LDA)、限制玻尔兹曼机

2、最大熵原理

信息熵取得极大值时对应的一组概率分布出现的概率占绝对优势
(1).概念
,反映的是一个系统混乱程度的度量(化学),比如一个系统,最自然的状态就是熵最大的状态(也就是最无序、最混乱的状态),能够自然发生的变化都是熵增的。比如一个系统内有多个分子,那么最自然的状态是分子排列杂乱无章,散布在系统各处,对应熵最大,而如果强行把所有分子聚集在一个很密集的区域,那么整个系统对应的熵 最小。也就是说,一个系统熵最大的时候,是这个系统最自然的状态
信息熵,反映的是人们对客观事件不确定性的度量, 与物理学中的熵表征物质的混乱程度有相似之处,熵越大,事件的不确定性越大。
在这里我们要定义信息量的公式

(问号是负号)
信息熵是表征不确定事件所有状态携带信息量的期望值
其中,pi表示事件A的第i个状态发生的概率值
 
信息熵表征了一个不确定事件A的所有可能状态所提供的 平均信息量 ,信息熵越大,表明携带的平均信息量越大,不确定性也就越大,那么对这个事件A的模拟也就最接近自然状态;反之携带的平均信息量越少,不确定性越小。

最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。
(2).求法  http://www.cnblogs.com/maybe2030/p/5514841.html

3、常见聚类算法比较

(1) k-means
    优点:简单,易于理解和实现;时间复杂度低,每轮迭代负载度为O(n*k)
    缺点:需要对均值给出定义;需要指定聚类的数目;一些过大的异常值会带来很大影响;需要指定初始聚类中心,算法对初始值敏感;适合球形类簇。
(2) 层次聚类(试图在不同层次对数据集进行划分,从而形成树形的聚类结构。AGNES是一种采用自底向上聚合策略的层次聚类算法)
     优点:距离和规则的相似度容易定义,限制少;不需要预先指定聚类数目;可以发现类的层次关系;可以聚类成其他形状
    缺点:计算复杂度高;奇异值也能产生很大影响;算法很可能聚类成链状。

你可能感兴趣的:(面试)