相关文章:
机器学习算法基础问题(一)PCA|SVM|贝叶斯|过拟合
机器学习算法基础问题(二)类别不均|尺寸及感受野|Batch Norm|损失函数
机器学习算法基础问题(三)集成学习|adaboost与XGboost| EM算法
目录
一、贝叶斯与生成式判别式
1.1 生成式模型与判别式模型
1.2 贝叶斯分类器
1.3 相关贝叶斯题
二、决策树与随机森林
2.1 决策树
2.2 决策树的构造过程(training)
基于信息熵的构造
2.3 随机森林
三、协同滤波
3.1 协同滤波
四、经典算法
PCA算法
SVM
五、线性回归
7.1 最小二乘法
https://www.cnblogs.com/fanyabo/p/4067295.html
这个较容易判别其他几项正确,但是关于生成式模型和判别式模型:
常见的生成式模型有 隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等。
判别式模型根据求y即根据x来预测y
生成式模型求y则根据x,y的联合分布,反推最可能的p(y|x),多了一步。
贝叶斯分类器
https://baike.baidu.com/item/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%88%86%E7%B1%BB%E5%99%A8/1739590?fr=aladdin
此类基础的问题经常出现,贝叶斯概型,先验概率,后验概率等等。是机器学习很基础的问题。
贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。它的设计方法是一种最基本的统计分类方法。其分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
先验概率:
https://baike.baidu.com/item/%E5%85%88%E9%AA%8C%E6%A6%82%E7%8E%87/6106649
先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率。在贝叶斯统计推断中,不确定数量的先验概率分布是在考虑一些因素之前表达对这一数量的置信程度的概率分布。例如,先验概率分布可能代表在将来的选举中投票给特定政治家的选民相对比例的概率分布。未知的数量可以是模型的参数或者是潜在变量。
后验概率:
https://baike.baidu.com/item/%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87
后验概率是信息理论的基本概念之一。在一个通信系统中,在收到某个消息之后,接收端所了解到的该消息发送的概率称为后验概率。
后验概率的计算要以先验概率为基础。后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来
后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的"果"。先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础 。
事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。
下面关于贝叶斯分类器描述错误的是( )
正确答案: B
解析:第二个说反了,贝叶斯概型都是根据先验推导后验,求出联合分布,再算出后验概率,都是由结果找原因。
https://www.cnblogs.com/xiemaycherry/p/10475067.html
决策树属于也只能非参数学习算法(非参数机器学习方法不需要存储参数)、可以用于解决(多)分类问题,回归问题。 回归问题的结果,叶子结点的平均值是回归问题的解。
决策树对抗过拟合的方法就是剪枝。
https://www.jianshu.com/p/655d8e555494
当选择某个特征作为节点时,我们就希望这个特征的信息熵越小越好,那么不确定性越小
在决策树算法中,ID3基于信息增益作为属性选择的度量, C4.5基于信息增益作为属性选择的度量, CART基于基尼指数作为属性选择的度量。
https://www.e-learn.cn/content/qita/1223365
随机森林的随机性体现在下面哪些?
随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。
随机森林相当于bagging,Bagging是通过结合几个模型降低泛化误差的技术。主要想法是分别训练几个不同的模型,然后让所有模型表决测试样例的输出。 这是机器学习中常规策略的一个例子,被称为模型平均(modelaveraging)。采用这种策略的技术被称为集成方法,用于减少泛化误差。(bagging与boosting的区别见后续博文)
如果训练集大小为N,对于每棵树而言,随机且有放回地从训练集中的抽取N个训练样本(这种采样方式称为bootstrap sample方法),作为该树的训练集。
随机森林优点:
https://blog.csdn.net/qq_34555202/article/details/81909144
协同过滤是利用集体智慧的一个典型方法。推荐系统的首要问题是了解你的用户,然后才能给出更好的推荐。
概念:协同过滤一般是在海量的用户中发掘出一小部分和你品位(偏好)比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。
下面关于主分量分析(PCA)的描述错误的是( )?
解析:PCA是线性变换。
区别与联系:
https://blog.csdn.net/wangjian1204/article/details/50642732
PCA的中文名叫做主成分分析,是降维和去噪的一种重要方法。PCA选取包含信息量最多的方向对数据进行投影。其投影方向可以从最大化方差或者最小化投影误差两个角度理解
PCA要求分解后两个矩阵值一样,C=VLV',其中V是正交矩阵。
SVD分解后两个正交矩阵可以不一样,S=UXV',其中U和V是正交矩阵。
SVD是另一个方向上的主成分,PCA只是单方向上的主成分。PCA会丢失一定的数据。
下面关于支持向量机(SVM)的描述错误的是( )?
logistic与SVM错误的是
准确率与召回率
Precison,与recall
准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量,下面关于召回率描述正确的是( )
正确答案: C
衡量的是提取出的正确信息多少是准确的
召回率 = 提取出的正确信息条数 / 提取出的信息条数
召回率 = 提取出的正确信息条数 / 样本中相关的信息条数
召回率 = 提取出的正确信息条数 / 样本中总的信息条数
解析:这个挺简单的,因为博主前段时间还在做多标签分类,经常与这几个指标打交道。类比警察抓小偷。
Precision查准率,相当于 抓到的真小偷/抓到的所有人
Recall查全率,相当于 抓到的真小偷/ 所以小偷
输出多标签分类模型每class指标OP,OR,OF1,CP,CR,CF1
KNN近邻方法
一般情况下,KNN最近邻方法在( )情况下效果最好
正确答案: C (有争议吧,应该是样本出现团状分布的时候效果较好)
样本呈现团状分布
样本呈现链状分布
样本数量较大
样本数量较小
KNN算法
https://baike.baidu.com/item/%E9%82%BB%E8%BF%91%E7%AE%97%E6%B3%95/1151153?fr=aladdin
如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,
KNN算法对于样本不均的问题很难处理,比如只有1个A类,其他9个B类,即使很接近A,但是最近的三个肯定是,A,B,B,就无法处理样本不均的问题。
给定数据集D = {(x1,y1), (x2,y2), …, (xn,yn)},其中xi是p维的输入数据,yi对应的标签。要求通过“线性回归”方法来学得一个线性模型。
1) 请写出线性模型的的预测函数;
2) 请描述如何使用“最小二乘法”来进行参数估计,请写出主要公式推导;
解析:
https://blog.csdn.net/u011026329/article/details/79183114