机器学习笔记总结(1)

监督学习(superviewed learning):

给出数据集以及标准答案,进行训练来预测将来给出的的数据的答案归属。

例如:

就是高考前所做的练习题是有标准答案的。在学习的过程中,我们可以通过对照答案,来分析问题找出方法,下一次在面对没有答案的问题时,往往也可以正确地解决。 
对于机器学习来说,监督学习就是训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。

                                                                  机器学习笔记总结(1)_第1张图片

       通常分为:分类和回归

分类:定性输出称为分类,或者说是离散变量预测。【输入变量与输出变量均为连续变量的预测问题是回归问题。    摘自:李航《统计学习方法》p4】

回归:定量输出称为回归,或者说是连续变量预测;【输出变量为有限个离散变量的预测问题成为分类问题。  摘自:李航《统计学习方法》p4】

举个栗子:

                 预测明天的气温是多少度,这是一个回归问题;
                 预测明天是阴、晴还是雨,就是一个分类问题。

无监督学习(superviewed learning):      

给出数据集未给出标准答案,让其自己进行判断出数据结构,并进一步得到数据模型,用于判断新给的数据归属。 

例如:

高中做练习题的例子,就是所做的练习题没有标准答案,换句话说,你也不知道自己做的是否正确,没有参照,想想就觉得是一件很难的事情。 
但是就算不知道答案,我们还是可以大致的将语文,数学,英语这些题目分开,因为这些问题内在还是具有一定的联系。 
这种问题在机器学习领域中就被称作聚类(Clustering),相对于监督学习,无监督学习显然难度要更大,在只有特征没有标签的训练数据集中,通过数据之间的内在联系和相似性将他们分成若干类。

一般是聚类问题:

 

对于聚类在实际的应用中亦是非常广泛的,如:市场细分(Market segmentation)、社交圈分析(social network analysis)、集群计算(organize computing clusters)、天体数据分析(astronomical data analysis)
                      机器学习笔记总结(1)_第2张图片

未做处理的数据:

                                                         机器学习笔记总结(1)_第3张图片

 

K-means将其分成两簇:

                                                       机器学习笔记总结(1)_第4张图片

你可能感兴趣的:(机器学习)