1.机器学习基础概念

数据集的分类: 

1.机器学习基础概念_第1张图片

学习方式:监督学习、无监督学习、半监督学习 

监督学习 

        监督学习就是最常见的分类(注意和聚类区分)问题,通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优表示某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。

        监督学习是训练神经网络和决策树的常见技术。这两种技术高度依赖事先确定的分类系统给出的信息,对于神经网络,分类系统利用信息判断网络的错误,然后不断调整网络参数。对于决策树,分类系统用它来判断哪些属性提供了最多的信息。

        常见的有监督学习算法:回归分析和统计分类。最典型的算法是KNN和SVM

这里顺便区别一下什么是回归问题,什么事分类问题:

    回归问题和分类问题都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。 
    分类问题:给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1),是一种定性输出,也叫离散变量预测; 
    回归问题:给定一个新的模式,根据训练集推断它所对应的输出值(实数)是多少,是一种定量输出,也叫连续变量预测。

    举个例子:预测明天的气温是多少度,这是一个回归任务;预测明天是阴、晴还是雨,就是一个分类任务。

无监督学习(unsupervised learning) 

进行无监督学习时,输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。有监督学习和无监督学习的最大区别在于数据是否有标签 。

  无监督学习最常应用的场景是聚类(clustering)降维(DimensionReduction)

  聚类(clustering):就是根据数据的“相似性”将数据分为多类的过程。评估两个不同样本之间的“相似性” ,通常使用的方法就是计算两个样本之间的“距离”。

半监督学习

1.机器学习基础概念_第2张图片

你可能感兴趣的:(机器学习与人工智能)