监督学习是机器学习中一种十分重要的算法。与无监督学习相比,监督学习有明确的目标。
分类与回归是监督学习两个主要任务。常见的算法如下:
1. 朴素贝叶斯(Naive Bayes Classifier)
朴素贝叶斯算法(NBC) 是应用最为广泛的分类算法之一。NBC假设了数据集属性之间是相互独立的,常用于文本分类。
2. 决策树(Decision Tree)
决策树算法采用树形结构,使用层层推理来实现最终的分类。
决策树通常由根节点、内部节点、叶节点三个元素构成,ID3、C4.5、CART是决策树常用的三种典型算法。
3. 支持向量机(SVM)
支持向量机把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类。
SVM可以解决高维问题,也能够解决小样本下机器学习问题。
4. 逻辑回归(Logistic Regression)
逻辑回归是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法,用来表示某件事情发生的可能性。
逻辑回归实现简单,分类时计算量非常小、速度很快、存储资源低,主要应用于工业问题上。
5. 线性回归(Linear Regression)
线性回归是处理回归任务最常用的算法之一。该算法的形式十分简单,它期望使用一个超平面拟合数据集(只有两个变量的时候就是一条直线)。
线性回归建模速度快,不需要很复杂的计算,在数据量大的情况下运行速度依然很快,同时可以根据系数给出每个变量的理解和解释。
逻辑回归与线性回归主要有以下不同点:
6. 回归树(Regression Tree)
回归树,顾名思义,就是用树模型做回归问题,每一片叶子都输出一个预测值。
回归树通过将数据集重复分割为不同的分支而实现分层学习,分割的标准是最大化每一次分离的信息增益。这种分支结构让回归树很自然地学习到非线性关系。
7. K邻近(K-Nearest Neighbor)
K邻近算法是最简单的机器学习算法。
该方法的思路是:在特征空间中,如果一个样本附近的K个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。
K邻近算法理论相对成熟,思想简单,既可以用来做分类也可以用来做回归。
8. AdaBoost
AdaBoost目的就是从训练数据中学习一系列的弱分类器或基本分类器,然后将这些弱分类器组合成一个强分类器。
AdaBoost有一个很突出的特点就是精度很高。
9. 神经网络
神经网络从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。
在人工智能领域,神经网络通常指人工神经网络,即ANNs。