机器学习中常见算法的优缺点之 ID3、C4.5算法和Adaboosting

机器学习中常见算法的优缺点之 ID3、C4.5算法和Adaboosting_第1张图片
大家都知道,机器学习中有很多算法,比如说决策树,随机森林,线性回归等等,其实这些算法都是有很多优点,同时也是有很多的缺点。我们在这篇文章中给大家介绍一下ID3、C4.5算法、CART分类与回归树和Adaboosting算法的优缺点,希望这篇文章能够更好的帮助大家理解机器学习。

首先我们给大家介绍一下ID3、C4.5算法,其实ID3算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。C4.5算法核心思想是ID3算法,是ID3算法的改进,改进方面有四方面,第一就是用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。第二就是在树构造过程中进行剪枝。第三就是能处理非离散的数据。第四就是能处理不完整的数据。

那么这种算法的优点是什么呢?优点很明显,那就是产生的分类规则易于理解,准确率较高。而缺点就是在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。同时C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

那么什么是CART分类与回归树呢?其实这两种算法就是一种决策树分类方法,采用基于最小距离的基尼指数估计函数,用来决定由该子数据集生成的决策树的拓展形。如果目标变量是标称的,称为分类树;如果目标变量是连续的,称为回归树。分类树是使用树结构算法将数据分成离散类的方法。

这种算法的优点体现在两方面,第一就是这种算法非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树。第二就是在面对诸如存在缺失值、变量数多等问题时CART显得非常稳健。

最后我们给大家介绍一下Adaboosting ,其实Adaboost是一种加和模型,每个模型都是基于上一次模型的错误率来建立的,过分关注分错的样本,而对正确分类的样本减少关注度,逐次迭代之后,可以得到一个相对较好的模型。该算法是一种典型的boosting算法,其加和理论的优势可以使用Hoeffding不等式得以解释。而这种算法的优点就是具有很高精度的特性。这种算法可以使用各种方法构建子分类器,Adaboost算法提供的是框架。同时,当使用简单分类器时,计算出的结果是可以理解的,并且弱分类器的构造极其简单。而简单也是其中一个特点,不用做特征筛选。最后就是不易发生overfitting。而缺点只有一个,那就是对outlier比较敏感。

在这篇文章中我们给大家介绍了关于机器学习算法的优缺点,具体就是ID3、C4.5算法、CART分类与回归树和Adaboosting算法,其实这些算法都是十分实用的,所以说我们在学习机器学习的时候一定不要忽视这些算法的学习。

你可能感兴趣的:(机器学习)