知识篇——监督学习算法优缺点及应用场景概览

记录一波监督学习算法的应用场景和优缺点。

高斯朴素贝叶斯
- 场景：该模型常用于性别分类，即通过一些测量的特征，包括身高、体重、脚的尺寸，判定一个人是男性还是女性。
- 优点：这个模型的优势是处理连续数据，特别当数据是高斯分布时，有一个很好的表现。处理连续数据数值问题的另一种常用技术是通过离散化连续数值的方法。通常，当训练样本数量较少或者是精确的分布已知时，通过概率分布的方法是一种更好的选择。在大量样本的情形下离散化的方法表现最优，因为大量的样本可以学习到数据的分布。
- 缺点：由于高斯朴素贝叶斯使用的是概率分布估计的方法，不合适在大数据集上应用，因为容易出现欠拟合，在数据分布不准确时或数据样本很大时，表现很差。
决策树
- 场景：百度到一个相亲用决策树的应用，每个节点是一个评判标准，最后决定是否要嫁／娶。
- 优点：决策过程接近人的思维习惯，模型容易理解。
- **缺点：决策树学习方法的准确率不如其他模型，不支持在线学习，有新样本来的时候需要重建决策树，容易产生过拟合现象。（http://m.blog.csdn.net/article/details?id=47616255） **
KNN
- 场景：KNN的应用有分类未知案例的项目（摘自百度百科）。
- 优点：无需估计参数，简单，易于理解。特别适合于多分类问题(multi-modal,对象具有多个类别标签)， KNN比SVM的表现要好（svm更适合二分类）。
- 缺点：当有偏斜类的情况下，由于算法只计算最近的k个样本，假设小样本总数小于k／2，即使都很近，也会分错。该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。
集成学习之AdaBoost
- 场景：人脸检测，AdaBoost以弱学习器作为基分类器，并且输入数据，使其通过权重向量进行加权，第一次迭代时所有数据等权重，在后续迭代中，前次迭代分错的数据权重会增大。
- 优点：它有错误调节能力，分类精度高；在Adaboost的框架下可以使用各种回归分类模型来构建弱学习器，非常灵活；作为简单的二元分类器时，构造简单，结果可理解；不容易发生过拟合。
- 缺点：对异常样本敏感，异常样本在迭代中可能会获得较高的权重，影响最终的强学习器的预测准确性。
SVM
- 场景：进行文本的分类
- 优点：在解决小样本、非线性以及高维模式识别中表现出许多特有的优势，对于非线性的分类问题，可以通过核函数把原来低维的空间中线性不可分的问题映射到高维，变成线性可分的问题进而得以解决。同样，也可以采用SMO的方式，将分解的思维推向极致，用SVM来处理多分类的问题。
- 缺点：在处理数据上面的时间较慢，复杂度较高，在处理多分类的问题上面存在着不足，还需要在二分类的基础上自己构造多分类相关的算法，代价比较大。
随机梯度下降分类器 (SGDC)
- 场景：图片分类。
- 优点：普通的梯度下降算法在更新回归系数时要遍历整个数据集，是一种批处理方法，这样训练数据特别忙庞大时，可能出现收敛过程可能非常慢、不能保证找到全局最小值这样的问题。而随机梯度下降分类器能够更好地处理上述问题，更能避免进入局部极小值中。SGDC处理大规模问题表现比较好。
- 缺点：不太适合用于高精度问题，当处理高精度问题时它的表现很差。
Logistic回归
- 场景：主要用于危险因素探索（摘自百度百科）
- 优点：分类时计算量非常小，速度很快，易于理解和实现。他是一个单调上升的函数，具有良好的连续性，不存在不连续点
- 缺点：当特征空间很大时，逻辑回归的性能不是很好；容易欠拟合，一般准确度不太高；不能很好地处理大量多类特征或变量；对于非线性特征，需要进行转换；只能处理两分类问题（在此基础上衍生出来的softmax可以用于多分类），且必须线性可分；

以上内容来自822实验室2017年5月21日19:30第四次知识分享活动：捐赠者寻找
我们的822，我们的青春
欢迎所有热爱知识热爱生活的朋友和822实验室一起成长，吃喝玩乐，享受知识。

知识篇——监督学习算法优缺点及应用场景概览

你可能感兴趣的:(知识篇——监督学习算法优缺点及应用场景概览)