常见机器学习优点和缺点

1、朴素贝叶斯:生成式模型

优点:

发源于古典数学理论,有坚实的数学基础,以及稳定的分类效率

速度较快,对特征概率的运算

小规模数据表现很好,能处理多分类任务

对缺失值不敏感,算法简单,常用于文本分类

对结果解释容易理解

缺点:

需要计算先验概率

对输入数据的表达形式很敏感

由于使用了样本属性相互独立的假设,故如果样本属性有关联时效果不好

应用:

文本分类;人脸识别

2、逻辑回归:判别式模型

优点:

实现简单,广泛的应用于工业问题上

计算量非常小,速度快,存储资源低

便利的观测样本概率分数

多重线性并不是问题,可结合L2正则化来解决问题

易于理解和实现

缺点:

容易欠拟合,一般准确度不高

处理大量多类特征或变量效果不好

只能处理二分类问题,必须线性可分

对于非线性,需要进行转换

应用:

用于二分类领域,得出概率值

预测某天是否会发生地震

3、线性回归

优点:

实现简单,计算简单

缺点:

不能拟合非线性数据

4、KNN

过程:

计算训练样本和测试样本中每个样本点距离,对上面所有距离进行排序,选取前k个最小距离的样本,根据这k个样本的标签进行投票,得到最后的样本的分类类别。

优点:

理论成熟,思想简单,既可以做分类也可以用来做回归

可用于非线性分类

训练复杂度为O(n)

对数据无假设,准确率高,对噪声点不敏感

在线技术,数据可直接加入,不必重新训练

缺点:

样本不平衡问题效果差,预测偏差大

样本容量大的数据集计算量较大

每次分类需重新一次全局运算

k值需结合k-折交叉验证选取

应用:

文本分类、多分类

5、决策树

优点:

易于理解和解释,可以可视化分析,容易提取出规则

可以同时处理标称型和数值型数据

比较适合处理缺失属性的样本

能处理不想管的特征

运行速度较快

缺点:

容易发生过拟合

容易忽视数据集中属性的相互关联

各类别样本数量不一致时,不同的判定规则会带来不同的属性选择倾向

ID3计算信息增益时结果偏向数值较多的特征

改进:对决策树进行剪枝

应用:投资决策

5.1、ID3:以信息熵和信息增益度为衡量标准,实现对数据的归纳分类

C4.5改进:用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足,在树构造时进行剪枝,能处理不完整数据

CART分类与回归树:基于最小距离的基尼指数估计函数

6、Adaboosting

一种加加模型,每个模型都是基于上次模型的错误率来建立的,关注错误率高的样本,逐次迭代,获得相对较好的模型

优点:

很高精度的分类器

可使用各种方法构建分类器,Adaboosting算法提供的是框架

不用做特征筛选

不易发生过拟合

性比较bagging和rf,ada考虑每个分类器的权重

缺点:

对噪声点比较敏感

弱分类器数目不好设定,可使用交叉验证来确定

数据不平衡导致分类精度下降

7、支持向量机

优点:

可解决高维问题

可处理非线性特征的相互作用

泛化能力强

缺点:

样本量大时,效率不高

对非线性问题很难找到一个合适的核函数

对于核函数的高维映射解释能力不强

常规SVM只支持二分类

对缺失值敏感

核函数选取:样本量小于特征数,简单线性核,或者降维后使用线性核

样本量大于特征数目,非线性核

应用:文本,图像识别(二分类)

8、人工神经网络:

优点:

分类准确度高

并行分布处理强,学习能力强

对噪声神经有较强的鲁棒性和容错能力

处理复杂的非线性关系效果好

缺点:

需要设置大量的参数

黑盒过程,不能观察学习过程,结果难以解释

学习时间过长,可能会陷入局部最小值

应用:

计算机视觉,自然语言处理,语言识别等

9、K-means聚类

优点:

算法简单,易于实现

算法速度快

当数据是凸状,球形时,聚类效果好

缺点:

对数据要求高,适合数值型数据

可能收敛局部最小值,大规模数据上收敛较慢

初始质心和k值选取不同,聚类效果不同

不适合非凸数据

对噪声点和独立点敏感

你可能感兴趣的:(机器学习,数据分析)