二、机器学习基础2

常用分类算法的优缺点

分类算法

优点

缺点

Bayes

贝叶斯分类法

1.所需估计参数少,对缺失数据不敏感

2.数学基础夯实,有稳定效率

1.属性相互独立

2.需先验概率

3.分类决策存在错误

Decision tree

决策树

1.不需任何知识

2.适合高维数据

3.简单易理解

4.速度快、效果好

5.可同时处理数据型与常规型属性

1.偏向于更多数据数值特征

2.易于过拟合

3.忽略属性相关性

4.不支持在线学习

SVM

支持向量机

1.解决小样本

2.提高泛化性

3.解决高维、非线性问题,尤其是超高维文本分类

4.避免神经网络结构选择与局部极小问题

1.对缺失数据敏感

2.内存消耗大

3.运行与调参麻烦

KNN

K邻近

1.思想简单、理论成熟,既能分类,又可回归

2.可用于非线性分类

3.训练时间复杂度

4.准确性高,无数据假设,对outlier不敏感

1.计算量太大

2.对样本分类不均衡,易误判

3.需大量内存

4.输出可解释性不强

Logistic Regression

逻辑回归

1.速度快

2.简单易理解,直接看出权重

3.易于更新,吸收新数据

4.可得到概率框架、动态调整分类阈值

特征不好处理,需归一化和其他操作

Neural Network

神经网络

1.准确率高

2.并行处理强

3.分布式储存、学习能力强

4.鲁棒性强,不易受噪声影响

1.需要大量参数

2.结果难解释

3.训练时间长

Adaboosting

1.有很高精度

2.提供的是框架,可用任何方法

3.结果易理解对弈简单分类器,弱分类器构造也简单

4.简单,不用筛选

5.不担心overfitting

对outlier敏感

正确率不是评估分类算法好坏的唯一标准。

分类算法评估

术语

1.True Positives(TP):正确划分成正例个数。(样本数)

2.False Positives(TP):错误划分成正例个数。

3.False Negatives(FN):错误划分成负例个数。

4.True Negatives(TN):正确划分成负例个数。

评价指标

1.正确率(accuracy)

accuracy=(TP+TN)/(P+N)

结果越高越好

2.错误率(error rate)

error rate=(FP+FN)/(P+N)

accuracy=1-error rate

3.灵敏度(sensitive)

sensitive=TP/P

衡量分类器对正例的识别能力

4.特效度(specificity)

specificity=TN/N

衡量分类器对负例的识别能力

5.精度(precision)

precision=TP/(TP+FP)

精确性的度量

6.召回率(recall)

recall=TP/(TP+FN)=TP/P=sensitive

覆盖面的度量

7.其他指标

计算速度:时间长短

鲁棒性:处理异常能力

可拓展性:处理大数据的能力

可解释性:预测标准的可理解性

8.查准率和查全率:分类性能指标

F1=2(percision*recall)/(percision+recall)

补充:微平均(micro-averaging)主要受稀有类别影响和宏平均(macro-averaging)主要受常见类别影响较大。

         ROC曲线和PR曲线

你可能感兴趣的:(深度学习,深度学习,机器学习,学习)