什么是判别式模型?什么是生成式模型?

判别方法:由数据直接学习决策函数Y = f(X),或者由条件分布概率P(Y|X)作为预测模型的为判别模型。常见的判别模型有:线性回归、boosting、SVM、决策树、感知机、线性判别分析(LDA)、逻辑斯特回归等算法。

生成方法:由数据学习x和y的联合概率密度分布函数P(Y,X),然后通过贝叶斯公式求出条件概率分布P(Y|X)作为预测的模型为生成模型。常见的生成模型有朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题生成模型(LDA)等。

回归问题常用的性能度量指标:

均方误差:

MSE = \frac{1}{n}\sum_{i=0}^{n}(f(x_{i})-y_{i})^{2}

均方根误差:

RMSE = \sqrt{MSE} = \sqrt{ \frac{1}{n}\sum_{i=0}^{n}(f(x_{i})-y_{i})^{2}}

和方误差:

SSE =\sum_{i=0}^{n}(f(x_{i})-y_{i})^{2}

平均绝对误差:

MSE = \frac{1}{n}\sum_{i=0}^{n}\left |f(x_{i})-y_{i} \right |

平均绝对百分比误差:

MSE = \frac{1}{n}\sum_{i=0}^{n}\frac{\left |f(x_{i})-y_{i} \right |}{y_{i}}

平均平方百分比误差:

MSE = \frac{1}{n}\sum_{i=0}^{n}\left (\frac{\left |f(x_{i})-y_{i} \right |}{y_{i}} \right )^{2}

决定系数:

R^{2} = 1-\frac{SSE}{SST},其中SST = \sum_{i=0}^{n}(y_{i}-\bar{y})^{2}

分类问题常用的性能度量指标:

  预测为真 预测为假
正样本 TP(真正例) FN(假负例)
负样本 FP(假正例) TN(真负例)

精确率 Precision = \frac{TP}{TP+FP}

召回率 Recall = \frac{TP}{TP+FN}

正确率(准确率) Accuracy = \frac{(TP+TN)}{P+N},被分对的样本数除以所有样本数。

错误率 Error = 1 - Accuracy

真正例率:正例被判断为正例的概率,TPR = \frac{TP}{TP+FN}

假正例率:负例被判断为正例的概率,FPR = \frac{FP}{FP+TN}

精确率又称查准率,适用于对准确率要求高的应用;召回率又称查全率,适用于检测信贷风险信息、逃犯信息等。由于精确率和召回率是一对矛盾的度量,所以需要找一个平衡点,F_{1}是精确率与召回率的调和平均值:

\frac{1}{F_{1}} = \frac{1}{2}*\frac{1}{P}+\frac{1}{2}*\frac{1}{R}

ROC曲线:中文名叫做受试者工作特征曲线。

什么是判别式模型?什么是生成式模型?_第1张图片

ROC曲线的主要意义是方便观察阈值对学习器的泛化性能影响,所以有助于选择最佳的阈值。ROC曲线越靠近左上角,模型的查全率就越高。最靠近左上角的ROC曲线上的点时分类错误最少的最好阈值,其假正例和假反例总数最少。

你可能感兴趣的:(算法)