优达(Udacity)_19.评估指标

2.评估指标(evaluation metrics)

(1)机器学习研究的是,如何根据数据进行预测。

(2)务必要将数据分为训练集以及测试集,目的是对得到独立的数据集并以此对模型进行良好的泛化。

(3)针对不同的模型,选择相关的指标,完成对模型的评估。之后将介绍常见的模型误差来源,以及如何正确分解数据集

3.分类和回归

(1)分类指,根据未见过的样本进行预测,并对未知的实例进行分类,离散数据,给定类别。

(2)回归指,根据连续的数据进行预测

(3)问题决定着如何评估模型

4.

分类指标:多久模型进行一次准确或者不准确的预测

准确率:正确标识的点/所有的点,不适用于大数量数据集中,仅有少量想要的数据时,以及需要准确预测结果时。

精确率:

召回率:特定类,

F分数:

回归指标:预测值与实际值的差如何

平均绝对误差:

均方误差:

9.混淆矩阵(confusion metrics)

优达(Udacity)_19.评估指标_第1张图片

24.F1分数为精确率和召回率的加权平均值:

(精确率*召回率)/(精确率+召回率)*2(0-1,越大越好)

sklearn.metrics.f1_score(y_truey_predlabels=Nonepos_label=1average=’binary’sample_weight=None)

26.平均绝对误差

sklearn.metrics.mean_absolute_error(y_truey_predsample_weight=Nonemultioutput=’uniform_average’)

27.均方误差

sklearn.metrics.mean_squared_error(y_truey_predsample_weight=Nonemultioutput=’uniform_average’)

28.回归分数函数

R2分数,可释方差分数


学习曲线

偏差

在训练误差和测试误差收敛并且相当高时,这实质上表示模型具有偏差。无论我们向其提供多少数据,模型都无法表示基本关系,因而出现系统性的高误差。

方差

如果训练误差与测试误差之间的差距很大,这实质上表示模型具有高方差。与偏差模型不同的是,如果有更多可供学习的数据,或者能简化表示数据的最重要特征的模型,则通常可以改进具有方差的模型。

理想曲线:收敛并且误差极低。

模型复杂度

与学习曲线图形不同,模型复杂度图形呈现的是模型复杂度如何改变训练曲线和测试曲线,而不是呈现用来训练模型的数据点数量。一般趋势是,随着模型增大,模型对固定的一组数据表现出更高的变化性。


References

http://charleshm.github.io/2016/03/Model-Performance/


burglar 盗贼

increment擅长,增额

asymmetry不对称的

你可能感兴趣的:(Udacity,machine,learning)