一、使用scikit-learn构建模型
1.加载datasets模块中数据集
二、构建并评估聚类模型
1.使用sklearn估计器构建聚类模型
2.评价聚类模型
轮廓系数法不能数据较大,会报错,计算量太大,无法在电脑上运行,可改用指数评价法
三、构建并评估分类模型
1.使用sklearn估计器构建分类模型
2.评价分类模型TP(True Positives)意思就是被分为了正样本,而且分对了。
TN(True Negatives)意思就是被分为了负样本,而且分对了,
FP(False Positives)意思就是事实上这个样本是负样本,但是你当成正的了。(误报)
FN(False Negatives)意思就是事实上这个样本是正样本,但是你没识别出来。(漏报)
precision(精确度)
Precision=TP/(TP+FP)
precision可以理解为“模型认为正确且确实是正确的样本占模型认为正确的所有样本的概率”
recall(召回率)
Recall=TP/(TP+FN)
recall可以理解为“模型认为是正确且确实是真确的样本占所有正确的样本的概率”
F1值
用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。F1分数可以看作是模型准确率和召回率的一种加权平均,它的最大值是1,最小值是0。
tpr:根据不同阈值得到一组tpr值。
fpr:根据不同阈值的到一组fpr值,与tpr一一对应。(这两个值就是绘制ROC曲线的关键)