数据挖掘-第一次参加天池比赛

零基础入门数据挖掘 - 二手车交易价格预测-赛题理解
一、赛题理解
1.对于数据的列进行必要的理解,确定一些现实意义,对于匿名的列进行单独的处理
2.预测指标
一般来说分类和回归问题的评价指标有如下一些形式:

分类算法常见的评估指标如下:
对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。
对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。
对于回归预测类常见的评估指标如下:
平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(R-Square)
本次是回归问题所以介绍一下常见的几种评估指标:
平均绝对误差(Mean Absolute Error,MAE):平均绝对误差,其能更好地反映预测值与真实值误差的实际情况,其计算公式如下:
数据挖掘-第一次参加天池比赛_第1张图片
均方误差(Mean Squared Error,MSE),均方误差,其计算公式为:
在这里插入图片描述
数据挖掘-第一次参加天池比赛_第2张图片
在这里插入图片描述


分类指标的sklearn代码


accuracy

import numpy as np
from sklearn.metrics import accuracy_score
y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 1]
print(‘ACC:’,accuracy_score(y_true, y_pred))

Precision,Recall,F1-score

from sklearn import metrics
y_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]
print(‘Precision’,metrics.precision_score(y_true, y_pred))
print(‘Recall’,metrics.recall_score(y_true, y_pred))
print(‘F1-score:’,metrics.f1_score(y_true, y_pred))

AUC

import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
print(‘AUC socre:’,roc_auc_score(y_true, y_scores))

回归指标的sklearn代码

coding=utf-8

import numpy as np
from sklearn import metrics

MAPE需要自己实现

def mape(y_true, y_pred):
return np.mean(np.abs((y_pred - y_true) / y_true))

y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])
y_pred = np.array([1.0, 4.5, 3.8, 3.2, 3.0, 4.8, -2.2])

MSE

print(‘MSE:’,metrics.mean_squared_error(y_true, y_pred))

RMSE

print(‘RMSE:’,np.sqrt(metrics.mean_squared_error(y_true, y_pred)))

MAE

print(‘MAE:’,metrics.mean_absolute_error(y_true, y_pred))

MAPE

print(‘MAPE:’,mape(y_true, y_pred))

R2-score

from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(‘R2-score:’,r2_score(y_true, y_pred))

你可能感兴趣的:(天池竞赛)