天池比赛数据挖掘心电图赛题理解与提交一个简单的结果

天池数据挖掘心电图比赛理解

数据下载地址——>点这里下载

关于赛题

赛题以心电图心跳信号数据为背景,要求选手根据心电图感应数据预测心跳信号所属类别,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。通过这道赛题来引导大家了解医疗大数据的应用,帮助竞赛新人进行自我练习、自我提高。

比赛地址——>https://tianchi.aliyun.com/competition/entrance/531883/introduction

一、赛题理解

观察数据集的样式:
train.csv
天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第1张图片
testA.csv天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第2张图片

字段表:

Field Description
id 为心跳信号分配的唯一标识
heartbeat_signals 心跳序号序列
label 心跳信号类别(0,1,2,3

评测标准:

选手需提交4种不同心跳信号预测的概率,选手提交结果与实际心跳类型结果进行对比,求预测的概率与真实值差值的绝对值。

具体计算公式如下:

总共有n个病例,针对某一个信号,若真实值为[y1,y2,y3,y4],模型预测概率值为[a1,a2,a3,a4],那么该模型的评价指标abs-sum为
a b s − s u m = ∑ j = 1 n ∑ i = 1 4 ∣ y i − a i ∣ {abs-sum={\mathop{ \sum }\limits_{{j=1}}^{{n}}{{\mathop{ \sum }\limits_{{i=1}}^{{4}}{{ \left| {y\mathop{{}}\nolimits_{{i}}-a\mathop{{}}\nolimits_{{i}}} \right| }}}}}} abssum=j=1ni=14yiai
例如,某心跳信号类别为1,通过编码转成[0,1,0,0],预测不同心跳信号概率为[0.1,0.7,0.1,0.1],那么这个信号预测结果的abs-sum为
a b s − s u m = ∣ 0.1 − 0 ∣ + ∣ 0.7 − 1 ∣ + ∣ 0.1 − 0 ∣ + ∣ 0.1 − 0 ∣ = 0.6 {abs-sum={ \left| {0.1-0} \right| }+{ \left| {0.7-1} \right| }+{ \left| {0.1-0} \right| }+{ \left| {0.1-0} \right| }=0.6} abssum=0.10+0.71+0.10+0.10=0.6

二、多分类常见的评测指标

其实多分类的评价指标的计算方式与二分类完全一样,只不过我们计算的是针对于每一类来说的召回率、精确度、准确率和 F1分数。

1、混淆矩阵(Confuse Matrix)

  • (1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )
  • (2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )
  • (3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )
  • (4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )

第一个字母T/F,表示预测的正确与否;第二个字母P/N,表示预测的结果为正例或者负例。如TP就表示预测对了,预测的结果是正例,那它的意思就是把正例预测为了正例。

2.准确率(Accuracy)
准确率是常用的一个评价指标,但是不适合样本不均衡的情况,医疗数据大部分都是样本不均衡数据。
A c c u r a c y = C o r r e c t T o t a l A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{Correct}{Total}\\ Accuracy = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=TotalCorrectAccuracy=TP+TN+FP+FNTP+TN
3、精确率(Precision)也叫查准率简写为P

精确率(Precision)是针对预测结果而言的,其含义是在被所有预测为正的样本中实际为正样本的概率在被所有预测为正的样本中实际为正样本的概率,精确率和准确率看上去有些类似,但是是两个完全不同的概念。精确率代表对正样本结果中的预测准确程度,准确率则代表整体的预测准确程度,包括正样本和负样本。
P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP + FP} Precision=TP+FPTP
4.召回率(Recall) 也叫查全率 简写为R

召回率(Recall)是针对原样本而言的,其含义是在实际为正的样本中被预测为正样本的概率
R e c a l l = T P T P + F N Recall = \frac{TP}{TP + FN} Recall=TP+FNTP

下面我们通过一个简单例子来看看精确率和召回率。假设一共有10篇文章,里面4篇是你要找的。根据你的算法模型,你找到了5篇,但实际上在这5篇之中,只有3篇是你真正要找的。

那么算法的精确率是3/5=60%,也就是你找的这5篇,有3篇是真正对的。算法的召回率是3/4=75%,也就是需要找的4篇文章,你找到了其中三篇。以精确率还是以召回率作为评价指标,需要根据具体问题而定。

5.宏查准率(macro-P)

计算每个样本的精确率然后求平均值
m a c r o P = 1 n ∑ 1 n p i {macroP=\frac{{1}}{{n}}{\mathop{ \sum }\limits_{{1}}^{{n}}{p\mathop{{}}\nolimits_{{i}}}}} macroP=n11npi
6.宏查全率(macro-R)

计算每个样本的召回率然后求平均值
m a c r o R = 1 n ∑ 1 n R i {macroR=\frac{{1}}{{n}}{\mathop{ \sum }\limits_{{1}}^{{n}}{R\mathop{{}}\nolimits_{{i}}}}} macroR=n11nRi
7.宏F1(macro-F1)
m a c r o F 1 = 2 × m a c r o P × m a c r o R m a c r o P + m a c r o R {macroF1=\frac{{2 \times macroP \times macroR}}{{macroP+macroR}}} macroF1=macroP+macroR2×macroP×macroR
与上面的宏不同,微查准查全,先将多个混淆矩阵的TP,FP,TN,FN对应位置求平均,然后按照P和R的公式求得micro-P和micro-R,最后根据micro-P和micro-R求得micro-F1

8.微查准率(micro-P)
m i c r o P = T P ‾ T P ‾ × F P ‾ {microP=\frac{{\overline{TP}}}{{\overline{TP} \times \overline{FP}}}} microP=TP×FPTP
9.微查全率(micro-R)
m i c r o R = T P ‾ T P ‾ × F N ‾ {microR=\frac{{\overline{TP}}}{{\overline{TP} \times \overline{FN}}}} microR=TP×FNTP
10.微F1(micro-F1)
m i c r o F 1 = 2 × m i c r o P × m i c r o R m i c r o P + m i c r o R {microF1=\frac{{2 \times microP\times microR }}{{microP+microR}}} microF1=microP+microR2×microP×microR

三、求评测指标

导入库:

import pandas as pd
import numpy as np

导入数据:

train_data = pd.read_csv("train.csv")
test_data = pd.read_csv("testA.csv")

查看维度:

train_data.shape
test_data.shape

天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第3张图片
多分类评估指标的计算

导入所需库

from sklearn.metrics import accuracy_score,precision_score,recall_score
from sklearn.metrics import f1_score
y_true = [1,1,1,1,1,2,2,2,2,3,3,3,4,4,5,5,6,6,6,0,0,0,0]#真实值
y_pred = [1,1,1,3,3,2,2,3,3,3,4,3,4,3,5,1,3,6,6,1,1,0,6]#预测值

准确率

accuracy_score(y_true,y_pred)

在这里插入图片描述
精确率

#macro_precision
precision_score(y_true,y_pred,average='macro')
#micro_precision
precision_score(y_true,y_pred,average='micro')

天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第4张图片
召回率

#macro_recall
recall_score(y_true,y_pred,average='macro')
#micrp_recall
recall_score(y_true,y_pred,average='micro')

天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第5张图片
F1

#macro_f1
f1_score(y_true,y_pred,average='macro')
#micro_f1
f1_score(y_true,y_pred,average='micro')

天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第6张图片
定义一个abs_sum函数

def abs_sum(y_pre,y_tru):
    #y_pre为预测概率矩阵
    #y_tru为真实类别矩阵
    y_pre = np.array(y_pre)
    y_tru = np.array(y_tru)
    
    loss = sum(sum(abs(y_pre-y_tru)))
    
    return loss

求出将预测概率矩阵和真实概率矩阵带入abs函数的值

y_pre=[[0.1,0.1,0.7,0.1],[0.1,0.1,0.7,0.1]]
y_tru=[[0,0,1,0],[0,0,1,0]]
print(abs_sum(y_pre,y_tru))

天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第7张图片

提交第一个submit

1.导入所需要的包

import os
import gc # 模块收集循环引用垃圾
import math
import pandas as pd
import numpy as np
import lightgbm as lgb  #boosting集合模型
import xgboost as xgb  #极端梯度提升算法
from catboost import CatBoostRegressor  #解决分类和回归问题的算法
from sklearn.linear_model import SGDRegressor, LinearRegression, Ridge   #梯度下降,线性回归,岭回归
from sklearn.preprocessing import MinMaxScaler   # 归一化
from sklearn.model_selection import StratifiedKFold, KFold   #分层抽样,交叉验证
from sklearn.metrics import log_loss   #损失函数
from sklearn.model_selection import train_test_split   #划分训练集和测试集
from sklearn.preprocessing import OneHotEncoder   #独热编码
from tqdm import tqdm   #进度条
import matplotlib.pyplot as plt  #画图
import time  #时间
import warnings  
warnings.filterwarnings('ignore')  # 通过警告过滤器进行控制是否发出警告消息

2.读取数据

train = pd.read_csv('train.csv')
test=pd.read_csv('testA.csv')
train.head()
test.head()

天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第8张图片

3.数据预处理

def reduce_mem_usage(df):
    start_mem = df.memory_usage().sum() / 1024**2 
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))
    
    for col in df.columns:
        col_type = df[col].dtype
        
        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:
            df[col] = df[col].astype('category')

    end_mem = df.memory_usage().sum() / 1024**2 
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))
    
    return df
# 简单预处理
train_list = []

for items in train.values:
    train_list.append([items[0]] + [float(i) for i in items[1].split(',')] + [items[2]])

train = pd.DataFrame(np.array(train_list))
train.columns = ['id'] + ['s_'+str(i) for i in range(len(train_list[0])-2)] + ['label']
train = reduce_mem_usage(train)

test_list=[]
for items in test.values:
    test_list.append([items[0]] + [float(i) for i in items[1].split(',')])

test = pd.DataFrame(np.array(test_list))
test.columns = ['id'] + ['s_'+str(i) for i in range(len(test_list[0])-1)]
test = reduce_mem_usage(test)

天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第9张图片

4.训练数据/测试数据准备

x_train = train.drop(['id','label'], axis=1)
y_train = train['label']
x_test=test.drop(['id'], axis=1)

5.模型训练

def abs_sum(y_pre,y_tru):
    y_pre=np.array(y_pre)
    y_tru=np.array(y_tru)
    loss=sum(sum(abs(y_pre-y_tru)))
    return loss
def cv_model(clf, train_x, train_y, test_x, clf_name):
    folds = 5
    seed = 2021
    kf = KFold(n_splits=folds, shuffle=True, random_state=seed)
    test = np.zeros((test_x.shape[0],4))

    cv_scores = []
    onehot_encoder = OneHotEncoder(sparse=False)
    for i, (train_index, valid_index) in enumerate(kf.split(train_x, train_y)):
        print('************************************ {} ************************************'.format(str(i+1)))
        trn_x, trn_y, val_x, val_y = train_x.iloc[train_index], train_y[train_index], train_x.iloc[valid_index], train_y[valid_index]
        
        if clf_name == "lgb":
            train_matrix = clf.Dataset(trn_x, label=trn_y)
            valid_matrix = clf.Dataset(val_x, label=val_y)

            params = {
                'boosting_type': 'gbdt',
                'objective': 'multiclass',
                'num_class': 4,
                'num_leaves': 2 ** 5,
                'feature_fraction': 0.8,
                'bagging_fraction': 0.8,
                'bagging_freq': 4,
                'learning_rate': 0.1,
                'seed': seed,
                'nthread': 28,
                'n_jobs':24,
                'verbose': -1,
            }

            model = clf.train(params, 
                      train_set=train_matrix, 
                      valid_sets=valid_matrix, 
                      num_boost_round=2000, 
                      verbose_eval=100, 
                      early_stopping_rounds=200)
            val_pred = model.predict(val_x, num_iteration=model.best_iteration)
            test_pred = model.predict(test_x, num_iteration=model.best_iteration) 
            
        val_y=np.array(val_y).reshape(-1, 1)
        val_y = onehot_encoder.fit_transform(val_y)
        print('预测的概率矩阵为:')
        print(test_pred)
        test += test_pred
        score=abs_sum(val_y, val_pred)
        cv_scores.append(score)
        print(cv_scores)
    print("%s_scotrainre_list:" % clf_name, cv_scores)
    print("%s_score_mean:" % clf_name, np.mean(cv_scores))
    print("%s_score_std:" % clf_name, np.std(cv_scores))
    test=test/kf.n_splits

    return test
def lgb_model(x_train, y_train, x_test):
    lgb_test = cv_model(lgb, x_train, y_train, x_test, "lgb")
    return lgb_test
lgb_test = lgb_model(x_train, y_train, x_test)

天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第10张图片
天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第11张图片

lgb_test

天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第12张图片

6.预测结果与保存

temp=pd.DataFrame(lgb_test)
temp
result=pd.read_csv('sample_submit.csv')
result['label_0']=temp[0]
result['label_1']=temp[1]
result['label_2']=temp[2]
result['label_3']=temp[3]
result.to_csv('submit.csv',index=False)

天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第13张图片
结果类型:
天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第14张图片

7.将该文件进行天池比赛提交

天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第15张图片

天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第16张图片
天池比赛数据挖掘心电图赛题理解与提交一个简单的结果_第17张图片

仅供学习!!!
参考:https://www.zhihu.com/people/muxiaoxiong

你可能感兴趣的:(数据挖掘比赛,python,机器学习,深度学习,算法,数据挖掘)