task2 探索性数据分析(EDA)

对数据标签进行统计,发现样本不均衡问题。可能采取降采样或者过采样方式来解决该问题。

进行了特征相关性分析,取与标签相关性大于0.5的特征做热力图。发现单个属性与标签关联性不大。

代码:

threshold=0.5

corrmat=train.corr()

top_corr_features=corrmat.index[abs(corrmat['label'])>threshold]

plt.figure(figsize=(10,10))

g=sns.heatmap(train[top_corr_features].corr(),annot=True,cmap="RdYlGn")

热力图如下:


对当行数据的折线图进行分析:

当标签为0时:


标签为1时:


标签为2时:


标签为3时:


你可能感兴趣的:(task2 探索性数据分析(EDA))