最近在学天池大赛里那个工业蒸汽量预测的案例,在数据探索的时候,想看看训练集和测试集变量分布是不是一致。画了所有变量的KDE图,但不知道为啥成下边这样,全重叠了
用的代码如下(就是案例书上的):
dist_cols=6
dist_rows=len(test_data.columns)
plt.figure(figsize=(4*dist_cols,4*dist_rows))
i=1
for col in test_data.columns:
ax=plt.subplot(dist_rows,dist_cols,i)
ax=sns.kdeplot(train_data[col],color='red',fill=True)
ax=sns.kdeplot(test_data[col],color='blue',fill=True)
ax.set_xlabel(col)
ax.set_ylabel('Frequency')
ax=ax.legend(['train','test'])
i+=1
plt.show()
请大佬帮帮忙~