Datawhale 零基础入门心电图心跳信号多分类预测挑战赛-Task 2 EDA

Task 2 数据分析(EDA-数据探索性分析)

  • 简略观察数据(head().append(tail())首尾数据 + shape)

  • 数据总览:describe() 熟悉数据的相关统计量 + info() 熟悉数据类型

  • 判断数据缺失和异常:

    ​ 缺失值:data.isnull().sum()——查看每列的存在nan情况

    ​ 异常值检测(转换为nan/按照某种规律进行填充)

  • 了解预测值的分布

    (如果是分类问题,value_counts()可以观察不同标签的数量情况)

    • 统计(scipy.stats)

    • Seaborn是基于matplotlib的Python可视化库。 但应强调的是,应该把Seaborn视为matplotlib的补充,而不是替****代物。

      它提供了一个高级界面来绘制有吸引力的统计图形。Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,不需经过大量的调整就能使你的图变精致。

    ​ displot()集合了matplotlib的hist()与核函数估计kdeplot的功能,增加了rugplot分布观测条显示与利用scipy库fit拟合参数分布的新颖用途。

    ​ 通过histkde参数调节是否显示直方图及核密度估计(默认hist,kde均为True)

    fit:控制拟合的参数分布图形,能够直观地评估它与观察数据的对应关系(黑色线条为确定的分布)

    ​ fit=norm 拟合标准正态分布

    ​ bins修改箱子个数

    核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。通过核密度估计图可以比较直观的看出数据样本本身的分布特征。

    rag:控制是否生成观测数值的小细条

    总体分布概况

    查看skewness & kurtosis (偏度/峰值)

    查看预测值的具体频数

你可能感兴趣的:(时序)