缺失值的产生原因多种多样,主要分机械原因和人为原因。
机械原因是由机械导致的数据缺失,比如数据存储的失败、存储器损坏、机械故障导致某段时间的数据未能收集(对于定时数据采集而言)。
人为原因是由人的主观失误、历史局限或有意隐瞒造成的数据缺失。
当我们拿到一个数据集时,我们无法第一时间看出数据集中是否有缺失值,因此本次博客主要介绍7中方法来观察数据集中是否存在缺失值:
首先我们先导入需要的数据:
import numpy as np
import pandas as pd
import missingno as msno
data = {'v1': [2.5, 3, 0.5, np.nan, 5, np.nan, 4.5, np.nan, 7, 3],
'v2': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
'v3': [2, 2, 5, 2, np.nan, 3, np.nan, 1, 2, 1],
'v4': [3, 1, 3, 5, 2, 3, 5, 1, 2, 1],
'v5': [4, 4, np.nan, 3, 6, 3, 1, 1, 2, 8],
'v6': [5, 5, 2, 7, 2, 8,8, 1, 4, 7],
'v7': [6, 7, 6, 9, 2, 10, 9, 1, 3, 5],}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
data =pd.DataFrame(data,index = labels)
data
运行结果:
data.describe()
运行结果:
我们可以看到第一行count,这一行的每一个数据与其本列的总个数相减即为每一列的缺失值数量。
data.info()
运行结果:
上面的第二行的数据10即为每一列的总数,下面框起来的即每一列的非缺失值数量,二者相减即为每一列的缺失值数量
data.isnull().sum()
运行结果:
这种方法能够直观的观察出每一列的缺失值数量
msno.matrix(data)
运行结果:
这是一种将缺失值可视化的方法,可以看到顶上为数据集中的列,当每一列中有缺失值时就会出现白色的条纹,既可以直观的看到缺失值,也能观察其位置。
msno.bar(data)
运行结果:
这是将每一列的数画出柱状图,当一列的数据中出现缺失值时,就会比无缺失值要低,可以从上面直观的观察出来。
msno.heatmap(data)
运行结果:
观察数据,我们可以看出当一列有缺失值时就会用热力图表示出来,图中显示出来的是特征之间存在缺失的相关性。
msno.dendrogram(data)
运行结果:
这是一种快速画出一个树状图,通过树状图我们在图上画一条横线,此时我们能对列进行分类,可以看到当一列中有缺失值时,基本会单独一类,然后无缺失值的列分为一类,从而形象的观察出是否有缺失值。