1.直接删除:若数据集中某行出现缺失值,最简单的方法就是将存在缺失值的行或列直接从数据集中删除;
方法可行性:不好,如果你删除的某特征或某行数据是非常重要的一组数据呢?怎么判断某特征是对于模型以及数据集来说是一个非常重要的特征呢?
研究特征与标签的相关系数,相关系数的值越高,就说明当前特征对模型建模预测标签值的准确率的影响就越大
是否采用直接删除来处理缺失值,需要视情况来定;一般情况下,当某特征出现缺失值的比例占据总样本数超过50%及其以上,则认定当前特征对模型建立没有较大意义,则直接删除;
2.缺失值的填充:当某特征出现了缺失值,且缺失值占比没有达到50%以上,则当前特征不能直接删除,应该想办法将缺失值填补上;
# 导包
import numpy as np
import pandas as pd
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
# 忽略警告
import warnings
warnings.filterwarnings("ignore")
jupyter notebook的每个cell只会显示最后一个输出结果,除非用print。例如:
x = [2, 3, 4, 5]
y = x * 2
z = x * 3
x+x
y
z
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
x = [2, 3, 4, 5]
y = x * 2
z = x * 3
x+x
y
z
# 读取数据(文末会提供数据的下载链接)
data = pd.read_excel('testData.xlsx')
data
data.isnull().any()
data.isnull().sum()
查看缺失值分布:missingno第三方库
import missingno as ms
ms.bar(data)
data.dropna(
axis:‘Axis’ = 0,
how:‘str’ =‘any’,
thresh = None,
subset = None,
inplace = ‘bool’ = False
)
#拷贝副本方便多次测试
data1 = data.copy()
# 按列方向进行删除,删除全为缺失值的列
data1 = data1.dropna(axis=1,how='all')
data1
del(data[i]):删除data中索引为i个数据
data = pd.read_excel('testData.xlsx')
data
del data['none']
del data['none1']
data
使用:from sklearn.impute import SimpleImputer
API:SimpleImputer()
SimpleImputer(*,missing_values=nan,strategy=‘mean’,fill_value=None,verbose=0,copy=True,add_indication=False)
参数missing_values:规定缺失值类型,一般为NaN,使用np.nan属性表示;
参数strategy:规定缺失值为数据类型,可选平均值、0值、众数填充;
返回值:缺失值填充对象;
API:fillna();
函数形式:fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
参数value:用于填充的空值的值。
参数method: {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。定义了填充空值的方法, pad / ffill表示用前面行/列的值,填充当前行/列的空值, backfill / bfill表示用后面行/列的值,填充当前行/列的空值。
参数axis:轴。0或’index’,表示按行删除;1或’columns’,表示按列删除。
参数inplace:是否原地替换。布尔值,默认为False。如果为True,则在原DataFrame上进行操作,返回值为None。
参数limit:int, default None。如果method被指定,对于连续的空值,这段连续区域,最多填充前 limit 个空值(如果存在多段连续区域,每段最多填充前 limit 个空值)。如果method未被指定, 在该axis下,最多填充前 limit 个空值(不论空值连续区间是否间断)
参数downcast:dict, default is None,字典中的项为,为类型向下转换规则。或者为字符串“infer”,此时会在合适的等价类型之间进行向下转换,比如float64 to int64 if possible。
import numpy as np
import pandas as pd
a = np.arange(100,dtype=float).reshape((10,10))
for i in range(len(a)):
a[i,:i] = np.nan
a[6,0] = 100.0
d = pd.DataFrame(data=a)
print(d)
# 用0填补空值
print(d.fillna(value=0))
# 用前一行的值填补空值
print(d.fillna(method='pad',axis=0))
# 用后一列的值填补空值
print(d.fillna(method='backfill', axis=1))
# 连续空值,最多填补3个
print(d.fillna(method='ffill',axis=0, limit=3))
# 每条轴上,最多填补3个
print(d.fillna(value=-1,axis=0, limit=3))
本文数据:
链接:https://pan.baidu.com/s/1Q3jtATp87H7rRpz53xiqYA
提取码:7ue4