mysql缺失值处理_数据处理之缺失值的处理

目录

缺失值产生的原因

机械原因:由于机械原因导致的数据收集或保存的失败造成的数据缺失,如收集车流量数据的地感线圈损坏等

人为原因:由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据等

完全变量与不完全变量

数据集中不含缺失值的变量(属性)称为完全变量,数据集中含有缺失值的变量称为不完全变量

缺失值的类型

完全随机缺失(Missing Completely at Random, MCAR)。数据的缺失与不完全变量以及完全变量都是无关的,比如家庭地址的缺失

随机缺失(Missing at Random, MAR)。数据的缺失仅仅依赖于完全变量,例如财务数据缺失情况与企业大小有关

非随机,不可忽略缺失(Not Missing atRandom,NMAR, or nonignorable)。不完全变量中数据的缺失依赖于不完全变量本身,这种缺失是不可忽略的,比如高收入人群不愿意提供他们的收入数据

缺失值的处理方法

直接删除法

填充法

K最近距离邻法(K-means clustering)

多重填补(Multiple Imputation,MI)

直接删除法

直接删除含有缺失值的数据项,当含有缺失值的数据项只占总体数据量很小的一部分时效果最好

填充法

手动填充法(filling manually):在数据量较小的情况下可能是最好的方法,因为一般来说数据所有者对各列数据的含义更加清楚,手动填充后效果更好,但是在数据量较大时无法操作

特殊值填写(Treati

你可能感兴趣的:(mysql缺失值处理)