机器学习缺失值处理

分类:
完全随机缺失:当某变量缺失值发生的可能性与其他变量无关也与该变量自身无关,例如婚姻状态的缺失
随机缺失:当某变量出现缺失值的可能性与模型中某些观测变量有关而与该变量自身无关时,例如配偶姓名的缺失取决于是否有配偶
完全非随机缺失:某变量只与自身有关,缺失值依赖于自己,例如高收入人群
不愿意提供家庭收入;例如,公司新录用了20名员工,由于6名员工表现较差在试用期内辞退,试用期结束后的表现评定中,辞退的6名员工的表现分即为非随机缺失。
处理方法:
1.删除有缺失值的属性或者样本
2. 插补填充(常用于完全随机缺失且缺失度不高的情况)
3.将缺失值当成一种属性(适用于完全非随机缺失)

连续变量缺失值处理:

类别变量缺失值处理:
机器学习缺失值处理_第1张图片

你可能感兴趣的:(机器学习,缺失值处理)