数学建模——数据预处理

数学建模——数据预处理_第1张图片

 一、缺失值处理

1.删除记录

删除数据缺失组,但是数据较少时慎重使用;若某个指标缺失值太多,直接指标删除

2.插补

均值/众数插补:连续型、数值型——平均值/中位数,离散型——众数

适用赛题:缺失值占比较少,适用于对个体精度要求不大的统计数据,如人口的数量年龄、经济产业情况…

最近邻插补(对众数插补的优化):

适用条件:数据量较少离散数据,空间时间具有接近性(欧氏距离衡量)

优点:保留离散特性

缺点:精度较低,有时会引入显著的偏差

适用赛题:适用于空间或时间连续的数据,如气候站点观测数据,时间序列插值…

样条插值法:

分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率

适用赛题:零件加工,水库水流量,图像“基线漂移”,机器人轨迹等精度要求高、没有突变的数据

回归插补:

逻辑回归、决策树、随机森林、支持向量机、K近邻算法…

适用赛题:数据量较大,缺失值与相邻数据均有逻辑关系的问题

二、异常值处理

注意“假异常”和“真异常”

1.正态分布3σ原则

数值分布在(μ-3σ,μ+3σ)中的概率为99.73%,其中μ为平均值,σ为标准差。

求解步骤:1.计算均值μ和标准差σ;2.判断每个数据值是否在(μ-3σ,μ+3σ)内,不在则为异常值。

适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等。

不适用题目:总体符合其他分布,例如公交站人数排队论符合泊松分布

2.画箱型图

数学建模——数据预处理_第2张图片

求解步骤:1.数据从小到大进行排序

2.下四分位数 Q1 是排第25%的数值,上四分位数 Q3 是排第75%的数值,四分位距 IQR=Q3-Q1

3.一般设 [ Q1−1.5×IQR, Q3+1.5×IQR ] 内为正常值,区间外为异常值

适用题目:适用于各种类型的问题,例如统计分析、财务分析、市场分析等

不适用题目:数据集非常小时不是很好用,因为不够敏感;数据集非常大,绘制箱型图比较困难,且会消耗大量的计算资源

3.视为缺失值,借助缺失值的处理方法进行处理

三、数据变换

数学建模——数据预处理_第3张图片

数学建模——数据预处理_第4张图片Z Score方法,将原始数据中心化后,再按照标准差缩放

 数学建模——数据预处理_第5张图片

即Max-Min实现归一化处理,最后能够将数据收敛到[0,1]区间内

数学建模——数据预处理_第6张图片

 

 

 

你可能感兴趣的:(数据预处理,数学建模,大数据分析,数学建模,数据分析,大数据)