数学建模1 数据预处理

缺失值

比赛提供的数据,发现有些单元格是null或空的。

        1.缺失值太多就要把该项指标删除(40%相当大)

        2.最简单处理(对个体精度要求不大):均值、众数插补

适用赛题:人口的数量年龄、经济产业情况等统计数据

        3.Newton插值法(对导数没有要求):构建近似函数,补上缺失值。缺点是区间边缘处的不稳定振荡。

适用赛题:热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据

        4.样条插值法:用分段光滑的曲线去插值。(光滑:曲线连续,曲率连续)

适用赛题:零件加工、水库水流量、图像“基线漂移”、机器人轨迹等精度要求高、没有突变的数据

异常值

样本中明显和其他数值差异很大的数据。

        正态分布3σ原则

1.先找到异常值,再将其删去,用上面缺失值的方式补上

2.找异常值:正态分布(不适合排队论) 在正态分布中σ代表标准差,μ代表均值,x=μ即为图像的对称轴.

适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量等

不适用题目:总体符合其他分布,如公交站人数排队论符合柏松分布。

数学建模1 数据预处理_第1张图片

        画箱型图(普遍适用)

1)从上到下,即数据从大到小
2)IQR越大,箱子越大,数据分散
3)在区间范围之外为异常值

数学建模1 数据预处理_第2张图片

你可能感兴趣的:(数学建模,算法,数据挖掘)