数据预处理专题

数据不一致性,如单位。

噪声数据,错误的数据,异常的数据,偏离期望值或常理。

数据预处理专题_第1张图片

规范化

数据预处理专题_第2张图片

缺失值替换

最常用还是插补

第一种可以用

第二种需要资料

第三种需要用接近的样本进行插补,判断欧几里得距离

数据预处理专题_第3张图片

数据预处理专题_第4张图片

第五种,推荐使用,拉格朗日插值法

插值目的:处理数据的手段,对缺失数据补全(线性,拉格朗日,牛顿)

拟合:预测和寻找规律

数据预处理专题_第5张图片

数据预处理专题_第6张图片

数据预处理专题_第7张图片

数据预处理专题_第8张图片

数据预处理专题_第9张图片

牛顿插值法

数据预处理专题_第10张图片

牛顿插值和拉格朗日的缺点,不能全面反映被插函数的形态,用分段三次埃尔米特PCHIP插值

可以直接调用

应用主要是补充数据,其他不要用。

数据预处理专题_第11张图片

数据预处理专题_第12张图片

数据预处理专题_第13张图片

拟合

插值法要求的是近似的曲线需要完全经过数据点,而拟合则是得到最接近的结果,强调最小方差的概念。

数据预处理专题_第14张图片

希望L最小

数据预处理专题_第15张图片

你可能感兴趣的:(算法)