数据预处理-数据清洗

笔者这学期选了一门课程《数据建模的统计方法与分析》,1-16周,在此开贴记录一下学习过程,把自己的学习体会写出来,一则可以分享给大家,共同学习;二则可以加深理解。

工具:Matlab

chapt 4 《数据预处理》

1.2.3.4.5.Matlab 主 要 内 容 { 1. 数 据 清 洗 2. 数 据 集 成 3. 数 据 变 换 4. 数 据 规 约 5. M a t l a b 主 要 数 据 预 处 理 函 数

原始数据存在的问题:不完整,噪声,不一致数据等

在数据挖掘的过程中,数据预处理占到整个过程的60%

数据清洗

数据清洗主要是删除原始数据集中的无关数据,重复数据,平滑噪声数据,处理缺失值,异常值等

数据清洗包括

1.2.3. { 1. 删 除 记 录 2. 数 据 插 补 3. 不 处 理

数据插补


拉格朗日插值法

Wiki上的定义:
如果对实践中的某个物理量进行观测,在若干个不同的地方得到相应的观测值,拉格朗日插值法可以找到一个多项式,其恰好在各个观测的点取到观测到的值。上面这样的多项式就称为拉格朗日(插值)多项式。数学上来说,拉格朗日插值法可以给出一个恰好穿过二维平面上若干个已知点的多项式函数。https://zh.wikipedia.org/wiki/%E6%8B%89%E6%A0%BC%E6%9C%97%E6%97%A5%E6%8F%92%E5%80%BC%E6%B3%95

异常值处理

1.2.3.4. { 1. 删 除 记 录 2. 视 为 缺 失 值 3. 平 均 值 修 正 4. 不 处 理

你可能感兴趣的:(数据建模)