数据清洗小结

表观处理

去重:将重复的数据去除掉

合并:将不同的数据表合并在一起,组成‘大’维度表

深入处理

缺失值:该部分处理是整个数据挖掘过程都需要反复考虑的事;根据特征缺失值占比多少,决定是填充还是直接删了;如果填充,可以填充平均值,中值等等;或者将其看成测试集利用模型进行填充。

异常值:首先对数据的分布有大致的了解,认为的异常值不一定是异常值,明确对异常值的划分。对于确认的异常值,可以按照缺失值对待处理,也需要分析异常值,或者极端值出现是否有规律;

逻辑值:筛选更改逻辑上有错误的值。

连续特征离散化:根据建立的模型分情况处理。

规范化:将数据映射到0-1之间;-1到1之间;均值为0,标准差为1;

了解背景数据处理

降维:pca,lda,lle等

采样:分层采样,过采样,欠采样

特征合并:异名同义,异名同类聚合

筛选特征:利用rf,人工等选择重要特征

特征转换:将某特征属性转为各特征。

你可能感兴趣的:(数据清洗小结)