数学建模——数据处理

一、数据的特征选取和冗余去除

https://x.cnki.net/read/article/xmlonline?filename=QXYY201904006&tablename=CJFDTOTAL&dbcode=CJFD&topic=&fileSourceType=1&taskId=&from=&groupid=&appId=CRSP_BASIC_PSMC&act=&rdts=1595660600
采用统计检验的方法对基因表达数据的特征选取和冗余去除。首先采用Mann-WhitneyWilcoxon检验法,检验不同类别基因表达数据分布特征的差异性,利用结果来降低维度;再利用Kendall-T相关性检验检验数据间的相关性,将结果用于冗杂基因数据的剔除,进而获得能够正确分类的最小基因子集

二、去极值、标准化、缺失值、异常值处理

https://x.cnki.net/read/article/xmlonline?filename=QXYY201904002&tablename=CJFDTOTAL&dbcode=CJFD&topic=&fileSourceType=1&taskId=&from=&groupid=&appId=CRSP_BASIC_PSMC&act=&rdts=1595660604
1、去极值
(1)分位数去极值
数学建模——数据处理_第1张图片
2、归一化
(1)Z-Score归一化方法
在这里插入图片描述
(2)mapminmax标准化
(3)mapstd 标准化
3、缺失值
(1)剔除存在缺失值样本
(2)填充
平均数、回归填充、聚类填充、差值填充、0填充
4、异常值
(1)属性异常值检测
(2)样本异常值检测
(3)异常值处理
回归法、均值平滑法、离群点分析法、小波过滤法

三、数据降维

1、线性映射
(1)主成分分析法
(2)线性判别方法
2、非线性映射
(1)基于核的非线性降维
(2)流形学习

你可能感兴趣的:(数据预处理,数学建模)