2018-07-11笔记(3)取样&清洗

【关键词:Sampling,Dimensionality Reduction】

取样(Sampling):

关键点:

1)取样的点可以代表/拟合整体数据的某些特性(我们需要的特性)
2)将整体数据适当分块再取样((Rare event oversampling)在不平衡的数据源中,可以采用不平衡的采样方式使采样的不平衡更少的影响结论),获取最大可用价值。

降维(Dimensionality Reduction)

目标:

1)避免维度增加带来的稀疏化影响
2)降低消耗
3)将影响结果的无用/噪声数据剔除

方法:

1)PCA(Principle Component Analysis):主成分分析
2)SVD(Singular Value Decomposition):奇异值分解
3)其它有监督且非线性的方法

你可能感兴趣的:(2018-07-11笔记(3)取样&清洗)