2019-04-10

一、特征规约

立方体规约

进行立方体规约就是将N维的立方体变成N-1维的立方体。那么少的一维为什么需要去掉呢?实际上是为了累计计算。根据累计统计的目的不同,减少不同的维度。

维度规约

去除与业务分析无关的属性。根据业务逻辑进行去除。还可以根据这个属性的重要程度来评估是否需要去除,而属性的重要程度可以采用决策树来评估,凡不在决策树上的属性都可以尝试去除。

二、样本规约

去除冗余

抽样

有回放抽样,这种抽样方式使得相同的数据可能会被再次抽到。其过程是从一整个表中抽出一行,在一个本子上记录下来,然后再从这张表中抽出一行,再记录在刚才的本子上,周而复始,依次进行。

不放回抽样,这样的过程使得获取的数据一定是原始数据的一个子集。其过程与上述有回放抽样的不同之处在于,当从原始表中抽出一行之后,不仅要在一个本子上记录下来,而且还要在原始表中把这行数据抹去,使得下次随机抽样的时候不会再抽到这行数据。

分层抽样

抽样的目的是为了选取样本中的代表,上述有回放抽样与无回放抽样都假设所有候选人的中举机会是均等的,但事实并非如此。因而将人群划分成若干群体,并再不同的群体中使用随机抽样的过程就称为分层抽样。

聚类抽样

用计算机来判断哪些人该聚成一群,其余的和分层抽样一样。

压缩编码

你可能感兴趣的:(2019-04-10)