数据预处理-数据规约

数据规约

数据规约指通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。

有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多回归)和对数线性模型。无参数方法就需要存放实际数据,例如直方图、聚类、抽样。

(1)直方图
直方图实用分箱来近似数据分布,是一种流行的数据规约形式。属性A的直方图将A的数据分布划分为不想交的子集或桶。通过这种方式可以对数据进行规约,只用一个直方图表示大部分数据A属性的特征。

(2)聚类
聚类技术将数据元组视为对象。它将对象划分为簇,使一个簇中的对象那个相互“相似”,而与其他簇中的对象“相异”。在数据规约中,用数据的簇替换实际数据。该技术的有效性依赖于簇的定义是否符合分布性质。

(3)抽样
抽样应该是我们现实生活中最常采用也最多采用的数据规约技术,它的思路是用比原始数据小得多的随机样本表示原始数据集。假定原始数据集D包括N个元组,可以采用抽样方法对D进行抽样。

(4)参数回归
简单线性模型和对数模型可以采用近似描述给定的数据。线性模型对数据建模,使之拟合一条直线。

你可能感兴趣的:(数据预处理-数据规约)