数据度量的三个基本概念

教材:数据挖掘-概念与技术
分布式度量(distributive measure):可以将整个数据集划分为若干小子集,计算每个子集的度量,然后合并计算结果,得到原数据集的度量值的度量。
例如:sum(), count(), max(), min()
代数度量(algebraic measure):可以应用一个代数函数于一个或多个分布式度量计算的度量。
例如: avg() = sun()/count()
整体度量(holistic measure):必须对整个数据集进行计算的度量。不能通过给定数据划分成子集并合并每个子集度量得到的值来计算。
例如:中位数 median

你可能感兴趣的:(数据挖掘,sun)