质量估计及其应用(Mass Estimation and Its Applications)

质量估计及其应用(Mass Estimation and Its Applications)

吐槽

   今天研究下这篇文章,这个文章和前面的IForest有着非常紧密的关系。先占个坑,中午2点前将这文章更完。然并卵,现在已经是第二天的上午了。。拖延症又犯了

数据质量(data mass)

   什么是数据质量呢?数据质量是指一个区域内数据点的数目。假设数据集 X 是分布在 d 维空间中的一团数据云,则数据 x 越接近于数据云的中心,则数据质量 mass(x) 越大,若数据 x 处于数据云的边缘,则其数据质量会远小于云中心的数据的质量。因此,数据质量实际上是一种数据靠近数据中心或者边缘程度的度量。这和数据密度有点类似,但是其无论是在效果和效率上都比数据密度表现得要号。其在离群点(异常值)检测,信息检索等领域应用前景广阔。
   相比数据密度,数据质量有以下三方面的优势:
   1.数据质量计算量小,只是统计一个区域内数据的数量,而不像数据密度一样计算点和点之间的距离。
   2.数据质量能够给出一个数据云中,每个数据点一个排序,这个排序能够反映数据点是靠近数据云中心还是边缘。

数据质量估计

这里只考虑一维数据的质量估计。

Level-1质量估计

假设一个数据序列 x1<x2<...<xn1<xn . 在每两个数据点之间选择一个分界点将两个数据点分开。比如 si si si+1 分开,同时就会产生两个带有质量的非空区域 mLi ,以及 mRi .接下来定义 mi(x)=

你可能感兴趣的:(质量估计)