skyline查询处理 BNL算法

查找出数据库中所有的SP(skyline point)点最粗鲁暴力的办法,是将所有的点两两比较,显然这是个愚蠢的办法。而BNL(block-nested-loops)算法是在这个愚蠢办法的基础之上改进,算法质量实现了大幅的提升。

算法流程:

 BNL算法,姑且翻译为块嵌套环算法 。该算法首先在内存中开辟有一块窗口,用于存放从文件中读入的疑似是SP的数据。还有临时文件T,当内存中的窗口满时,原本需要插入到窗口中的点将被保存在临时文件中。算法的流程如下: 

    1、从存放需要查询的数据的文件F中,读取一个数据点p,与窗口中的所有点比较(如果窗口为空,则直接插入),根据比较结果不同执行下面三种操作。

  • 窗口中存在一点q,q点支配p点,则p点不可能是SP成员,将p点丢弃。
  • p点支配窗口中的一个或多个点,则被p点支配的所有点不可能是SP成员,将它们删去。
  • p点与窗口内所有的点都不相互支配,若窗口的容量仍够存放p点则插入p点,否则将p点插入临时文件T中。
    2、当所有点都读取完并执行完上述操作时,窗口中在临时文件中加入第一个点之前就已经加入的点作为SP输出。将临时文件T作为数据来源,即作为存放需要查询的数据的文件F,新建一个空白的临时文件T',从1开始循环执行该过程。知道所有的点或者被丢弃,或者被作为SP输出。

算法演示:

设有数据集P1~P5,每个数据有两个维度,价格和距离,需要价格和距离都越小越好的数据。查询skyline点的过程如下所示:

skyline查询处理 BNL算法_第1张图片

skyline查询处理 BNL算法_第2张图片

skyline查询处理 BNL算法_第3张图片

skyline查询处理 BNL算法_第4张图片

skyline查询处理 BNL算法_第5张图片

skyline查询处理 BNL算法_第6张图片

算法优化:

算法的优化策略是减小点与点之间的比较次数。第一个方法是将窗口组织为一个自组织表。当窗口中某个点出现了支配其他点的情况时,那这个点也更有可能支配其他点,所以将这个点放在窗口最前面,这样每次新输入的点进行比较时,优先与这个点比较,非SP点可以尽早淘汰。

算法评价:

优点:BNL算法的最大优点是它的简单性和普遍性, 对于各种数据分布、各种大小的数据集,BNL算法都可以直接应用而不需对数据进行任何索引或预处理。它满足 skyline 计算算法对正确性、公平性的要求。

缺点:当 skyline 集较大或内存很小的时候, 就需 要多个循环才能计算出所有的结果, 导致多次文件输入/输出 存取, 花费很长的时间。此外, 由于在每次循环之后, 只有少量 在溢出文件产生之前被插入窗口的点才可以被输出给用户, BNL算法的渐进性并不好, 不能应用于在线处理。


参考资料:

skyline 查询处理 , 魏小娟,  杨  婧,  李翠平,  陈  红 

skyline 计算研究综述,朱 琳, 关佶红,周水庚 

鸣谢!

你可能感兴趣的:(信息检索)