在第六章我们讲了频繁模式的挖掘,本章主要讲高级模式挖掘。
模式挖掘相对于频繁模式挖掘来说,是一个更一般的术语。就是说模式挖掘不仅包括了频繁模式挖掘还包括了如稀有模式,负模式。然而,很多情况下,这两个术语是混用的。所以说,实际上频繁模式在模式挖掘里面占的比重相当相当大。
我们首先来理清一下,到底什么是模式?
模式就是数据中蕴含的规律或规律性的东西。我们知道KDD分为描述性和预测性,挖掘出一个模式(模型?)是数据挖掘的一个目标,而模式经过评估和和表示后就是知识。
回想一下上一章的频繁模式挖掘,我们主要想挖出的就是频繁项集,频繁序列,频繁结构,强规则这一类的东西。这些东西其实就是模式,在我们经过评估和表示以后,就是知识。我们就可以根据这些知识来重新调整超市中的上货规则呀,定价策略这些。
而随着技术的发展以及业务的需求,最初的频繁模式挖掘也慢慢发展成了高级模式挖掘。本章就主要讲高级模式挖掘。
书P180-181页回顾和介绍了一些名词的定义,包括频繁模式的三种形式(简单的平凡模式,闭模式和极大模式)和本章将要介绍的一些概念。值得注意的是,这些概念都是围绕着模式和规则描述的。
181页的图7.1初看不是很好理解,但学完本章回头再看就会理解了。主要是要理解什么是模式,明白模式或规则的不同类型,知道因为有各种不同的数据和应用领域,所以有各种模式挖掘方法。
接下来,会具体讲解高级模式挖掘。
首先在7.2节,我们会关注在多层和多维空间中的模式挖掘。
挖掘多层关联规则
对于很多应用来说,在较高的抽象层进行挖掘,发现的规则可能只是很常识性的规则,在这种时候,我们希望进行下钻以发现其他更有用的规则;而在较低抽象层进行挖掘时,可能会挖掘出很多很多琐碎而无用的知识。在这种需求的推动下,我们很希望有一种足够灵活的挖掘模式。这种挖掘模式能够非常便捷地在不同的抽象层进行挖掘和转化。
在多个抽象层的数据上挖掘产生的关联规则称为多维关联规则。注意,这句话的主体是关联规则。因为这个关联规则是在多个抽象层的数据上挖掘产生的,所以它(关联规则)被称为多层关联规则。
挖掘这种,最原始的方法是在书上184页最上面一笔带过。它说的是可以从最上层开始,逐步向下到较低的、更特定的概念层,在每个概念层,使用Apriori或其他算法计算频繁项集然后累积计数,直到底层不能再找到频繁项集为止。
而书上下面介绍的,都是这种方法的变形。实际上,说是变形只不过是对最小支持度阀值的处理上有区别而已(原始方法的最小支持度阀值是固定的)。具体看一下应该能理解。
在本小节末尾,书上提到,挖掘多层关联规则可能产生的一个严重的副作用是,由于项之间存在父母,祖先关系,可能会产生一些多个抽象层上的冗余规则。这其实很好理解,毕竟我们是在多层结构上进行挖掘的。
挖掘多维关联规则
在分析时,我们不会满足同一维度之间的规则。例如,我们不仅想知道买了啤酒还会买尿布这种规则,我们可能还想知道是什么样的人会买啤酒。因此这里引入了多维关联规则的概念。
多维关联规则讲的是:涉及两个或多个维或谓词的关联规则称作多维关联规则。注意这里的主体是关联规则。
根据规则的维是否重复出现,多维关联规则分为维间关联规则或混合维关联规则。这里我们主要研究维间关联规则。
我们知道数据库的属性可能是标称的或者数值(量化)的。经过前面的学习,我们知道标称的可以映射成量化的,而量化的也可以转换成标称的。
在这里,我们挖掘的目的是挖出规则或者模式。所以,我们要把量化属性转换成标称属性。这很好理解,因为我们要的是规则,而规则是一类的代表。我们不能说数1=》2,而只能说A=》B。
所以,通常的做法是把量化属性离散化为多个区间,而后在挖掘时把它们看作标称数据。
然后这种简单的离散化可能导致大量的规则,并且许多规则可能还没有什么用。所以,这里介绍了三种方法
(1)数据立方体方法
(2)基于聚类的方法
(3)揭示异常行为的统计学方法
来帮助克服这些困难,以便发现新颖的关联关系。
具体看书上7.2.3节。
挖掘稀有模式和负模式
有时,令人感兴趣的不是频繁模式,而是发现稀有的,或者反映项之间负相关的各种模式。
书上在讲解零事务问题的时候,着重探讨了这样一个问题。即评估模式是否是负相关的主要影响可能是零事务,而不是被观测的模式。书189页仔细看下。
在上面讨论稀有模式的时候,我们说到,稀有模式是其支持度低于用户指定的最小支持度阀值的模式。然后,由于大多数项集的出现频度通常都低于甚至远低于最小支持度阀值,因此实践中允许用户指定稀有模式的其他条件是可取的。
所以,实际上这里上是引出了基于约束的频繁模式挖掘。
基于约束的频繁模式挖掘
通常,我们认为用户具有很好的判断能力,知道沿着什么方向挖掘可能导致有趣的模式。因此,一种很好的做法是,让用户说明他们的这种直观或期望,作为限制搜索空间的约束条件。
具体看书7.3,好理解。
挖掘高维数据和巨型模式
有些应用需要挖掘数百或数千维的数据,使用前面的方法来挖掘这种高维数据,其性能损耗非常大。所以我们需要新的方法来解决这个问题。
目前有两个方向来解决这一问题。
第一个方向就是利用垂直数据格式,这在之前就已经介绍;第二个方向是开发新的挖掘方法,称为模式融合,用于挖掘巨型模式。
前面的看书都好说,关键是这个模式融合。我建议大家不要去看196页的图7.8,这张图以及本节前文对此方法描述的”跳跃“一词,一度误导了我。实质上,这个方法的名字”融合“才是体现了这个方法的思维方式。
书上首先引入了核模式这一概念,然后说到:巨型模式有更多的核模式,因此巨型模式更鲁棒。所以基于这个特性,模式融合可以融合少量较短的频繁模式。这也是它为什么被称为模式融合的原因
整个模式融合方法包括两个阶段:
1、池初始化
模式融合假定有一个短频繁模式的初始池。这是一个短长度的频繁模式挖掘集。这个初始值可以用任意已有的有效挖掘算法挖掘。
2、迭代的模式融合
用户首先指定一个参数K的值(K代表挖掘模式的最大个数),然后从当前池中随机地选取K个种子,对于每个种子,我们找出直径为 τ 的球内的所有模式。然后,每个”球“中的所有模式融合在一起,形成一个超模式集,这些超模式形成新的池,然后再从这个新的池子中随机地找到K个种子,然后重复上面的工作,一直迭代,直到不能融合为止。
这个方法的巧妙之处在于能够绕过中型模式。可能有的同学不太理解,我再解释下。
回顾上面的方法,我们看到,此方法的核心就是核模式。
只要我们选到的是巨型模式的核模式,那么通过几次这种”融合“的重复操作,就能够很快速的到达巨型模式,即便不是巨型模式的核模式,由于它的融合特性的存在,导致了它不是用单个项增量地扩展,而是与池中多个模式进行凝聚,这样也能够很快的到达巨型模式。
这样看起来,就省略了很多步骤。所以说书中用了”跳跃“一词,指的是这个意思,而不是其他意思。我之前就理解成了从核模式直接一步一步跳到了巨型模式,这是不正确的。
而使得模式融合方法有底气这样”跳“着走的原因是巨型模式有非常好的鲁棒性,但因此也使得的我们最后产生的是巨型模式的一个近似解。
那么这个近似解的质量怎么样呢?为此,我们引入了一个质量评估模型。经模型评估,模式融合能够有效地返回高质量的结果。
下面关于7.5,7.6详细看书就行,我目前感觉不是太重要。