频繁模式挖掘

频繁模式挖掘

@(博客文章)[machine learining]

转载自:http://blog.renren.com/share/200667576/14509845881

今天复习了一些数据挖掘 (DM)里的一点知识,汇总一点心得和盆友们交流交流。

数据挖掘这个领域很“友爱”,我也闹不清究竟是他借用了别的领域的概念,还是其他领域参考了他。像分类、聚类这类的概念NLP里也有。而且这个领域管得也宽,统计学、机器学习、信息检索、高性能计算、甚至搞UI可视化的都有涉猎。这是为啥呢?归根结底,现在只是数据时代,而不是信息时代。数据大爆炸,但是太没有条理。因此,我们先在的研究任务大多集中在数据信息化上面。

废话少说,先说说啥是频繁模式挖掘,有啥用?我靠,用处大了。频繁模式挖掘,顾名思义,就是找给定数据集中反复出现的联系,说白了就是“共现”。比如说,统计清华周围的电影院中每场电影的看客,总能看到班长和某女生一起出现在很多场电影的看客名单中,这就说明问题了,可以八卦了(啤酒尿布的例子我就不举了,都烂了,我喜欢用“班长”举例子)。

于是就引出两个概念,支持度、置信度。

支持度是啥?就是班长B和A女生一起观看电影在整个你搜集的数据集中出现的概率,P(BA)。顾名思义,就是你说班长和A女生有事儿,你的数据有多少支持你的八卦?

置信度呢?就是如果出现了班长B,那么A女生也在这场看电影的概率,是个条件概率,P(A|B) 。就是说,你说只要班长出现,那么A就出现?可信度多少?

于是这两个测度成为后续算法的基本阀值。毕竟总不能说班长和某老太太一起只看了一场电影,就说有事儿吧,毕竟这不靠谱。比如,按照中国人的逻辑,事不过三,如果绝对支持度大于3,或者相对支持度大于多少多少,才能算数。

好,那么频繁模式挖掘,就是要找那些至少比你设定的最小支持度高的组合,或者更加专业的说,项集,项的集合。比如,五道口电影院,今晚19:00有一场电影,有40个人去看了,这40个人组成一个项集。同理,班长+A女生组成一个项集。都行。

那么下面需要说说最大频繁项集。一般地,如果不考虑项集中元素的个数,那么需要考虑的项集会很多。但是有这样一个性质。频繁项集的子集也一定是频繁的。这个很好理解,班长和A女生,副班和C女生一起4人总去看某电影,那么单独看我们得出结论,至少这个范围内,班长和A经常共现,其他电影没准没和副班他们一起,所以最大频繁项集很强大,里面任意的组合(真子集)都是频繁的。

Apriori算法就是一种发现频繁项集的基本方法,它分为两个子步骤:连接、剪枝。

刚才的班长的例子是一个自顶向下的过程,考虑了他和副班等人一起去这个4人项集合。

Apriori相反,它从下往上,原因很简单,一组数据来了,谁也不能直接看出最大频繁项集。

那么依照那个频繁项集的任何真子集都是频繁的原则,我们从个例开始考察

选出候选,这样至少得出的结果能说明,比如班长经常去看电影、A

你可能感兴趣的:(数据挖掘,频繁模式挖掘)