机器学习实战学习笔记11——FP-growth 算法

1.FP-growth算法概述


1.1FP-growth算法介绍


FP-Growth算法是韩家炜等人在2000年提出的关联分析算法,它采取分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。

1.2FP-growth算法原理


FP-growth算法使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。
FP-growth只需要扫描数据两次,它发现频繁项集的基本过程如下:
(1)构建FP树;
(2)从FP树中挖掘频繁项集。

1.3FP-growth算法优缺点


(1)优点:在发现频繁项集方面,比Apriori效率高很多
(2)缺点:实现比较困难,在某些数据集上性能会下降
(3)应用范围:在文本文档中查找频繁单词、从新闻网站查找最热门的新闻报道。

2.用FP树挖掘频繁项集

你可能感兴趣的:(python学习笔记,python,机器学习,FP-growth)