iteye_5035

数据挖掘笔记-关联规则-FPGrowth-1

由于Apriori算法需要多次扫描事务数据库，需要生成候选项集，大大增加了时间与空间的代价，FP Growth算法利用了巧妙的数据结构，大大降低了Aproir挖掘算法的代价，它不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果，它采用了一种简洁的数据结构，叫做frequent-pattern tree(频繁模式树)。FP-growth算法比Apriori算法快一个数量级，在空间复杂度方面也比Apriori也有数量级级别的优化。对于海量数据，FP-growth的时空复杂度仍然很高，可以采用的改进方法包括数据库划分，数据采样等等。

FPGrowth算法的介绍与实例说明可以参考下面这个连接，里面讲的很详细。

http://hi.baidu.com/nefzpohtpndhovr/item/9d5c371ba2dbdc0ed1d66dca

Apriori和FP-Tree都是寻找频繁项集的算法，后面根据频繁项集产生关联规则都是一样的，就不再这里重复了。

FPGrowth算法Java简单实现:

代码托管https://github.com/fighting-one-piece/repository-data/tree/master/data_mining

public class FPGrowthBuilder {

	/** 最小支持度 */
	private int minSupport = 2;
	/** 频繁集集合*/
	private List> frequencies = new ArrayList>();
	
	//创建头表
	public List buildHeadTables(Data data) {
		//统计各项出现频次
		Map map = new HashMap();
		for (Instance instance : data.getInstances()) {
			for (String value : instance.getValues()) {
				Integer mValue = map.get(value);
				map.put(value, null == mValue ? 1 : mValue + 1);
			}
		}
		//过滤掉未满足最小支持度的项
		List> entries = 
				new ArrayList>(); 
		for (Map.Entry entry : map.entrySet()) {
			if (entry.getValue() >= minSupport) {
				entries.add(entry);
			}
		}
		//根据出现频次排序项
		Collections.sort(entries, new Comparator>() {
			public int compare(Map.Entry o1, Map.Entry o2) {
				return ((Integer) o2.getValue()).compareTo((Integer) o1.getValue());
			}
		});
		//数据集的过滤重排
		for (Instance instance : data.getInstances()) {
			instance.replaceValues(entries);
			ShowUtils.print(instance.getValues());
		}
		//建立头表
		List headerTables = new ArrayList();
		for (Map.Entry entry : entries) {
			headerTables.add(new FPTreeNode(entry.getKey(), entry.getValue()));
		}
		return headerTables;
	}
	
	//创建FPGrowthTree
	public FPTreeNode buildFPGrowthTree(Data data, List headerTables) {
		FPTreeNode rootNode = new FPTreeNode();
		for (Instance instance : data.getInstances()) {
			LinkedList items = instance.getValuesList();
			FPTreeNode tempNode = rootNode;
			//如果节点已经存在则加1
			FPTreeNode childNode = tempNode.findChild(items.peek());
			while (!items.isEmpty() && null != childNode) {
				childNode.incrementCount();
				tempNode = childNode;
				items.poll();
				childNode = tempNode.findChild(items.peek());
			}
			//如果节点不存在则新增
			addNewTreeNode(tempNode, items, headerTables);
		}
		return rootNode;
	}
	
	//新增树节点
	private void addNewTreeNode(FPTreeNode parent, LinkedList items, 
			List headerTables) {
		while (items.size() > 0) {
			String item = items.poll();
			FPTreeNode child = new FPTreeNode(item, 1);
			child.setParent(parent);
			parent.addChild(child);
			//建立节点之间的关联关系
			for (FPTreeNode headerTable : headerTables) {
				if (item.equals(headerTable.getName())) {
					while (null != headerTable.getNext()) {
						headerTable = headerTable.getNext();
					}
					headerTable.setNext(child);
					break;
				}
			}
			addNewTreeNode(child, items, headerTables);
		}
	}
	
	//构建频繁项集
	public void build(Data data, List postfixs) {
		List headerTables = buildHeadTables(data);
		FPTreeNode treeNode = buildFPGrowthTree(data, headerTables);
		FPTreeNodeHelper.print(treeNode, 0);
		if (treeNode.getChildren().size() == 0) {
			return;
		}
		//收集频繁项集
		List frequency = new ArrayList();
		frequencies.add(frequency);
		for (FPTreeNode header : headerTables) {
			ItemSet itemSet = new ItemSet(header.getName(), header.getCount());
			if(null != postfixs){
				for (String postfix : postfixs) {
					itemSet.add(postfix);
				}
			}
			frequency.add(itemSet);
		}
		//进入下一步迭代
		for (FPTreeNode headerTable : headerTables) {
			List newPostfix = new LinkedList();
			newPostfix.add(headerTable.getName());
			if (null != postfixs) {
				newPostfix.addAll(postfixs);
			}
			Data newData = new Data();
			FPTreeNode startNode = headerTable.getNext();
			while (null != startNode) {
				List prefixNodes = new ArrayList();
				FPTreeNode parent = startNode;
				while (null != (parent = parent.getParent()).getName()) {
					prefixNodes.add(parent.getName());
				}
				int count = startNode.getCount();
				while (count-- > 0 && prefixNodes.size() > 0) {
					Instance instance = new Instance();
					instance.setValues(prefixNodes.toArray(new String[0]));
					newData.getInstances().add(instance);
				}
				startNode = startNode.getNext();
			}
			build(newData, newPostfix);
		}
	}
	
	public void print(List> itemSetss) {
		System.out.println("Frequency Item Set");
		System.out.println(itemSetss.size());
		for (List itemSets : itemSetss) {
			for (ItemSet itemSet : itemSets) {
				System.out.print(itemSet.getSupport() + "\t");
				System.out.println(itemSet.getItems());
			}
		}
	}
	
	public void build() {
		Data data = DataLoader.load("d:\\apriori.txt");
		build(data, null);
		print(frequencies);
	}
	
	public static void main(String[] args) {
		FPGrowthBuilder fpg = new FPGrowthBuilder();
		fpg.build();
	}

}

数据集格式可以参考以下数据：

1 豆奶,莴苣
2 莴苣,尿布,葡萄酒,甜菜
3 豆奶,尿布,葡萄酒,橙汁
4 莴苣,豆奶,尿布,葡萄酒
5 莴苣,豆奶,尿布,橙汁
6 莴苣,尿布,葡萄酒

结果如下：

5	[莴苣]
5	[尿布]
4	[豆奶]
4	[葡萄酒]
2	[橙汁]
4	[尿布, 莴苣]
3	[莴苣, 豆奶]
3	[尿布, 豆奶]
2	[尿布, 莴苣, 豆奶]
4	[尿布, 葡萄酒]
3	[莴苣, 葡萄酒]
2	[葡萄酒, 豆奶]
3	[尿布, 莴苣, 葡萄酒]
2	[尿布, 葡萄酒, 豆奶]
2	[橙汁, 豆奶]
2	[尿布, 橙汁]
2	[尿布, 橙汁, 豆奶]

[莴苣]------>[尿布,葡萄酒]{confidence: 0.75}
[尿布]------>[莴苣,葡萄酒]{confidence: 1.0}
[葡萄酒]------>[尿布,莴苣]{confidence: 0.75}
[尿布]------>[橙汁,豆奶]{confidence: 1.0}
[豆奶]------>[尿布,橙汁]{confidence: 1.0}
[葡萄酒]------>[尿布,豆奶]{confidence: 0.6666666666666666}
[尿布,葡萄酒]------>[莴苣]{confidence: 0.6}
[尿布]------>[莴苣,豆奶]{confidence: 0.6666666666666666}
[莴苣]------>[尿布,豆奶]{confidence: 0.6666666666666666}
[橙汁]------>[尿布,豆奶]{confidence: 0.6666666666666666}
[尿布,豆奶]------>[橙汁]{confidence: 1.0}
[莴苣,葡萄酒]------>[尿布]{confidence: 0.6}
[尿布,莴苣]------>[葡萄酒]{confidence: 0.75}
[尿布]------>[葡萄酒,豆奶]{confidence: 1.0}

天猫复购预测训练赛技术报告程哥哥吖数据挖掘 NLP自然语言处理数据挖掘随机森林训练赛 xgboost 预测
天猫复购预测赛技术报告小组成员：李xx、姚xx、黄xx、刘xxgithub地址:https://github.com/2017403603/Data_mining一、问题描述1.1问题背景商家有时会在特定日期，例如Boxing-day，黑色星期五或是双十一（11月11日）开展大型促销活动或者发放优惠券以吸引消费者，然而很多被吸引来的买家都是一次性消费者，这些促销活动可能对销售业绩的增长并没有长远帮
mysql 根据某个字段把一行数据拆成多行 pearl915
原始表的数据处理成的临时表的数据最终表的数据：代码如下：仅供参考：CREATEDEFINER=`data_mining`@`%`PROCEDURE`new_procedure_test`()BEGINdeclarenumint;declarevsqllongtext;declarecountint;setvsql='';droptableifexistscrm_excel.customer_clu
长江三角洲城市群数据平台（5）-Data_mining（ols） hz82114280
（1）在urls.py中新增以下url，Paste_Image.png（2）在data_mining.html中增加链接到回归分析页面（data_ols），Paste_Image.pngPaste_Image.png（3）页面布局如下，{%extends"base.html"%}{%loadstaticfiles%}{%blockmain%}多元線性回歸顯示變量回歸計算{%endblock%}布局
长江三角洲城市群数据平台（5）-Data_mining（聚类部分） hz82114280
(1)新建data_mining应用程序。Paste_Image.png.（2）在setting中加入data_mining应用程序。Paste_Image.png（3）新建模型，用于上传聚类数据，聚类数据为csv文件，首列为样本区分号，其余列为聚类属性。#modelsfromdjango.dbimportmodels#Createyourmodelshere.classCalt(models.M
长江三角洲城市群数据平台（5）-Data_mining（主成分分析） hz82114280
（1）在urls.py中新增以下url，Paste_Image.png（2）在data_mining.html中增加链接到主成分分析页面（data_pca），Paste_Image.pngPaste_Image.png（3）页面布局如下，{%extends"base.html"%}{%loadstaticfiles%}{%blockmain%}PCA計算計算獲取顯示主成分結果{%endblock%
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

数据挖掘笔记-关联规则-FPGrowth-1

你可能感兴趣的:(DATA_MINING)