微凉下午茶

python实现FP-growth算法发现频繁项集

★ FP-growth算法的作用：

       该算法是代替Apriori算法来高效发现频繁集，但不能用于发现关联规则。

★ FP-growth算法的组成：

       该算法需要构建三部分：1. 项头表   2. FP树   3.节点链表

✿ 举个例子：

     现在有如下6条事务：

TID Item

1 [ 'r', 'z', 'h', 'j', 'p' ]

2 [ 'z', 'y', 'x', 'w', 'v', 'u', 't', 's' ]

3 [ 'z' ]

4 [ 'r', 'x', 'n', 'o', 's' ]

5 [ 'y', 'r', 'x', 'z', 'q', 't', 'p' ]

6 [ 'y', 'z', 'x', 'e', 'q', 's', 't', 'm' ]

     1. 筛选符合最小支持度的物品：

     第一次遍历：我们遍历这6条事务，统计每个物品出现的次数，汇总成表：

表1 各物品的频数表

物品出现次数物品出现次数

z 5 q 2

x 4 p 2

y 3 w 1

t 3 v 1

s 3 u 1

r 3 o 1

n 1

m 1

j 1

h 1

e 1

       我们设置频繁项的最小支持度为3，这里的支持度不同于Apriori的支持度，Apriori支持度是概率，而这里是频数，就是出现的次数，简单来讲就是保留出现次数不小于3的物品，作为频繁项1项集。

       根据支持度把表1筛选后，整理成表2：(这里我按照频数大小降序排列了，其实写代码的时候这个表以字典的数据结构存储，也就没顺序了，这里排序只是为了构建FP树时观看方便，因为构建树的时候我们会对输入数据按照频数大小降序排列)

表2 符合最小支持度的物品及支持度

物品支持度

z 5

x 4

y 3

t 3

s 3

r 3

      2. 构建FP树和项头表：

      第二次遍历所有事务：我们根据支持度筛选每条事务，并让其按支持度降序排列(目的是画FP树的时候尽量多的共用祖先节点)：

      比如第一条事务：

1 [ 'r', 'z', 'h', 'j', 'p' ]

      物品‘h'、'j'，’p'不满足最小支持度，故删去，剩下的'r'、'z'按照支持度降序排列：[ 'z'，'r' ]

      但是这里有个问题：支持度一样大的物品，怎么排序呢？我们可以按照字典顺序正序排列或者倒序排列。比如：第二条事务：[ 'z', 'y', 'x', 'w', 'v', 'u', 't', 's' ]，将其筛选排序可以为：[ 'z', 'x', ’y', 't', 's' ]，这里 'y'，'t'，‘s'的支持度都为3，我默认规定支持度一样大的物品按照字典顺序倒序排列(这是我自己规定的，反正无论如何你都得定一个顺序)。

      整理后的6条事务：

表3 按支持度筛选后的事务

TID item

1 [ 'z', 'r' ]

2 [ 'z', 'x', 'y', 't', 's' ]

3 [ 'z' ]

4 [ 'x', 's', 'r' ]

5 [ 'z', 'x', 'y', 't', 'r' ]

6 [ 'z', 'x', 'y', 't', 's' ]

     我们利用这6条筛选后的事务(表3)及频繁1项集(表2) 构建FP树和项头表:

      ✿ 现在我们来说明一下怎么画出图1：

       依次遍历整理后的事务(表3)：

   (1.) FP树以空集为根节点，插入第一条事务： [ 'z', 'r' ] ，它是一条独立路径，每个节点的计数为1

      在编写程序中，我们把项头表存贮到一个字典格式的数据结构中，键就是物品(如z或x或y)，键对应的值是一个一维列表，列表保存的是该物品的支持度和该节点的实例，节点实例是一个类，在下面的(2.)我们做介绍。

      (2.) 现在插入第二条整理后的事务：[ 'z', 'x', 'y', 't', 's' ]，我们观察在这之前已经插入的事务：[ 'z', 'r' ]，发现第二条事务可以共用第一条事务的 'z'，因此z的计数就变为2了，但是会在共用’z'之后接着分叉，因为第二条事务第二个元素是‘x'，而第一条事务的第二个元素是’r'，无法共用了，就会开辟出新的路径，除‘z'外计数都为1，于是我们画出图：

      上面提到节点信息类包括5部分，比如此时z的节点信息为：

表4 节点信息类的五个属性

z的节点信息 :



(代码中我们把节点信息

存贮在一个类的数据结

构中,类有五个静态属性)
self.name: 存贮这个节点的名字，这里名字是’z‘

self.count: 存贮目前为止，这个节点的计数，这里是2

self.parent: 存父节点的实例地址，这里存储的就是根(空集)的节点信息类的实例，因为每个节点信息就是以类存储的

self.children: 存储这个节点后的分叉点的实例地址，它以字典为存贮结构

self.nodeLink: 假如这个节点有相似节点，那么存贮它的相似项的节点实例

      (3.) 插入第三条事务：[ 'z' ]，此时观察已经插入的事务：[ 'z', 'r' ]，[ 'z', 'x', 'y', 't', 's' ]，发现可以共用’z'节点，这样‘z'节点的计算就会再增加1变为3了，画出图：

    （4.) 插入第四条事务： [ 'x', 's', 'r' ]，观察已经插入的事务，发现这要插入的事务第一个元素是’x'，而以前已经插入的事务都是‘z'元素开头，所以这新插入的事务需要从根节点开始另开新路径：

        在插入这个新事务 [ 'x', 's', 'r' ] 时，我们发现项头表的节点指针已经存贮过'x'、's'、'r'的节点信息，我们找到项头表中这几个已经存贮的节点，分别让已保存节点的self.nodeLink属性等于新的相似节点的实例地址，效果图如下图的s节点，可以看到深蓝色箭头。

(5.) 插入第五条事务： [ 'z', 'x', 'y', 't', 'r' ]，同样观察已经插入的四条事务，发现可以共用 'z'、'x'、'y'、't'这个四个节点，因此这四个节点的计数再增加1，而在共用最后一个节点‘t’之后，需分叉出节点'r'，如图：

       这里的分叉‘r'已经是第三次作为分叉出现了，项头表中已经保存了第一次出现的’r'的节点信息，然后在节点‘r'第二次出现时，我们让第一次出现的’r'节点的self.nodeLink属性保存了第二次出现的‘r'的节点信息实例，同样，我们让第二次出现的’r'的节点实例的self.nodeLink属性保存第三次出现的‘r'的节点信息实例，形成链式。

(6.) 插入第6条事务：[ 'z', 'x', 'y', 't', 's' ]，同样观察已经插入的五条事务，也可以看上图，发现待插入的这条事务可以共用 'z'、'x'、'y'、't'、's' 这五个节点，因此这五个节点的计数再增加1：

      由此，FP树便是完成了。

     3. 挖掘FP树：

      (1.) 遍历项头表的键(也就是'z','x','y','t','s','r')，比如’r'，找到以‘r'为结尾以根节点(空集)为开头的所有路径(路径上每个元素的计数跟结尾元素相同)的集合，我们称为’r'对应的条件模式基，而这一条条路径我们称为‘r'的前缀路径，前缀路径一般我们不写开头和结尾，比如我们把’r'的所有路径写出来：{Ø，'z':1，'r':1}、{Ø，'x':1，'s':1，'r':1}、{Ø，'z':1，'x':1，'y':1，'t':1，'r':1}。这个所有路径怎么找出来的呢？其实就是你先找到项表头的这个频繁项’r'对应的节点指针，这个节点指针保存的是第一次出现‘r'的节点，然后顺着这个节点从下往上找到根为止，得到路径：{Ø，z:1，r:1}；再由这个节点的self.nodeLink属性找到它的相似节点，也就是第二次出现的‘r'节点，再顺着第二次出现的这个’r'节点从下往上找到根，得到路径：{Ø，'x':1，'s':1，'r':1}；再由这个第二次出现的‘r'节点的self.nodeLink属性得到它相似节点，也就是第三次出现的’r'节点，由这第三个‘r'节点从下往上找直到根，得到第三条路径：{Ø，'z':1，'x':1，'y':1，'t':1，'r':1}。

       因为前缀路径不写开头和结尾，所以三条前缀路径分别是：{'z':1}、{'z':1，'x':1，'y':1，'t':1}、{'x':1，'s':1}，当然了，你也可以这么写：{'z'} : 1、{'x'，'s'} : 1和{'z'，'x'，'y'，'t'} : 1。接下来我们把项目头中的这6个的元素的条件模式基汇总成表：

表5 频繁项及其条件模式基

频繁项条件模式基

z None

x {z}:3

y {z,x}:3

t {z,x,y}:3

s {z,x,y,t}:2、{x}:1

r {z}:1、{z,x,y,t}:1、{x,s}:1

      (2.) 得到每个频繁项的条件FP树：

      按照最小支持度筛选条件模式基中的元素，形成条件FP树。假如有一个频繁项的前缀路径大于2条，要把这所有的路径合起来，即对应元素的计数加起来，再去掉不符最小支持度的元素。

      比如对于频繁项's'：它的条件路径是{z,x,y,t}:2、{x}:1，对应元素合并，{ ’z':2, 'x':3, 'y':2, 't':2 }，最小支持度是3，所以条件模式基再根据最小值支持度筛选后，只剩下{ ’x' }:3。

     经过筛选条件模式基，得到下表：

表6 根据支持度筛选后的条件模式基

频繁项筛选后的条件模式基

z None

x {z}:3

y {z,x}:3

t {z,x,y}:3

s {x}:3

r None

     之后只需将频繁项和其对应的筛选后的条件模式基自由组合再加上自身，即可得到所有频繁项集。

     'z'组合后是：{ 'z' }

     'x'组合后是：{ 'x’ }、{ 'x', 'z' }

   'y'组合后是：{ 'y' }、{ ’y', 'z' }、{ ’y', 'x' }、{ ’y', 'z', 'x' }

     't'组合后是：{ ‘t' }、{ ‘t', 'z' }、{ ‘t', 'x' }、{ ‘t', 'y' }、{ ‘t', 'x', 'y' }、{ ‘t', 'z', 'x' }、{ ‘t', 'z', 'y’ }、{ ‘t', 'z', 'x', 'y' }

    ‘s'组合后是：{ 's' }、{ ’s', 'x' }

     'r'组合后是：{ 'r' }

表1 各物品的频数表
物品	出现次数	物品	出现次数
z	5	q	2
x	4	p	2
y	3	w	1
t	3	v	1
s	3	u	1
r	3	o	1
		n	1
		m	1
		j	1
		h	1
		e	1

表2 符合最小支持度的物品及支持度
物品	支持度
z	5
x	4
y	3
t	3
s	3
r	3

表3 按支持度筛选后的事务
TID	item
1	[ 'z', 'r' ]
2	[ 'z', 'x', 'y', 't', 's' ]
3	[ 'z' ]
4	[ 'x', 's', 'r' ]
5	[ 'z', 'x', 'y', 't', 'r' ]
6	[ 'z', 'x', 'y', 't', 's' ]

表4 节点信息类的五个属性
z的节点信息 : (代码中我们把节点信息存贮在一个类的数据结构中,类有五个静态属性)	self.name: 存贮这个节点的名字，这里名字是’z‘
self.count: 存贮目前为止，这个节点的计数，这里是2
self.parent: 存父节点的实例地址，这里存储的就是根(空集)的节点信息类的实例，因为每个节点信息就是以类存储的
self.children: 存储这个节点后的分叉点的实例地址，它以字典为存贮结构
self.nodeLink: 假如这个节点有相似节点，那么存贮它的相似项的节点实例

表5 频繁项及其条件模式基
频繁项	条件模式基
z	None
x	{z}:3
y	{z,x}:3
t	{z,x,y}:3
s	{z,x,y,t}:2、{x}:1
r	{z}:1、{z,x,y,t}:1、{x,s}:1

表6 根据支持度筛选后的条件模式基
频繁项	筛选后的条件模式基
z	None
x	{z}:3
y	{z,x}:3
t	{z,x,y}:3
s	{x}:3
r	None

★ 代码实践：

✿ 算法理解：

     1. 根据上述算法，同样的输入，得到的FP树却不一样，这是为何呢？

       这跟项头表的顺序无关(因为本来这个表存贮在字典里，是无序的)，其实，树的形状是跟构建树的时候的输入事务的内部顺序有关，即同样大小的支持度如何排列有关，虽然我跟《机器学习实战》第230页输入一样，得到的FP树却不一样，这是因为我对同样大小的支持度排列规则跟书上不一样。

      2. treeNode类的理解：

      该类有五个属性:

       (1.) self.name 保存的该节点的名字，如：‘x'或’z'

       (2.) self.count 保存的是该节点被事务经过的次数

       (3.) self.nodeLink 保存的是这个节点的相似节点的实例，形成链式

       (4.) self.parent 保存这个节点的父节点的实例

       (5.) self.children 它是一个嵌套字典，存贮的这个节点后的所有分叉点的实例

   3. createIniSet()函数：

   该函数作用是将事务以字典形式输出，如：{ frozenset({ 'r','z','h','j','p' }):1,... }

    4. createTree()函数：

     该函数作用是输入字典格式的事务和最小支持度，返回FP树和项头表。它的流程是：

     第一次遍历所有的字典格式的事务，统计每个物品(如‘z')出现的频数(支持度)，并存入一个字典(项头表的雏形)中，字典的键是这些物品的名称，键对应的值是该物品的支持度，然后再遍历这个字典，去除不满足支持度的物品，即最后该字典留下了满足支持度的物品，把此时的字典的值改成一个一维列表，列表的0位置还是该物品的支持度，1位置是该节点的节点指针，初始化为None ，它是在遍历事务来画FP树的时候，保存第一次出现该节点的实例(因为节点信息是以类存贮，所以这里保存实例，就能访问这个节点的所有信息)，这个时候的字典才是真正的项头表，基本格式是 { 'z':[5,节点地址],...}。有了项头表之后，现在我们第二次遍历所有的字典格式的事务，对每条事务作处理，即把事务中的不满足支持度的元素去掉，留下满足支持度的元素，然后再把剩下的这些元素按照支持度从大到小排列，这一步很关键，把支持度大的元素放前面是为了在画FP树的时候尽量多的共用祖先节点，而支持度一样大的元素我们可以按照字典顺序倒序排列，具体操作就是把项头表的键取出来构成set集合，这个集合其实就是频繁1项集，每条事务中满足支持度的元素一定在这个集合中，这样就能完成支持度筛选，我们把筛选后的每条事务存到一个新的字典中，这个新的字典的键是每条事务的元素的名称，键对应的值是该元素的总支持度，这个总支持度在项头表的值的0位置都保存了，直接取过来就行，为什么要把元素和其支持度再取出来放到字典中，这么做是为了我们把筛选后的每条事务内部再按支持度降序排列，排序的时候我们用到了函数sorted()和operator模块的itemgetter()，来实现上述排序，排序后的每条事务的格式是：[ 'z', 'r' ]，然后我们根据筛选排序后的事务，画出FP树。具体做法是updateTree()函数。

     5. updateTree()函数

     该函数作用是接收处理好的事务列表，画出FP树。在updateTree()调用之前我们就设定好了这个FP树的根节点，根节点的属性有：self.name 为Null set，self.parent 为None，self.children 为嵌套字典，来保存接下来的子树。进来一条事务，判断第一个元素在不在根节点的self.children 字典的键中，不在的话就把这个元素的名字作为键，该元素(也可称为节点)的节点类实例作为该键对应的值，这个节点类实例的self.name 是该节点名字，self.count 是当前节点被事务路径经过的次数，现在刚开始创建树，输入的是第一条事务，因此该节点就被用过1次，所以self.count 为1 ，self.parent 是根节点的类实例，self.nodeLink 还是空，因为还没发现该节点的相似项，self.children 为空{}。从效果来看相当于根节点连接了这个新节点，因此根节点的self.children 字典保存了新节点的实例，而新节点的self.parent保存了根节点的实例，这就相当于连接起来了，该节点是构造FP树的过程中第一次出现，因此也要把这个节点的实例保存在项头表的该元素对应值的列表的1位置，0位置是该元素的支持度。此时再遍历这条事务的第二个元素来画第二个元素节点，这第二个节点就是以第一个节点为父节点了，而不是以根节点了，这也好理解，一条事务就是一条路径，这第二个节点肯定要在第一个节点后面嘛，同样的方式，判断第二个节点的名称是不是在第一个节点的self.children 字典的键中，如果不在，就把第二个节点的实例作为值存到第一个节点的slef.children 字典中，同样创造第二个节点实例的时候，该实例的self.parent 保存的是第一个节点的实例，self.nodeLink还是None，因为还没发现这个节点的相似项，从效果来看这次操作就是把第二个节点连在第一个节点的后面了，到目前位置，这棵FP树展现出来的是：根节点连第一个节点元素，第一个节点后面又连了第二个节点元素。

      刚才叙述的是输入第一条事务并画出了一条路径，更新了项头表的节点指针，但是从输入第二条事务开始，该FP树就涉及到祖先节点重用、出现节点的相似项这两个问题了，什么是相似项？相似项就是节点名称一样，却在两条独立的路径上。在输入第二条事务时，FP树已经画了一条路径，现在我们遍历这第二条事务的第一个元素，又是从根节点开始画起，如果这第一个元素不在根节点的self.children 字典的键中，那么这就意味着第二条事务会开辟出第二条独立路径(每条事务都要从根节点开始画起，但是要不要从根节点开辟新路径关键是看每条事务的第一个元素，事务的第一个元素不同，肯定是要开辟出新路径的)，如果根节点开辟新路径，做法跟上面画第一条路径的步骤是一样的，但是这里就会出现相似项问题了，第二条路径是跟第一条路径相互独立的两条路径，但是假如第二条路径中有和第一条路径相同的元素，又因为此时项头表中的该元素对应的值已经保存了第一次出现该元素名称的节点实例了，人家是第一次出现所以已经先入为主了，所以当发现第二条路径有和第一条路径相同的元素的时候，找到项头表该元素名称对应的值，就会拿到第一次出现该元素名称的节点实例，让该实例的slef.nodeLink保存这第二次出现的该名称节点的实例，相当于把这第二次出现的该名称节点保存到了第一次出现该名称的节点的self.nodeLink属性中，展现的效果也相当于把它俩连起来了，假如第三条事务来了，又是一条独立路径，而刚刚那个节点又出现了第三次，那么由项头表顺着节点链找到第二次出现该名称的节点实例，让这个实例的self.nodeLink保存刚刚出现的第三次该名称的节点实例，效果相当于用self.nodeLink把这三个相似项串联起来了。而如果这第一个元素在根节点的self.children字典的键中，这说明这个元素被重用了，也就是在根节点后不用开辟新路径，因为被重用了，所以该名称的节点实例的self.count 要加1，那么接下来再遍历这第二条事务的第二个元素，这里把刚刚重用的第一个元素看作根节点，因此画这第二条事务的第二个元素节点的时候又跟上述一样，先判断这个第二个元素是不是在第一个重用元素的self.children字典的键中，在的话继续重用，不再的话就从这里开始分叉，开辟出新路径。

     6.updateHeader() 函数:

    该函数作用是：当出现两个或两个以上的相似项时，找到最后一个相似项的实例，让该实例的self.nodeLink属性保存新出现的相似项，效果如同是在一条链的最后一个节点后再接入一个节点，这些链就是self.nodeLink。

-------------- 上述几个函数是为了构建出FP树，接下来的函数来挖掘该树 ----------------

     7. findPrefixPath() 函数：

     该函数作用是找到给定元素名称的条件模式基，以字典格式存贮。我们知道项头表的键其实就是频繁1项集，而FP树的所有节点都来自这个频繁1项集，也可以这么说，频繁1项集构成了这个FP树，我们要想找一个元素(如'z')的的条件模式基，就需要找到FP树中该名称的所有节点，首先项头表中能找到第一次出现的该名称的节点实例，然后读取这个实例的self.nodeLink可以找到第二次出现的该名称的节点实例，再读取第二次出现的节点实例的self.nodeLink就能找到第三次出现的该名称的节点实例，找出来这所有相似节点的实例，只需要分别从这些相似节点实例从下往上回溯直到根节点(空集)，就可以得到许多条路径，因为前缀路径我们不写开头和结尾(结尾节点就是刚才往上回溯的节点实例)，故把每一条路径的结尾(也就是该元素)和开头(空集)去掉，剩下的元素组成的路径称为前缀路径，用一个列表来存贮，而所有前缀路径组成条件模式基，我们用一个字典来保存该条件模式基，字典的键就是每条前缀路径，键对应的值是刚才去掉的结尾节点实例的self.count，也就是该路径的叶子节点的计数值。

     8. ascendTree() 函数:

     该函数作用是找到给定节点往上回溯到根节点的路径。并把路径存到列表中。

     9. mineTree() 函数：

    该函数输入FP树和项头表，遍历项头表的键(频繁1项集)的每个元素，并调用findPrefixPath()，得到该元素的条件模式基，我们把该条件模式基再调用createTree()函数，创造出该元素对应的条件模式树和条件项头表，这里的条件项头表就是上面的表6，我们再把条件模式树和条件项头表再输入到mineTree()，形成递归，就会得到该元素和其对应的条件项头表(表6)的频繁1项集的自由组合，假如你不想使用递归来得到自由组合也可以，需要另外定一个函数来实现这个自由组合功能，我试过，因为在上一章Apriori算法中也有实现自由组合列表元素的这种功能的函数，但是实现起来确实麻烦，代码量大，不如书上这种用递归好。
from numpy import *
import operator

class treeNode: # 存储节点信息
    def __init__(self, nameValue, numOccur, parentNode):
        self.name = nameValue  # 自身频繁项名字，如‘z'或’x'
        self.count = numOccur  # 此时此刻这个节点被事务经过的次数
        self.nodeLink = None   # 用于保存相似项的实例地址
        self.parent = parentNode # 保存父节点的实例地址
        self.children = {}  # children是以一个嵌套字典，存贮分叉时的实例地址

    def inc(self, numOccur): # count计数加上numOccur
        self.count += numOccur

    def disp(self, ind=1): # 遍历children属性，打印出子树
        print(' '*ind,self.name,self.count)
        for child in self.children.values():
            child.disp(ind+1)

def loadDataSet():  # 加载测试事务
    simpDat = [['r','z','h','j','p'],
               ['z','y','x','w','v','u','t','s'],
               ['z'],
               ['r','x','n','o','s'],
               ['y','r','x','z','q','t','p'],
               ['y','z','x','e','q','s','t','m']]
    return simpDat  # 返回二维列表

def createIniSet(dataSet): # 整理成字典形式
    retDict = {}
    for trans in dataSet:
        retDict[frozenset(trans)] = 1
    return retDict

def updateHeader(nodeToTest, targetNode): # 找到节点链接的最后一个实例，然后该实例的self.nodeLink保存刚才待被连接的节点实例，相当于节点链接末尾又增了一个节点
    while (nodeToTest.nodeLink != None):  # 如果nodeLink不是空时继续顺着节点链接走，知道找到末尾
        nodeToTest = nodeToTest.nodeLink
    nodeToTest.nodeLink = targetNode    # 找到末尾之后，末尾节点的nodeLink保存新的节点实例

def updateTree(items,inTree,headerTable,count): # items是每条记录按支持度排好的特征，
    if items[0] in inTree.children:  # 如果这棵子树同一深度有这个键(特征)了，就把其对应的频数加一
        inTree.children[items[0]].inc(count)
    else:    # 如果这棵子树在同一深度没有这个键
        inTree.children[items[0]] = treeNode(items[0],count,inTree) # 就把这个键形成的节点存到这棵子树的children属性中
        if headerTable[items[0]][1] == None: # 如果项目头对应该键的节点指针指向为空
            headerTable[items[0]][1] = inTree.children[items[0]] # 那么把项目头对应该键的节点指针指向该节点，翻译到程序中就是headerTable中该键对应的值的第二位存储该节点的实例地址
        else:  # 如果已经有指向了，就在已有指向的节点的nodeLink属性添加刚才那个节点的信息
            updateHeader(headerTable[items[0]][1],inTree.children[items[0]])
    if len(items) > 1:
        updateTree(items[1::],inTree.children[items[0]],headerTable,count) # 把该记录整理的特征集合的第一个特征删掉，继续递归

def createTree(dataSet,minSup=1):  # 创建树
    headerTable = {}
    for trans in dataSet:      # 每个特征计数
        for item in trans:
            headerTable[item] = headerTable.get(item,0) + dataSet[trans]
    for k in list(headerTable.keys()):     # 把不满足支持度的特征删除
        if headerTable[k] < minSup:
            del headerTable[k]            # headerTable的键是满足支持度的特征，值是支持度
    freqItemSet = set(headerTable.keys()) # 满足支持度的特征的集合，也可以认为是频繁1项集
    if len(freqItemSet) == 0:
        return None,None
    for k in headerTable:  # 改造成真正的项头表格式
        headerTable[k] = [headerTable[k],None]  # headerTable键还是满足支持度的特征，值的第一个位置是具体支持度数，第二个是None
    retTree = treeNode('Null set',1,None)     # 创建树，根是Null set
    for tranSet,count in dataSet.items():     # 从原始事务中取一条事务
        localD = {}
        for item in tranSet:   # 开始对原始事务进行处理，即去除不满足支持度的元素
            if item in freqItemSet: # freqItemSet是满足支持度的特征的元组
                localD[item] = headerTable[item][0]   # 把一条记录的符合支持度的特征及对应的支持度存到自点的键与值中
        if len(localD) > 0:  # 如果此筛选后的事务中有符合条件的元素
            orderedItems = [v[0] for v in sorted(localD.items(),key = operator.itemgetter(1,0),reverse=True)] # orderedItems把每个记录的特征按支持度倒序排列
        # print('orderItems=',orderedItems)
        updateTree(orderedItems,retTree,headerTable,count)
    return retTree,headerTable

def ascendTree(leafNode, prefixPath):  # leafNode是节点信息，prefixPath是前缀路径，其实就是条件模式基的列表
    if leafNode.parent != None:
        prefixPath.append(leafNode.name)
        ascendTree(leafNode.parent,prefixPath)  # 如果这个节点还有父亲节点，那么递归

def findPrefixPaht(basePat, treeNode):  # basePat节点名称如‘z'或’x',treeNode是headerTable表中存的这个节点的实例
    condPats = {}
    while treeNode != None:
        prefixPath = []
        ascendTree(treeNode,prefixPath)  # prefixPath是一条前缀路径，treeNode是存入headerTable表的这个节点的实例
        if len(prefixPath) > 1: # 因为前缀路径我们不写结尾元素，也就不是不写该节点，所以假如有前缀路径，那么prefixPaht大小一定大于1,等于1说明这个频繁项这条前缀路径是空
            condPats[frozenset(prefixPath[1:])] = treeNode.count # 前缀路径的所有元素的计数值等于这个尾元素的计数值，且把这个频繁项去掉，前缀路径不写结尾元素
        treeNode = treeNode.nodeLink  # 顺着节点链接找到相似项，再查找相似项的前缀路径
    return condPats

def getFrequentSet(element,myHeadList,freqItemList):
    freqItemList.append(frozenset((myHeadList[0],element)))
    if len(myHeadList)>1:
        getFrequentSet(element,myHeadList[1:],freqItemList)

def mineTree(inTree, headerTable, minSup, preFix,freqItemList): # preFix是set(),freqItem是[]
    bigL = [v[0] for v in headerTable.items()]
    # print('bigL=',bigL)
    for basePat in bigL:
        newFreqSet = preFix.copy() # preFix是set集合，这里用了copy，即newFreqSet的变化不会影响原pareFix
        newFreqSet.add(basePat)
        freqItemList.append(newFreqSet)
        condPattBases = findPrefixPaht(basePat,headerTable[basePat][1])  # condPattBases是该值对应的条件模式基
        myCondTree,myHead = createTree(condPattBases,minSup)
        # print('myHead=是条件树的项头表',basePat,myHead)
        if myHead != None:  # myHead是条件树的项头表
            # print('conditional tree for:',newFreqSet)
            myCondTree.disp(1)
            mineTree(myCondTree,myHead,minSup,newFreqSet,freqItemList)
    return freqItemList

if __name__ == '__main__':
    simData = loadDataSet()
    initSet = createIniSet(simData)
    myFptree,myHeaderTab = createTree(initSet,3)
    myFptree.disp()
    freqItem = []
    freqItem = mineTree(myFptree,myHeaderTab,3,set([]),freqItem)
    print(freqItem)
★ 运行结果：

     ✿ FP树：

    可以看出运行结果的FP树跟咱们分析而画出的图1是完全一致的。

    ✿ 频繁项集：

[{'z'}, {'r'}, {'x'}, {'x', 'z'}, {'t'}, {'x', 't'}, {'x', 't', 'y'}, {'x', 't', 'y', 'z'}, {'x', 't', 'z'}, {'t', 'y'}, {'t', 'y', 'z'}, {'t', 'z'}, {'y'}, {'x', 'y'}, {'x', 'y', 'z'}, {'y', 'z'}, {'s'}, {'x', 's'}]

★ 参考链接：

1. https://www.cnblogs.com/pinard/p/6307064.html

你可能感兴趣的:(大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
数字化（电子化）招标采购平台系统核心功能详细介绍 xinyuan_123456 oracle
数智化招标采购平台覆盖全业务类型、全采购流程、全采购方式，是郑州信源公司运用“互联网+”、大数据、人工智能、区块链、物联网等新兴技术，结合供应链管理理念，以招标采购为核心，提供交易、管理、数据、服务、监管为一体的高标准采购管理平台，赋能政企用户实现采购业务全流程的电子化、数字化、智慧化。根据产品功能及应用领域，产品包括：企业数智化招采供应链平台、金融数智化招采平台、政府数智化采购平台、公共资源数智
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

TID	Item
1	[ 'r', 'z', 'h', 'j', 'p' ]
2	[ 'z', 'y', 'x', 'w', 'v', 'u', 't', 's' ]
3	[ 'z' ]
4	[ 'r', 'x', 'n', 'o', 's' ]
5	[ 'y', 'r', 'x', 'z', 'q', 't', 'p' ]
6	[ 'y', 'z', 'x', 'e', 'q', 's', 't', 'm' ]