A little storm

简单详细叙述FpGrowth算法思想（附python源码实现）

关联规则--FpGrowth算法思想及编程实现

构建FpTree
FpTree线索的构造
挖掘关联规则
python代码实现

本文为博主原创文章，转载请注明出处，并附上原文链接。

原文链接：https://blog.csdn.net/qq_39872846/article/details/106042796

FpGrowth算法，全称：Frequent Pattern Growth—-频繁模式增长，该算法是Apriori算法的改进版本（若是不会这个算法或是有点遗忘了，可以移步到我的这篇博客大白话解析Apriori算法python实现（含源代码详解）），我们知道Apriori算法为了产生频繁模式项集，需要对数据库多次扫描，当数据库内容太大，那么算法运行的时间是难以忍受的，因此有人提出了FpGrowth算法，只须扫描数据库两次即可求出频繁项集，大大的缩减了扫描数据库的时间，下面我会尽量用简单易懂的语言描述这个算法所需要的概念及算法思想，希望对读者有帮助！

构建FpTree

（以下文章中所用到的概念在上一篇文章中已经详细解释过了，这里不再赘述，如果对概念有疑问，请移步这篇文章大白话解析Apriori算法python实现（含源代码详解））
FpGrowth算法最经典的思想就是构建一颗树来压缩大量数据记录，如何把多条数据记录压缩到一颗树中呢？用一个例子就可以清晰表达出这个思想。
我们以下面的数据记录为例：
（假设某超市有6种商品，以下是5个顾客的购买情况，我们依旧不关心购买数量，只关心购买种类）

顾客ID	购买种类（Item）
T1	牛奶，面包
T2	面包, 尿布, 啤酒, 鸡蛋
T3	牛奶, 尿布, 啤酒, 可乐
T4	面包 ,牛奶, 尿布, 啤酒
T5	面包, 牛奶, 尿布, 可乐

为了方便程序实现，把这些商品种类替换为字母表示：


牛奶 --> a	面包 --> b	尿布 --> c
啤酒 --> d	可乐 --> e	鸡蛋 --> f

替换后数据记录如下：

顾客ID	购买种类（Item）
T1	a, b
T2	b, c, d, f
T3	a, c, d, e
T4	b, a, c, d
T5	b, a, c, e

【注意】：为了方便程序实现简化代码，我依旧只使用支持度来判断。

对数据库进行第一次扫描，找出所给数据记录中商品的种类，并且对每一种商品出现的次数进行计数，即可得出第一次扫描结果，结果如下：
（这里有个细节，我们求出每种商品出现的次数后，需要按照出现次数的大小，由大到小排列，如果出现次数相同，则先后顺序无所谓）

这个时候，就要用到支持度的概念了，我们知道，如果某一种商品组合（这个组合，可以是1个，或者2个，甚至3个以上的不同种类商品的组合），在整条数据库中出现的次数太少，那我就认为他们没有关联，这个道理很显然。就是对应与Apriori两个定理之一，非频繁项集的超集一定不是频繁项集。

所以，这里我设置最小支持度为3，只要支持度大于等于3，我就认为这个商品组合是频繁项集。
因此，对于上表，去除不符合条件的项集 e 和 f，结果如下：
第二次扫描数据库，开始创建FpTree，初始时，先创建一个根节点，记为null。

首先对于每一条数据记录，先对里面的商品种类按照 “某种顺序” 排序，（这个某种顺序是，在第一次扫描数据库后，按照其商品出现次数，由大到小排列后，其对应的商品种类顺序。这个例子有点巧合，按照各个商品出现次数由大到小排序后，商品种类的顺序恰好是字母顺序 abcdef ，在真实的数据记录中，不一定是这样。比如，现在有一个新的数据记录，进行统计后，发现，a出现2次，b出现5次，c出现10次，d出现1次，e出现15次，f出现6次，那么，按照出现次数由大到小排序后，这个 “某种顺序” ，就是 ecfbad ，每条数据记录都要按照这个奇怪的顺序排列，不再是按照字母表顺序了）。

现在对于第一条已经排好序的记录，就是（a，b）这条记录，先创建一个节点，命名为a，将其插入根节点null下，并且在这个节点内，设置一个count变量，令count=1，接着在创建一个节点，命名为b，将其插入节点a下，同样的，在节点b内，令它的count=1，至此，第一条记录扫描完成，形成的树见下图：

对于二条已经排好序的记录，就是（b, c, d, f），我们要先去除那些不是频繁项集的字母，也就是f，f的支持度为1，比最小支持度小。过滤掉这些非频繁项集后，第二条记录变为了（b, c, d）。现在开始插入节点，从根节点开始看，由于根节点的孩子中没有b这个孩子，那么现在创建一个节点b，把它插入根节点下，令这个b节点的count=1。在创建一个c节点，插入刚才的b节点下，令c节点count=1。在创建一个d节点，将其插入刚才的c节点下，令d节点的count=1。至此第二条记录扫描完毕，此时FpTree的结构如下图：

对于第三条已经排好序的记录，就是（a, c, d, e）同样的，我们要过滤到非频繁项集，所以第三条记录变为了（a, c, d）。现在开始插入节点，从根节点开始看，发现根节点null的孩子中有a节点，那么我们就不创建新节点了，我们将这个的a节点的count + 1，即现在a节点的count=2。接着看a节点的孩子中有没有c节点，发现找不到，则创建一个c节点，令count=1，将其插入a节点下。最后，创建一个d节点，令count=1，将其插入刚刚创建的c节点下。至此，第三条记录扫描完毕，现在的FpTree形状如下：

对于第四条已经排好序的记录，就是（a, b, c, d），过滤掉非频繁项集，第四条记录变为了（a, b, c, d）。现在开始插入节点，依旧从根节点开始看，发现根节点null的孩子中有a节点，则不创建新节点了，我们将这个的a节点的count + 1，即现在a节点的count=3。然后看a节点的孩子中有没有b节点，发现有b节点，那么不用创建了，直接对这个b节点的count + 1即可，现在这个b节点count=2。接着看这个b节点的孩子中有没有c，我们发现找不到c，则创建一个c节点，令count=1，插入刚才的b节点中。最后，在创建一个d节点，令count=1，插入刚才在c节点中。至此，第四条记录扫描完毕，现在的FpTree形状如下：
对于第5条排好序的数据记录，即（a, b, c, e），过滤到非频繁项集，得（a, b, c）。从根节点开始看起，发现根节点的孩子中存在a节点，因此，对这个a节点的count+1，即count=4。在看这个a节点的孩子中存在b节点，太好了，我们又不用创建b节点了，直接令这个b节点的count+1，即现在count=3。最后，这个b节点的孩子中存在c节点，我们依旧不用创建新的c节点了，直接令这个c节点的count+1，即现在c节点count=2。至此，整个数据库扫描完毕，最后生成的FpTree形状如下：

经过上面的学习，我们就可以大致猜出，每个节点所包含的信息有哪些了，请看下图：

idName：节点名字
childs：指向该节点所有孩子节点的地址
parent：指向该节点的父亲节点（在挖掘关联规则时，需要找到父亲节点）
nextCommonId：指向下一个节点，这个节点与该节点名字相同（用于构造线索，文章下文有说明）
idCount：就是在刚才构造这颗树时，我们说的count，用于计数

FpTree线索的构造

刚才我们已经构建出了FpTree，这个树有什么意义呢？

我们知道在最开始的数据记录中，数据松散不堪，每条记录中，各个商品只出现1次。那么经过这样的变换，我们可以通过某种特殊方式，遍历这个树，就可以还原最开始的数据集，（这个特殊方法是，对这颗树，我们从根节点开始，随意找一条路径，这条路径的结尾节点必须是尾节点（尾节点就是，该节点没有孩子节点），那么这条路径就是一条记录，将这条记录取出后，别忘了对这条路径上的每个节点的count-1。在这个过程中，如果某个节点的count=0了，那么就移除这个节点。现在清楚了，只要按照这个方法，就可以完美还原出初始的数据集了，显然，这种树状的数据存储方式极大的压缩了原来的数据集，非常实用）。

但是，您应当已经注意到了，这颗树的节点，有许多名字相同的节点，其实，在最后，我们对这个树进行挖掘关联规则时，您就知道这个现象的用处了。
事实上，您如果把相同名字节点的count加起来，其结果就是该商品在总数据记录中出现的总次数。比如 b节点，在FpTree中有2个节点，其count值相加，即 3 + 1 = 4 ，正好是b在总记录中出现的次数。其他节点也是如此。

为了方便我们后续用这颗树挖掘关联规则，我们需要建立一个线索，把这些节点名字相同的节点用链表串起来。
我们可以创建一个表头，以它为链表的头部，把名字相同的节点串起来。

挖掘关联规则

频繁模式树FpTree建好后，线索也建立了，现在开始挖掘关联规则。
注意：在这里，我只认为支持度大于最小支持度就认为它是频繁项，最小支持度依旧为3。

上图就是第一次扫描数据库后，按照商品出现次数排序后的表格，挖掘关联规则时，要首先从表尾开始挖掘。

在这个例子中，就是从d节点开始，根据我们创建的线索表，可以很轻松的找出所有相同节点，然后可以写出这些节点所在的节点分支，即（a，b，c，d ：1），（a，c，d ：1），（b，c，d ：1），后面的数字 1 是每条分支的最后一个节点的count值。这里要注意一下，虽然 a 出现了 4 次（即a的count=4），但是 a，b，c，d 这个整体只出现了 1 次，这取决与，在这条分支上，某个节点的最小count值。
现在，我们去除d节点，（直接把所有的d节点删除），那么就可以得到d的前缀节点（d的前缀节点就是d节点前面的节点），即{ （a，b，c ：1），（a，c ：1），（b，c ：1） }，还要注意一下，这里的数字 ”1“，依旧是原来的d节点的count值，不是c节点的count值。
好了，做到这步，我们其实得到了一个全新的数据记录：

Id	商品种类
T1	a，b，c
T2	a，c
T3	b，c

看到这个类似的表，是不是很熟悉，我们需要根据现在这个新的数据记录表，开始构建一个新的FpTree，方法依旧和上文一样，这里只给出新的FpTree的结构：

这个新的FpTree已经建立好了，只要这个新的FpTree的路径不是1条，那我们就继续递归的挖掘。
如果新的FpTree的路径恰好就1条，那么这条路径上所有节点的组合就是条件频繁项集，假设 d 节点的条件频繁项集是 x，y，z ，那么a的频繁项集就是（x，d），（y，d），（z，d），可以看到这里的每个项集都有a这个后缀，因为您本来就是依据d节点建立的新数据集，求出这个新的数据集的条件频繁项集后，要求出原来的数据集的频繁项集，就要在这个条件频繁项集的后面加上 d节点。

回到这个具体的例子，可以看到新的数据记录构建的FpTree，只有一条路径，那么递归结束，这条路径有两个节点（null，c），一定不要忘记null节点，null就是表示一个空节点。
两个节点的所有组合就是条件频繁项集，即{ null，c }，有一点需要注意，（null，c）和（c）是一样的，这两个没有区别。那么，最后，d的频繁项集就是{ （d），（c，d） }。

接下来看表头的倒数第二个项，即 c 节点，根据构建的线索，找出所有的c节点，节点所在的所有分支为 {（a，b，c ：2），（a，c ：1），（b，c ：1）}，（提示：后面的数字是c节点的count值，数字 ”2“ 代表这条分支出现了2次），同样的，去除掉c节点，（去除c节点时，c节点后面的节点同样也被去掉了），故可得新是数据集{（a，b ：2），（a ：1），（b ：1）}，做个表格，如下：

ID	商品种类
T1	a，b
T2	a，b
T3	a
T4	b

a，b这个组合在表格中出现了2次，因为它在分支中出现了2次，（在这里，我之所以把它重复2次的写入数据记录表中，其实是为了能复用我们之前的代码，这样就不用重新在写一个函数了。在实际的数据情况中，如果a，b组合出现了1000次，我如果把它展开到数据记录中，这个数据记录就有1000行相同信息的记录了，这样显然不合适，我们需要在编写一个函数，在构建FpTree时，直接把这条数据的count设为1000即可，这样会大大节省时间）
对上面这个新的表构建FpTree，结构如下图：

它同样是一条单一路径，路径上节点的所有组合即为条件频繁项集，别忘了空节点null，条件频繁项集为（null），（a），（b），（a，b），那么c的频繁项集就是 { （c），（a，c），（b，c），（a，b，c） }。
显然，这一组的频繁项集始终有一个相同的后缀 c，因此这一组的频繁项集永远不会和上一组重复。

在看倒数第3个节点，b节点，处理方式和前两个一样，留给读者做练习，这里直接给出该节点的频繁模式树FpTree：
最后一个节点，a节点，它的条件频繁项集是 { null }，频繁项集就是{ （a） }。
至此，整个算法流程已经叙述完了，补充一点，在不断递归求新的数据记录，建立的新的FpTree时，只要新的FpTree路径不是1条，就可以继续递归，直到新的FpTree路径为1时，结束递归，进行处理。当然也可以用迭代，只不过代码会显的一点多，不如递归清晰。

python代码实现

运行环境 python3.6 PyCharm

先给出运行结果：

相应代码如下：

这颗树的节点结构，用python类的表示：

'''
Frequent Pattern Tree 繁模式树

牛奶 a   面包 b   尿布 c   啤酒 d   可乐 e   鸡蛋 f
所用数据集
T1  {牛奶,面包}
T2  {面包,尿布,啤酒,鸡蛋}
T3  {牛奶,尿布,啤酒,可乐}
T4  {面包,牛奶,尿布,啤酒}
T5  {面包,牛奶,尿布,可乐}
   转化为字母表示，即
数据集
database = [    ['a', 'b'],
                ['b', 'c', 'd', 'f'],
                ['a', 'c', 'd', 'e'],
                ['b', 'a', 'c', 'd'],
                ['b', 'a', 'c', 'e']   ]
'''
class FpNode():

    def __init__(self, name='', childs={}, parent={}, nextCommonId={}, idCount=0):
        self.idName = name  # 名字
        self.childs = childs  # 所有孩子结点
        self.parent = parent  # 父节点
        self.nextCommonId = nextCommonId  # 下一个相同的 id名字 结点
        self.idCount = idCount  # id 计数

    def getName(self):      #获取该节点名字
        return self.idName

    def getAllChildsName(self):     #获取该节点所有孩子节点的名字
        ch = self.childs
        keys = list(ch.keys())
        names = []
        for i in keys:
            names.append( list(i))
        return names

    def printAllInfo(self):     #打印该节点所有信息
        print(self.idName, self.idCount, list(self.childs.keys()), list(self.parent.keys()), self.nextCommonId.items() )

    @classmethod
    def checkFirstTree(cls, rootNode):   #前序遍历整个树（这不是二叉树，没有中序遍历）
        if rootNode is None:
            return ''
        #parent1 = rootNode.parent.keys()      #要加一个 强转 ，否则它会变成 Nopetype 型，
        rootNode.printAllInfo()       # print(rootNode.idName, type(rootNode.parent))  报错 root 

        if rootNode.childs is not None:
            keys = list(rootNode.childs.keys())
            for i in keys:
                cls.checkFirstTree(rootNode.childs[i])

    @classmethod
    def checkBehindTree(cls, rootNode):     #后序遍历整个树
        if rootNode is None:
            return ''
        if rootNode.childs is not None:
            keys = list(rootNode.childs.keys())
            for i in keys:
                cls.checkBehindTree(rootNode.childs[i])
        rootNode.printAllInfo()

主函数及算法实现：（请从最后的main函数开始看起）


from practice04_FpGrowth.FpNodeClass import FpNode
import copy

def scan1_getCand1(database): #第一次扫描统计出现的次数
    c1 = {}  #候选集

    for i in database:
        for j in i:
            c1[j] = c1.get(j, 0) + 1        #表示如果字典里面没有想要的关键词，就返回0
    #print(c1)
    return c1

#返回排好序的字典

#对数据进行排序，按支持度由大到小排列
def sortData(**d):    #形参前添加两个 '*'——字典形式  形参前添加一个 '*'——元组形式
    sortKey = list(d.keys())               #直接使用sorted(my_dict.keys())就能按key值对字典排序
    sortValue = list(d.values())

    length = len(sortKey)
    for i in range(length-1):   #按照支持度大小，由大到小排序的算法
        for j in (i, length-1-1):  #必须 -1 （1，len）虽然不包含 len本身 但是数组【len-1】时最后一个元素，必须减去这个元素
            if sortValue[i] < sortValue[j + 1]:
                sortValue[i], sortValue[j + 1] = sortValue[j + 1], sortValue[i]     #如果它的支持度小与另一个，交换位置
                sortKey[i], sortKey[j + 1] = sortKey[j + 1], sortKey[i]

    new_c1 = {}     #存放排完序的数据记录
    for i in range(length):
        new_c1[sortKey[i]] = sortValue[i]

    return new_c1  #返回排好序的字典

#得到 database 的频繁项集
def  getFreq(database, minSup = 3, **c1):   #返回频繁项集，和频繁项集的支持度

    c1 = scan1_getCand1(database)        #第一次扫面数据库，求第一次候选集，返回的是字典
    new_c1 = sortData(**c1)      #排序，大到小

    keys = list(new_c1.keys())
    for i in keys:
        if new_c1[i] < minSup:  #若支持度小于最小支持度，则删除该商品
            del new_c1[i]

    f1 = []  # 第一次频繁项集
    new_keys = list(new_c1.keys())
    for i in new_keys:
        if [i] not in f1:
            f1.append( [i] )  #每个元素自成一项
    #print(f1,new_c1)
    return f1, new_c1

def createRootNode():   #创建一个根节点
    rootNode = FpNode('root', {}, {}, {}, -1)     #name, childs, parent, nextCommonId, idCount
    return rootNode

def buildTree(database, rootNode, f1):   #构建频繁模式树 FpTree

    for i in database:  #第二次扫描数据库
        present = rootNode  #指向当前节点
        next = FpNode(name='', childs={}, parent={}, nextCommonId={}, idCount=0) #创建一个新节点，并初始化
        for j in f1:  #按支持度从大到小的顺序进行构建节点
            if set(j).issubset(set(i)): #j如果在i里面
                if (present.getName() is 'root') and j not in rootNode.getAllChildsName():
                    next.idName = str(j[0])     #对新创建的节点进行赋值
                    next.idCount = next.idCount + 1
                    next.nextCommonId = {str(j[0]): 0}

                    next.parent.update({rootNode.idName:rootNode})
                    temp = copy.copy(next)
                    rootNode.childs.update({str(j[0]):temp})  #往它插入父亲节点
                    ##print(temp.parent)

                    present = temp         #present = next 这样直接赋值是 引用 ，一定要注意
                    next = FpNode(name='', childs={}, parent={}, nextCommonId={}, idCount=0)  #创建并初始化下一个新节点

                else:
                    if j in present.getAllChildsName():     #如果需要插入的节点已经存在
                        temp2 = present.childs[str(j[0])]
                        present = temp2
                        present.idCount = present.idCount + 1   #count+1即可
                    else:
                        next.idName = str(j[0])         #对新插入的节点赋值
                        next.idCount = next.idCount + 1
                        next.nextCommonId = {str(j[0]): 0}
                        next.parent.update({present.idName:present})
                        #temp3 = copy.copy(next)
                        present.childs.update({str(j[0]):next})     #往它插入父亲节点
                        #temp3.childs = {}

                        present = next
                        next = FpNode(name='', childs={}, parent={}, nextCommonId={}, idCount=0)

                #present = next
                #next = FpNode()
    #print(rootNode.getAllChildsName())
    # print('前序遍历如下：')
    # FpNode.checkFirstTree(rootNode)
    # print('后序遍历如下：')
    # FpNode.checkBehindTree(rootNode)
    return None

#构建线索，填节点的nextCommonId这个属性
def buildIndex(rootNode, d1):  #传 列表或字典时，列表前，加*， 字典前加 ** 表示传给函数的是一个地址，在函数内部改变这个参数，不会影响到函数外的变量

    if rootNode is None:
        return ''
    next = rootNode   #指向下一个节点，当前赋值为根节点
    value = rootNode.idName
    #print(value)
    #print(d1[str(value)])             #d1[value] {KeyError}'a'???????????????   如果value是根节点root，就会出错，表中本来就没有root这个值
    #print(d1)
    if value != 'root':
        indexAds1 = {value: d1[value]}
        if d1[value] == 0:  # 线索构造   我已经把初始化了所有的 nextCommonId 为 {'': 0}
                                    # 所以后面只要 这个节点的 nextCommonId字典的值为0，就说明这个字典就是构建的链表链尾
            d1[value] = next
            # print(indexAds1)
        else:
            while  indexAds1[value] != 0:
                indexAds1 = indexAds1[value].nextCommonId       #以链表形式把最后一个 表尾元素找出来
                #print(indexAds1)
            indexAds1[value] = next  #这个元素后面加入 当前所在树的这个节点的地址
            #print(next.nextCommonId)
    if rootNode.childs is not None:     #根节点孩子不是null，则对它的每个孩子，依次递归进行线索构建
        keys = list(rootNode.childs.keys())
        for i in keys:
            buildIndex(rootNode.childs[i], d1)

def createIndexTableHead(**indexTableHead):     #创建一个表头，用来构建线索，表头的名字是相应节点的名字
    keys = list(indexTableHead.keys())
    #print(keys)
    for i in keys:
        indexTableHead[i] = 0

    return indexTableHead

def getNewRecord(idK, **indexTableHead):        #得到新的数据记录
    newData = []
    address = indexTableHead[idK]

    while address != 0:
        times = 0
        times = address.idCount  #当前节点count数
        l = []  #临时存放这个分支上的所有节点元素，单个单个存储 二维列表
        getOneNewR = [] #和l一样，是l的倒叙，因为l本来是倒叙的，现在把它改成倒叙
        #print(list(address.parent.keys())[0])  #这样写才是 字符 c  而不是 'c'
        nextAdress = copy.copy(address)#一个指针，指向父亲节点，初始化为表头第一个的地址
        while list(nextAdress.parent.keys())[0] is not 'root':  #该节点发父亲节点不是根节点。则
            #print(address.parent)
            l.append(list(nextAdress.parent.keys()))    #把它的父亲节点加入l中

            parentIdName = list(nextAdress.parent.keys())[0]    #父亲节的名字
            nextAdress = nextAdress.parent[ parentIdName  ]  #指向该节点父亲节点
        if l != []:
            for j in l:
                getOneNewR.append(j[0])

        if getOneNewR != []:
            for k in range(times):    #若最后的那个 idk 计数为多次，要把它多次添加到新产生的newData中
                newData.append(list(getOneNewR))
         #把得到的记录加入新的数据集中

        address = address.nextCommonId[idK]  #指向下一个表头元素的开始地址，进行循环

    return newData

#    idK表示当前新产生的数据集是在去除这个字母后形成的，  fk是去除掉idk后，新的第一次频繁项集  dk是fk的支持度
def getAllConditionBase(newDatabase,idK, fk, minSup, **dk): #返回条件频繁项集 base， 和支持度

    if fk != []:    #频繁项集非空
        newRootNode = createRootNode()  #创建新的头节点
        buildTree(newDatabase, newRootNode, fk)
        #newIndexTableHead = {}  #创建新表头
        newIndexTableHead = createIndexTableHead(**dk)  # **dk 就是传了个值，给了它一个拷贝，修改函数里面的这个拷贝，不会影响到外面的这个变量的值
        buildIndex(newRootNode, newIndexTableHead)
    else:
        return [idK], {idK:9999}    #频繁项集是空的，则返回idk的名字，支持度设为最大值9999，这样会出现一些问题，最后已经解决了，在主函数代码中有表现出来

    if len(newRootNode.getAllChildsName()) < 2: #新的FpTree只有1条分支，（这里只认为根节点只有1个孩子，就说他只有一条分支）
                                  #若是实际数据，就不能这样写了，应当在写一个函数，从根节点开始遍历，确保每个节点都只有1个孩子，才能认为只有1条分支
        base = [[]] #条件基
        node = newRootNode
        while node.getAllChildsName() != []:    #当前节点有孩子节点
            childName = list(node.childs.keys())        #一个列表，孩子节点的所有名字，其实就1个孩子，前面已经判断了是单节点
            base.append(list(childName[0]))   # 把孩子节点加入条件基
            #print(node.childs)
            #print(childName)
            node = node.childs[childName[0]] #指向下一个节点
        #print(base)
        itemSup = {node.idName : node.idCount}    #这一条分支出现的次数，最后求频繁项集支持度需要用到
        #print(itemSup)
        return base, itemSup #返回条件基，还有这一条分支出现的次数，
    else:   #分支不止1条，进行递归查找，重复最开始的操作
        base = [[]]
        for commonId in fk[-1::-1]: #倒叙进行
            newIdK = str(commonId[0])
            newDataK = getNewRecord(newIdK, **newIndexTableHead)  # 传入这个表头的一个拷贝
            fk2, dk2 = getFreq(newDataK, minSup)
            conditionBase, itemSup = getAllConditionBase(newDataK, newIdK, fk2, minSup, **dk2)   #得到该条件基下的条件基，及各个分支出现次数
                                                #递归进行
            base.append(conditionBase)

        return base, itemSup

#FpGrowth算法本身（Frequent Pattern Growth—-频繁模式增长）
def FpGrowth(database, minSup = 3):
    f1, d1 = getFreq(database, minSup)  #求第一次频繁项集,并返回一个字典存放支持度，且按大到小排序，返回频繁项和存放频繁项支持度的字典
    rootNode = createRootNode()  #创建根节点
    #print(f1,d1)        #[['a'], ['b'], ['c'], ['d']]      {'a': 4, 'b': 4, 'c': 4, 'd': 3}

    # 第一步建造树
    buildTree(database,rootNode, f1)
    #indexTableHead = {}     #创建线索的表头，一个链表
    indexTableHead =  createIndexTableHead(**d1)  # **d1 就是传了个值，给了它一个拷贝，修改函数里面的这个拷贝，不会影响到外面的这个变量的值
    buildIndex(rootNode, indexTableHead)   #创建线索，用这个表头

    # print('构建线索后，前序遍历如下：')
    # FpNode.checkFirstTree(rootNode)
    # print('构建线索后，后序遍历如下：')
    # FpNode.checkBehindTree(rootNode)

    freAll = []   #所有频繁项集
    freAllDic = {}  #所有频繁项集的支持度

    #第二步    进行频繁项集的挖掘，从表头header的最后一项开始。
    for commonId in f1[-1::-1]:      #倒叙 从支持度小的到支持度大的，进行挖掘
        idK = str(commonId[0])
        newDataK = getNewRecord(idK, **indexTableHead)    #传入这个表头的一个拷贝， 函数返回挖掘出来的新记录
        fk, dk = getFreq(newDataK, minSup)  #对新数据集求频繁项集
        #print(fk,dk)
        base,  itemSup= getAllConditionBase(newDataK, idK, fk, minSup, **dk)  #得到当前节点的条件频繁模式集，返回
        #有可能会发生这样一种情况，条件基是 a ，然后fk，dk为空，结果这个函数又返回了 a，那么最后的结果中，就会出现 a，a  这种情况，处理方法请往下看

        #print(base，idK)
        for i in base:
            #print(i)
            t = list(i)
            t.append(idK)
            t = set(t)      #为了防止出现 重复 的情况，因为我的getAllConditionBase(newDataK, idK, fk, minSup, **dk)方法的编写，可能会形成重复，如   a，a
            t = list(t)

            freAll.append(t)
            itemSupValue = list(itemSup.values())[0]

            x = tuple(t)  #列表不能做字典的关键字，因为他可变，，而元组可以
                                            #: ['c', 'd']
            #print(t[0])     # t是列表，字典的关键字不能是可变的列表， 所以用 t[0] 来取出里面的值
            freAllDic[x] = min(itemSupValue, d1[idK])
    #print(freAll)
    #print(freAllDic)

    return freAll, freAllDic

if __name__ == '__main__':

    database = [['a', 'b'],
                ['b', 'c', 'd', 'f'],
                ['a', 'c', 'd', 'e'],
                ['b', 'a', 'c', 'd'],
                ['b', 'a', 'c', 'e']]

    freAll, freAllDic = FpGrowth(database, minSup = 3)
    #  minSup = 3     [['d'], ['d', 'c'], ['c'], ['c', 'a'], ['c', 'b'], ['b'], ['b', 'a'], ['a']]

    print(freAll)
    print("各个频繁项集的支持度依次为：")
    for i in freAllDic.keys():
        print(i, freAllDic[i])

由于本人学识尚浅，文章中的讲解和代码难免会有错误，还请大家指正，本人不胜感激！

你可能感兴趣的:(数据挖掘算法详解)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
【Python】数据结构,链表,算法详解 AIAdvocate python 数据结构链表排序算法广度优先深度优先
今日内容大纲介绍自定义代码-模拟链表删除节点查找节点算法入门-排序类的冒泡排序选择排序插入排序快速排序算法入门-查找类的二分查找-递归版二分查找-非递归版分线性结构-树介绍基本概述特点和分类自定义代码-模拟二叉树1.自定义代码-模拟链表完整版"""案例:自定义代码,模拟链表.背景: 顺序表在存储数据的时候,需要使用到连续的空间,如果空间不够,就会导致扩容失败,针对于这种情况,我们可以通过链表实现
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
纯生信很难发表？只是你没有及时抓住研究热点 SCI狂人团队
当你还做meta分析的时候，你会发现meta分析很难发或者单位已经不承认了，而聪明的人已经开始做常规的生信GEO、TCGA数据挖掘这些（这个时候生信比较好发）。当你开始做常规的生信GEO、TCGA数据挖掘的时候，你会发现这些一样也是比较难发了，而聪明的人已经开始抓免疫评分这个热点进行生信数据挖掘（这个时候免疫评分比较好发）。当你开始对免疫评分这个热点进行生信数据挖掘的时候，你会发现自己的研究方向差
Paxos 算法详解（一）林木森^~^ 数据结构和算法算法分布式 java
前言提到分布式算法，就不得不提Paxos算法，在过去几十年里，它基本上是分布式共识的代名词，因为当前最常用的一批共识算法都是基于它改进的。比如，FastPaxos算法、CheapPaxos算法、Raft算法、ZAB协议等等。兰伯特提出的Paxos算法包含2个部分：一个是BasicPaxos算法，描述的是多节点之间如何就某个值（提案Value）达成共识；另一个是Multi-Paxos思想，描述的是执
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
如何搞定数据挖掘？这篇文章告诉你！ isNotNullX 数据挖掘人工智能
在数字化的时代，数据是我们日常生活中不可或缺的一部分。数据所蕴含的信息具有重要价值，而数据挖掘和数据分析就是解读这些信息的重要工具。本文从明晰数据概念入手，再探讨数据挖掘。一·什么是数据？数据定义：数据（Data）是指对客观事物的属性、数量、位置、关系等进行记录和描述的原始材料或信息。数据可以是数字、文字、图像、声音等多种形式，它们是信息的载体，用于表示、传递和存储信息。简单来说，数据就是观测值。
一些机器学习不错的书籍 jimmyleeee 机器学习人工智能
最近，在学习一些机器学习的相关知识，在Github上居然找到了一个可以下载一些不错的介绍机器学习和大数据挖掘和分析的书籍。具体的书籍的信息可以参考一下链接：Books/DataSciencefromScratch.pdfatmaster·varunkashyapks/Books·GitHub
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版 weixin_37988176
给大家带来的一篇关于数据挖掘相关的电子书资源，介绍了关于Python、数据分析、数据挖掘方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小67.8MB，刘顺祥编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.5。内容介绍从零开始学Python数据分析与挖掘本书以Python3版本作为数据分析与挖掘实战的应用工具，从Pyhton的基础语法开始，陆续介绍有关数值计算的Numpy、数
废字承晔儿
u额堵不堵不断进步数据挖掘额v也得分发的大跳脱衣舞一个月肚饿肚饿金额见到你的就不会预计不不会吧菊花怪下班v触宝电话代表大会素冠荷鼎厚度还是v四川饭馆有电梯的但丁地狱冬天的多点多发发动态鼎泰丰饭地方放多放房东鹅二房方圆大厦？而他得让让热厄尔热水器…
大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
千万级规模高性能、高并发的网络架构经验分享搬砖养女人网络架构经验分享
主题：INTO100沙龙时间：2015年11月21日下午地点：梦想加联合办公空间分享人：卫向军（毕业于北京邮电大学，现任微博平台架构师，先后在微软、金山云、新浪微博从事技术研发工作，专注于系统架构设计、音视频通讯系统、分布式文件系统和数据挖掘等领域。）架构以及我理解中架构的本质在开始谈我对架构本质的理解之前，先谈谈对今天技术沙龙主题的个人见解，千万级规模的网站感觉数量级是非常大的，对这个数量级我们
2021-01-02随笔 0清婉0
人工智能时代最重要的是机器学习，像数据分析、图像识别、数据挖掘、自然语言处理、语音识别等都是以其为基础的，也可以说人工智能的各种应用都需要机器学习来支撑。现在各大公司越来越注重数据的价值，人工成本也是越来越高，所以机器学习也就变得不可或缺了。数据分析、自然语言处理、语音识别，这将是作为前端人员的我，在2021年学习的重点。现收集几本关于数据分析的书籍，作为参考书籍学习：1.《跟着迪哥学Python
机器学习案例-决策树实现鸢尾花分类 Ausgelebt 机器学习相关 python 分类
机器学习案例-决策树实现鸢尾花分类目录机器学习案例-决策树实现鸢尾花分类1.选题目的和意义2.主要研究内容2.1决策树算法分类（区别于树的结构和构造算法）2.2决策树算法详解2.3决策树的应用3.算法设计3.1数据分析3.1.1Iris数据集基本介绍3.1.2样本标签值分布3.1.3样本特征值分布3.1.4相关性热力图3.2建立决策树3.3模型调优3.3.1决策树深度（预剪枝）3.3.2选取部分特
Python是什么？Python能干什么？一篇文章让你对Python了如指掌！！武昌库里写JAVA 面试题汇总与解析 spring log4j java 开发语言算法
Python作为当下最热门的编程语言，已经成为了多个领域的首选语言。能用到Python的地方非常多。从入门级小白到专业级的大佬，数据挖掘、科学计算、图像处理、人工智能，Python都可以胜任。或许是因为这种万能属性，现在有很多的小伙伴都开始学习Python。而现在Python的火爆甚至已经来到了程序员的圈子外，进入了国务院《新一代人工智能发展规划的通知》里。Python也已经走进了小学生的课程里，
BAT的大数据战略数据资本主意
实际上，大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外，还带来数据的爆炸式增长。“引爆点”到来之后，人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下，数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时，数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。概念、模
前端数据埋点小童不学前端前端大数据
前端埋点文章目录前言一、什么是埋点二、为什么采用埋点三、前端埋点方案3.1、手动埋点3.2、可视化埋点3.3、无埋点四、埋点方式前言最近看到一个很有意思的前端数据收集：前端数据埋点，下面说说我的观点一、什么是埋点埋点，是数据采集领域，简单来说就是行为数据收集二、为什么采用埋点数据生产->数据收集->数据处理->数据分析->数据驱动/用户反馈->产品优化/迭代通过大数据处理，数据统计，数据挖掘等加工
寻找区块链行业里数字内容分发的独角兽 BBFund
时至今日，但凡对区块链有所了解的投资人都应该能看到这项技术必将给当前的内容分发行业带来彻底的改变。区块链技术的难以篡改特性适用于数字版权确权，而区块链项目的Token设计正好就是数字内容价值化的最佳解决方案。事实上互联网巨头们也都在内容分发领域奋力拼杀，但他们无非是在内容整合、数据挖掘、精准投放这些方面做文章。面对这个市场里最大的痛点：侵权、利益分配不均等问题，这些中心化的组织要么无能为力，要么自
python a星算法_a*算法（Python）的实现,A weixin_39911567 python a星算法
前言关于A*算法的实现是很早之前的一次开发中的成果，并做了一些改进。当然，在这里就不记录改进部分了，因为其中还有一些争议。这里仅是对A*算法的理解和使用Python实现。参考链接之所以放在前面，是因为这些链接的参考价值特别高，如果希望获得更多的了解，可以通过以下链接进行学习。英文网站redblobgames(红色斑点游戏)中文网站csdn：A星算法详解(个人认为最详细,最通俗易懂的一个版本)|模块
最短路径算法——A*算法有一点点想CoCo你算法
A*算法是静态路网中求解最短路径最有效的直接搜索算法，也是解决许多搜索问题的有效算法，广泛应用于机器人路径搜索、游戏动画路径搜索等。它是图搜索算法的一种。A*算法是一种启发式的搜索算法，它是基于深度优先算法(DepthFirstSearch,DFS)和广度优先算法(BreadthFirstSearch,BFS)的一种融合算法，按照一定原则确定如何选取下一个结点。参考：A*寻路算法详解#A星#启发式
Java在智能数据挖掘系统的应用 lizi88888 java 数据挖掘开发语言
智能数据挖掘系统是利用机器学习、统计分析等技术从大量数据中自动或半自动地发现模式和知识的系统。Java作为一种流行的编程语言，因其强大的性能和丰富的生态系统，在智能数据挖掘领域的应用非常广泛。本文将探讨Java在智能数据挖掘系统中的应用，并提供示例代码。智能数据挖掘系统概述智能数据挖掘系统通常具备以下功能：数据预处理：包括数据清洗、归一化、特征选择等。模式识别：识别数据中的模式，如分类、聚类、关联
EI会议推荐-第二届大数据与数据挖掘国际会议（BDDM 2024） shiyuankeyan 数据挖掘大数据
第二届大数据与数据挖掘国际会议（BDDM2024）1、基本信息大会官网：http://www.icbddm.org/官方邮箱：[email protected]主办方：武汉纺织大学会议时间：2024年12月13日-12月15日会议地点：湖北武汉02征稿主题：包含（但不限于）以下领域：大数据：大数据分析、人工智能、大数据网络技术、大数据搜索算法和系统、分布式和点对点搜索、基于大数据的机器学习、大数据可视化
基于时序差分的无模型强化学习：Q-learning 算法详解晓shuo 算法强化学习
目录一、无模型强化学习中的时序差分方法与Q-learning1.1时序差分法1.2Q-learning算法状态-动作值函数（Q函数）Q-learning的更新公式Q-learning算法流程Q-learning的特点1.3总结一、无模型强化学习中的时序差分方法与Q-learning 动态规划算法依赖于已知的马尔可夫决策过程（MDP），在环境的状态转移概率和奖励函数完全明确的情况下，智能体无需与环
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_