clvsit

Apriori

从大规模数据集中寻找物品间的隐含关系被称作关联分析（association analysis）或者关联规则学习（association rule learning）。

那么什么是关联分析呢？关联分析是一种在大规模数据集中寻找有趣关系的任务。这些任务包括两项：发现频繁项集和从频繁项集中发现关联规则。

频繁项集（frequent item sets）：是经常出现在一块的物品的集合，例如香烟和打火机。
关联规则（association rules）：暗示两种物品之间可能存在很强的关系，通常表示物品之间的“如果…那么”关系，例如“如果购买香烟，那么有很大概率会购买打火机”。

那么如何定量地衡量一物品集合是否频繁的呢？以及如何定量地衡量两种物品之间的关系？在这里就需要引入一些新的概念：

项集：项的集合，项可以是商品，那么项集就是商品的集合。
支持度：数据集中包含该项集的记录所占的比例，也就是该项集在数据集中的出现频率，用以衡量项集的频繁程度。
可信度：又称置信度，是针对关联规则来定义的，表示某项集在指定条件下的出现概率，用以衡量物品之间的关系。

下面我们结合实例来说明如何进行关联分析。

【示例】：杂货店的交易清单。

交易号码	商品
0	豆奶，莴苣
1	莴苣，尿布，葡萄酒，甜菜
2	豆奶，尿布，葡萄酒，橙汁
3	莴苣，豆奶，尿布，葡萄酒
4	莴苣，豆奶，尿布，橙汁

从数据集中可以得到，{豆奶} 分别在交易号码（以下简称编号 0、2、3、4）中出现，根据支持度的定义“数据集中包含该项集的记录所占的比例”，数据集中包含 {豆奶} 的记录共有 4 条，总数据数为 5 ，因此可求出 {豆奶} 的支持度为 0.8。同理，我们可求出 {甜菜} 的支持度为 0.2。

我们已经计算出 {豆奶} 和 {甜菜} 这两个项集的支持度，那么它们都是频繁的吗？这时候就需要我们设置一个阈值，如果项集的支持度大于等于该阈值，则我们认为该项集是一个频繁项集，例如设置阈值为 0.6，那么 {豆奶} 就是一个频繁项集，而 {甜菜} 就不是频繁项集。上面我们设置的阈值通常被称为最小支持度。有了最小支持度之后，我们就可以保留满足最小支持度要求的项集。

在最小支持度为 0.6 的前提下，项集 {尿布，葡萄酒} 是一个频繁项集，我们可以根据该频繁项集找出关联规则，例如 {尿布}->{葡萄酒}。根据可信度的定义“表示某项集在指定条件下的出现概率”，在这里“指定条件”指的是 {尿布} 的支持度，那么这条规则的可信度可被定义为“支持度 {尿布，葡萄酒} / 支持度 {尿布}”。从数据集中可以看到，{尿布，葡萄酒} 的支持度为 0.6，尿布的支持度为 0.8，所以 {尿布->葡萄酒} 的可信度度为 0.75。这意味着对于包含“尿布”的所有记录，我们的规则对其中 75% 的记录都适用，也就是说如果有人买了尿布，那么他很可能也会买葡萄酒。

使用频繁项集和关联规则，商家就可以更好地理解他们的顾客。

通过上面的分析可以知道，支持度和可信度是用来量化关联分析是否成功的方法。假设想找到支持度大于 0.8 的所有项集，应该如何去做？一个办法是生成一个物品所有可能组合的清单，然后对每一种组合统计它出现的频繁程度，但当物品成千上万时，上述做法非常非常慢，且所需的计算代价很高，蛮力搜索方法并不能解决这个问题，所以需要用更智能的方法在合理的时间范围内找到频繁项集。此时可采用 Apriori 原理，以减少关联规则学习时所需的计算量。

Apriori 原理

假设我们在经营一家商品种类并不多的杂货店，我们对那些经常在一起被购买的商品非常感兴趣。我们只有 4 种商品：商品 0，商品 1，商品 2 和商品 3。我们不关系客户购买某一件商品多少件，我们只关心客户购买不同种类商品。

下图显示了物品之间所有可能的组合。图中从上往下的第一个集合是空集，表示不包含任何物品的集合。物品集合之间的连线表明两个或者更多集合可以组合形成一个更大的集合。

在计算项集支持度时，我们需要遍历每条记录并检查该记录是否包含项集中的元素。在扫描完所有数据之后，使用统计得到的项集的记录总数除以总的交易记录数，就可以得到该项集的支持度。观察上图可以发现，即使对于仅有 4 种物品的集合，也需要遍历数据 15 次。而随着物品数目的增加遍历次数会急剧增长。对于包含 N 种物品的数据集共有 $2^N - 1$ 种项集组合。当物品的数量增加时，可能的项集组合也随着称指数级增长，对于现代的计算机而言，需要很长的时间才能完成运算。

为了降低所需的计算时间，研究人员发现一种所谓的 Apriori 原理，该原理可以帮我们减少可能感兴趣的项集。

如果某个项集是频繁的，那么它的所有子集也是频繁的，见上图左图；
如果某个项集是非频繁的，那么它的所有超集也是非频繁的，见上图右图。

该原理是如何推导得出的？

假设项集 {1，2，3} 为频繁项集，支持度为 S。
$\geq S \quad P(12) \geq P(123) = P(12)P(3|12) \rightarrow P(12) \geq S$
假设项集 {2，3} 为非频繁项集，支持度为 S。
$\lt S \quad P(123) = P(23)P(1|23) \leq P(23) \rightarrow P(123) \lt S$
根据该原理，假设知道项集 {2，3} 是非频繁的，那么后续的项集 {0, 2, 3}、{1，2，3} 以及 {0，1，2，3} 都是非频繁的。也就是说，一旦计算出 {2，3} 的支持度，知道它是非频繁的之后，就不需要再计算项集 {0, 2, 3}、{1，2，3} 以及 {0，1，2，3} 的支持度，因为我们知道这些集合不会满足我们的要求。使用该原理就可以避免项集数目的指数增长，从而在合理时间内计算出频繁项集。

这就是取名为 Apriori 算法的原因。Apriori 在拉丁语中指“来自以前”。当定义问题时，通常会使用先验知识或者假设，这被称作“一个先验”（a priori）。先验知识可能来自领域知识，先前的一些测量结果等等。在关联分析中，我们运用先验知识去判断后续的项集是否频繁。

Apriori 工作过程

如何将 Apriori 原理应用于算法中？难点在于我们该如何根据已有的项集去组合新的项集。

C1，C2，…，Ck 分别表示 1-项集，2-项集，…，k-项集；
L1，L2，…，Lk 分别表示对应项集经过“过滤”后的频繁项集；
Scan：表示数据项扫描函数，该函数过滤不满足最小支持度的项集。

观察上面的 Apriori 算法的工作流程我们可以发现，Apriori 算法首先扫描一遍数据集，从中生成 1-项集 C1。接着调用 Scan 函数扫描 C1，过滤不满足最小支持度的项集，最后留下的项集就是频繁项集 L1。根据 Apriori 原理可知，非频繁项集的所有超集也都是非频繁的，那么我们就没有必要球这些非频繁项集的组合。因此，第二轮迭代中，只需要对上一轮迭代产生的频繁项集进行新的组合即可，然后接着调用 Scan 函数检查新组合的支持度是否满足最小支持度要求，将不满足的新组合给过滤。如此循环，直到没有新组合可生成为止。

连接步：分为两种情况，第一是从数据集中生成 C1，第二是根据 $L_{k-1}$ 生成 Ck。简单地说，连接步就是产生项集的过程。
剪枝步：剔除不满足最小支持度的项集。从图中来看就是从 Ck 到 Lk 的过程。

示例说明

假设现在数据库中有 4 条交易记录，其中有 5 件不同种类的商品，分别用编号 1、2、3、4、5 表示，最小支持度为 0.5。

TID	Items
100	1 3 4
200	2 3 5
300	1 2 3 5
400	2 5

第一轮：先从数据库中扫描，生成 1-项集 C1。

Items	support
{1}	0.50
{2}	0.75
{3}	0.75
{4}	0.25
{5}	0.75

第一轮：调用 Scan 函数，过滤支持度小于 0.5 的项集。可以看到上表中商品 4 的支持度小于 0.5，因此将 {4} 过滤，得到 L1。

Items	support
{1}	0.50
{2}	0.75
{3}	0.75
{5}	0.75

第二轮：根据 L1，生成 2-项集 C2。

Items	support
{1, 2}	0.25
{1, 3}	0.50
{1, 5}	0.25
{2, 3}	0.50
{2, 5}	0.75
{3, 5}	0.50

第二轮：调用 Scan 函数，过滤支持度小于 0.5 的项集，可以看到项集 {1, 2} 和 {1, 5} 不满足最小支持度要求，因此得到 L2。

Items	support
{1, 3}	0.50
{2, 3}	0.50
{2, 5}	0.75
{3, 5}	0.50

第三轮：根据 L2，生成 3-项集 C3。

Items	support
{1, 2, 3}	0.25
{1, 2, 5}	0.25
{1, 3, 5}	0.25
{2, 3, 5}	0.50

第三轮：调用 Scan 函数，只有项集 {2, 3, 5} 满足要求，得到 L3。

Items	support
{2, 3, 5}	0.50

第四轮：根据 L3 生成 C4，此时 L3 也不能产生新的组合，循环结束。

从上面的过程中我们可以发现，Apriori 算法工作过程中的连接步，在每次执行时都需要扫描一遍数据库，来计算每个新组合（项集）的支持度。借此，我们可以发现 Apriori 算法的优缺点以及适用的数据类型。

优点：易编码实现；
缺点：在大数据集上可能较慢；
适用数据类型：数值型或者标称型数据。

Apriori 算法实现

Apriori 算法是发现频繁项集的一种方法。Apriori 算法的两个输入参数分别是最小支持度和数据集。

【过程】：该算法首先会生成所有单个物品的项集列表。接着扫描交易记录来查看哪些项集满足最小支持度要求，那些不满足最小支持度的集合会被去掉。然后，对剩下来的集合进行组合以生成包含两个元素的项集。接下来，再重新扫描交易记录，去掉不满足最小支持度的项集。该过程重复进行直到所有项集都被去掉。

生成候选项集

Apriori 算法首先构建集合 c1，然后扫描数据集来判断这些只有一个元素的项集是否满足最小支持度的要求。那些满足要求的项集构成集合 L1。而 L1 中的元素相互组合构成 c2，c2 再进一步过滤变为 L2。

【伪代码】：

对数据集中的每条交易记录 tran
对每个候选项集 can：
    检查一下 can 是否是 tran 的子集：
    如果是，则增加 can 的计数值
    对每个候选项集：
    如果其支持度不低于最小值，则保留该项集
    返回所有频繁项集列表

create_c1()

create_c1() 函数构建大小为 1 的所有候选项集的集合。

def create_c1(dataset):
    c1 = []
    for transaction in dataset:
        for item in transaction:
            if not [item] in c1:
                c1.append([item])
    c1.sort()
    # 对 c1 中每个项构建一个不变集合
    return list(np.map(frozenset, c1))

首先创建一个空列表 c1，用来存储所有不重复的项值。
接下来遍历数据集中的所有交易记录。对每一条记录，遍历记录中的每一个项。

for transaction in dataset:
    for item in transaction:
    // ...

如果某个物品项没有在 c1 中出现，则将其添加到 c1 中。需要注意的是，这里并不是简单地添加每个物品项，而是添加只包含该物品项的一个列表。目的在于为每个物品项构建一个集合。因为在 Apriori 算法的后续处理中，需要做集合操作，并且 Python 不能创建只有一个整数的集合，因此这里必须使用列表。

if not [item] in c1:
    c1.append([item])

接着对 c1 进行排序，并将其中的每个单元素列表映射到 frozenset()，最后返回 frozenset 的列表。需要注意的是这里使用的数据结构是 Python 中的 frozenset 类型。frozenset 是指被“冰冻”的集合，就是说它们是不可改变的，即用户不能修改它们。这里必须要使用 frozenset 而不是 set 类型，因为之后必须要将这些集合作为字典键值使用，使用 frozenset 可以实现这一点，而 set 却做不到。

c1.sort()
return list(map(frozenset, c1)

需要注意 Python 3.x 和 Python 2.x 不同，map() 函数返回的是可迭代对象，而不是列表。

scan_D()

scan_D() 有三个参数，分别是数据集 D、候选项集列表 ck 以及感兴趣项集的最小支持度 min_support，用于从 c1 生成 L1。另外，该函数返回 L1 和包含支持度值的字典以备后用。

def scan_D(D, ck, min_support):
    ss_cnt = {}
    for tid in D:
        for can in ck:
            if can.issubset(tid):
                if not ss_cnt.__contains__(can): 
                    ss_cnt[can] = 1
                else:
                    ss_cnt[can] += 1
    num_items = float(len(D))
    ret_list = []
    support_data = {}
    for key in ss_cnt:
        support = ss_cnt[key] / num_items
        if support >= min_support:
            ret_list.append(key)
        support_data[key] = support
    return ret_list, support_data

首先创建一个空字典 ss_cnt，然后遍历数据集中的所有交易记录以及 c1 中的所有候选项集。如果 c1 中的集合是记录的一部分，那么增加字典中对应的计数值。不存在，则将当前集合添加到字典中，并将计数值设置为 1。需要注意的是 Python 3.x 没有 has_key() 方法，可以用 __contains__() 方法代替。

ss_cnt = {}
for tid in D:
    for can in ck:
        if can.issubset(tid):
            if not ss_cnt.__contains__(can): 
                ss_cnt[can] = 1
            else:
                ss_cnt[can] += 1

当扫描完数据集中的所有项以及所有候选集时，就需要计算支持度。不满足最小支持度要求的集合不会输出。

num_items = float(len(D))
ret_list = []
support_data = {}
for key in ss_cnt:
    support = ss_cnt[key] / num_items
    if support >= min_support:
        ret_list.append(key)
    support_data[key] = support
return ret_list, support_data

函数测试

先导入测试数据集

>>> dataset = [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]

构建第一个候选项集集合 c1

>>> c1 = create_c1(dataset)
>>> c1
[frozenset([1]), frozenset([2]), frozenset([3]), frozenset([4]), frozenset([5])]

可以看到，c1 包含了每个 fronzenset 中的单个物品项。下面构建集合表示的数据集 D。

>>> D = list(map(set, dataset))
>>> D
[set([1, 3, 4]), set([2, 3, 5]), set([1, 2, 3, 5]), set([2, 5])]

有了集合形式的数据，issubset() 函数就能够派上用场，从而可以去掉那些不满足最小支持度的项集。对上面的例子，我们使用 0.5 作为最小支持度水平。

>>> L1, supp_data = scan_D(D, c1, 0.5)
>>> L1
[frozenset([1]), frozenset([3]), frozenset([2]), frozenset([5])]

上述 4 个项集构成了 L1 列表，该列表中的每个单物品项集至少出现在 50% 以上的记录中。由于物品 4 并没有达到最小支持度，所以没有包含在 L1 中。通过去掉这件物品，减少了查找物品项集的工作量。

组织完整的 Apriori 算法

【伪代码】：

当集合中项的个数大于 0 时：
    构建一个 k 个项组成的候选项集的列表
    检查数据以确认每个项集都是频繁的
    保留频繁项集并构建 k + 1 项组成的候选项集的列表

apriori_gen()

apriori_gen() 函数有两个输入参数，分别为频繁项集列表 lk 与项集元素个数 k，输出为 ck。例如，该函数以 {0}、{1}、{2} 作为输入，会生成 {0，1}、{0，2} 以及 {1，2}。

def apriori_gen(lk, k):
    ret_list = []
    len_lk = len(lk)
    for i in range(len_lk):
        for j in range(i + 1, len_lk):
            l1 = list(lk[i])[:k-2]
            l2 = list(lk[j])[:k-2]
            l1.sort()
            l2.sort()
            if l1 == l2:
                ret_list.append(lk[i] | lk[j])
    return ret_list

首先创建一个空列表，然后计算 lk 中的元素数目。

ret_list = []
len_lk = len(lk)

接下来，比较 lk 中的每一个元素与其他元素，这可以通过两个 for 循环来实现。紧接着，取列表中的两个集合进行比较。如果这两个集合的前 k - 2 个元素都相等，那么就将这两个集合合成一个大小为 k 的集合。这里使用集合的并操作来完成，在 Python 中对应操作符 |。

for i in range(len_lk):
    for j in range(i + 1, len_lk):
        l1 = list(lk[i])[:k-2]
        l2 = list(lk[j])[:k-2]
        l1.sort()
        l2.sort()
        if l1 == l2:
            ret_list.append(lk[i] | lk[j])
return ret_list

【问】：为什么要取列表（l1、l2）的前 k - 2 个数据？

【答】：假设现在要将 {0，1}、{0，2}、{1，2} 来创建三元素项集，如果仅仅将两个项集合并，就会得到三个 {0，1，2}。也就是说，同样的结果会重复 3 次，我们要做的是确保遍历列表的次数最少。现在，如果只比较集合的第 1 个元素，并且只对第 1 个元素相同的集合求并操作，同样可以得到 {0，1，2}，且只需要一次操作。

apriori()

apriori() 函数有两个输入参数，数据集以及支持度，函数会生成候选项集的列表以及支持度数据并返回。

def apriori(dataset, min_support=0.5):
    c1 = create_c1(dataset)
    D = list(map(set, dataset))
    l1, support_data = scan_D(D, c1, min_support)
    L = [l1]
    k = 2
    while len(L[k-2]) > 0:
        ck = apriori_gen(L[k-2], k)
        lk, supk = scan_D(D, ck, min_support)
        support_data.update(supk)
        L.append(lk)
        k += 1
    return L, support_data

首先创建 c1，然后读入数据集将其转化为 D（集合列表）。

c1 = create_c1(dataset)
D = list(map(set, dataset))

接下来，使用 scan_D() 函数来创建 l1，并将 l1 放入列表 L 中。L 会包含 l1、l2、l3 …。

l1, support_data = scan_D(D, c1, min_support)
L = [l1]
k = 2

继续寻找后续的多元项集，从而创建包含更大项集的列表，直到下一个大的项集为空。

while len(L[k-2]) > 0:
    ck = apriori_gen(L[k-2], k)
    lk, supk = scan_D(D, ck, min_support)
    support_data.update(supk)
    L.append(lk)
    k += 1
return L, support_data

从频繁项集中挖掘关联规则

现在需要解决的问题是如何找出关联规则？要找到关联规则，我们首先从一个频繁项集开始。我们知道集合中的元素是不重复的，但我们想知道基于这些元素能否获得其他内容。某个元素或者某个元素集合可能会推导出另一个元素。从杂货店的例子可以得到，如果有一个频繁项集 {豆奶，莴苣}，那么就可能有一条关联规则“豆奶->莴苣”。这意味着如果有人购买了豆奶，那么在统计上他会购买莴苣的概率较大。但是，这一条反过来并不总是成立。也就是说，即使“豆奶->莴苣”统计上显著，那么“莴苣->豆奶”也不一定成立。

最小支持度要求是频繁项集的量化定义；对于关联规则，这种量化指标称为可信度。现在要获得可信度，所需要做的只是取出那些支持度值做一次除法运算。

从一个频繁项集中可以产生多少条关联规则？下图显示从频繁项集 {0，1，2，3} 产生的所有关联规则，阴影区域给出的是低可信度的规则。为找到感兴趣的规则，我们先生成一个可能的规则列表，然后测试每条规则的可信度。如果可信度不满足最小要求，则去掉该规则。

观察上图可一发现，如果某条规则并不满足最小可信度要求，那么该规则的所有子集也不会满足最小可信度要求。例如，{0,1,2} -> 3 不满足最小可信度要求，那么任何左部为 {0,1,2} 子集的规则也不会满足最小可信度要求。

【证明】：令最小可信度要求为 C

P(3|012) = \frac{P(0123)}{P(012)} \quad P(13|02) = \frac{P(0123)}{P(02)}

P(02) \geq P(012) \quad C \geq P(3|012) \geq P(13|02)

因此我们可以利用关联规则的这条性质来减少需要测试的规则数目。

【做法】：

首先从一个频繁项集开始；
接着创建一个规则列表，其中规则右部只包含一个元素；
然后对这些规则进行测试；
接下来合并所有剩余规则来创建一个新的规则列表，其中规则右部包含两个元素。这种方法也被称作分级法。

cal_conf()

cal_conf() 函数计算规则的可信度以及找到满足最小可信度要求的规则。函数接受五个参数：

freq_set：频繁项集
h：出现在规则右部的元素列表
support_data：包含频繁项集支持度数据的字典
brl：通过最小可信度要求的规则列表
min_\conf：最小可信度

函数会返回一个满足最小可信度要求的规则列表。

def calc_conf(freq_set, h, support_data, br1, min_conf=0.7):
    pruned_h = []
    for conseq in h:
        conf = support_data[freq_set] / support_data[freq_set - conseq]
        if conf >= min_conf:
            print(freq_set - conseq, '-->', conseq, 'conf:', conf)
            br1.append((freq_set - conseq, conseq, conf))
            pruned_h.append(conseq)
    return pruned_h

首先创建一个空列表 pruned_h 用以保存满足要求的规则。
接下来，遍历 h 中的所有项集并计算它们的可信度。可信度计算时使用 support_data 中的支持度数据，可以节省大量计算时间。

pruned_h = []
for conseq in h:
    conf = support_data[freq_set] / support_data[freq_set - conseq]
    // ...

再判断当前项集的可信度是否满足最小可信度要求，若满足则先输出到屏幕，然后添加到 pruned_h 和 brl 列表中，最后将 pruned_h 列表返回。

if conf >= min_conf:
    print(freq_set - conseq, '-->', conseq, 'conf:', conf)
    br1.append((freq_set - conseq, conseq, conf))
    pruned_h.append(conseq)

rules_from_conseq()

rules_from_conseq() 函数从最初的项集中生成更多的关联规则。该函数接受的参数同 cal_conf() 函数。

def rules_from_conseq(freq_set, h, support_data, br1, min_conf=0.7):
    m = len(h[0])
    if len(freq_set) > (m + 1):
        hmp1 = apriori_gen(h, m + 1)
        hmp1 = calc_conf(freq_set, hmp1, support_data, br1, min_conf)
        if len(hmp1) > 1:
            rules_from_conseq(freq_set, hmp1, support_data, br1, min_conf)

【说明】：先计算 h 中的频繁项集大小 m，然后查看该频繁项集是否大到可以移除大小为 m 的子集。如果不可以的话，则生成 h 中元素的无重复组合，将结果存储在 hmp1 中，这也是下一次迭代的 h 列表。怎么理解呢？例如频繁项集 {1, 2, 3}，此时 h 为 [{1}, {2}, {3}]，除了可以生成 {1, 2} -> {3}，{1, 3} -> {2}，{2, 3} -> {1} 之外，也可以生成 {1} -> {2, 3}。所以我们需要递归调用 rules_from_conseq() 函数来生成新的 h，并判断当前规则是否满足最小可信度要求。

generate_rules()

generate_rules() 函数有三个输入参数，频繁项集列表 l，包含频繁项集支持度数据的字典 support_data，最小可信度阈值 min_conf。函数最后返回一个包含可信度的规则列表。

def generate_rules(l, support_data, min_conf=0.7):
    big_rule_list = []
    for i in range(1, len(l)):
        for freq_set in l[i]:
            h1 = [frozenset([item]) for item in freq_set]
            if i > 1:
                rules_from_conseq(freq_set, h1, support_data, big_rule_list, min_conf)
            else:
                calc_conf(freq_set, h1, support_data, big_rule_list, min_conf)
    return big_rule_list

该函数遍历频繁项集列表中的每一个频繁项集，并对每个频繁项集创建只包含单个元素集合的列表 h1，目的在于构建形如 {1,2} -> {3} 的关联规则。

# 循环频繁项集列表，依次对 X-频繁项集执行操作
for i in range(1, len(l)):
    # 循环当前 X-频繁项集的各项集
    for freq_set in l[i]:
        h1 = [frozenset([item]) for item in freq_set]

因为无法从 1-项集中构建关联规则，所以要从包含两个或者更多元素的项集开始构建关联规则。如果从集合 {0, 1, 2} 开始，那么 h1 应该是 [{0}, {1}, {2}]。如果频繁项集的数目超过 2，那么考虑对其做进一步的合并（低啊用 rules_from_conseq() 函数）。如果项集中只有两个元素，则可以直接调用 cal_conf() 函数来计算可信度值。

if i > 1:
    rules_from_conseq(freq_set, h1, support_data, big_rule_list, min_conf)
else:
    calc_conf(freq_set, h1, support_data, big_rule_list, min_conf)

大家可以自行对代码进行测试，观察不同可信度下得出的规则，并且可以看到规则互换前件和后件，规则不一定会成立。

【完整代码】：传送门

class Apriori:
    
    def __init__(self):
        pass
    
    def _create_c1(self, dataset):
        c1 = []
        for transaction in dataset:
            for item in transaction:
                if not [item] in c1:
                    c1.append([item])
        c1.sort()
        return list(map(frozenset, c1))
    
    def _scan_D(self, D, ck, min_support):
        ss_cnt = {}
        for tid in D:
            for can in ck:
                if can.issubset(tid):
                    if not ss_cnt.__contains__(can): 
                        ss_cnt[can] = 1
                    else:
                        ss_cnt[can] += 1
        num_items = float(len(D))
        ret_list = []
        support_data = {}
        for key in ss_cnt:
            support = ss_cnt[key] / num_items
            if support >= min_support:
                ret_list.insert(0, key)
            support_data[key] = support
        return ret_list, support_data
    
    def _apriori_gen(self, lk, k):
        # creates CK
        ret_list = []
        len_lk = len(lk)
        for i in range(len_lk):
            for j in range(i + 1, len_lk):
                l1 = list(lk[i])[:k-2]
                l2 = list(lk[j])[:k-2]
                l1.sort()
                l2.sort()
                if l1 == l2:
                    ret_list.append(lk[i] | lk[j])
        return ret_list
    
    def apriori(self, dataset, min_support=0.5):
        c1 = self._create_c1(dataset)
        D = list(map(set, dataset))
        l1, support_data = self._scan_D(D, c1, min_support)
        l = [l1]
        k = 2
        while len(l[k-2]) > 0:
            ck = self._apriori_gen(l[k-2], k)
            lk, supk = self._scan_D(D, ck, min_support)
            support_data.update(supk)
            l.append(lk)
            k += 1
        return l, support_data
    
    def generate_rules(self, l, support_data, min_conf=0.7):
        big_rule_list = []
        for i in range(1, len(l)):
            for freq_set in l[i]:
                h1 = [frozenset([item]) for item in freq_set]
                if i > 1:
                    self._rules_from_conseq(freq_set, h1, support_data, big_rule_list, min_conf)
                else:
                    self._calc_conf(freq_set, h1, support_data, big_rule_list, min_conf)
        return big_rule_list
    
    def _calc_conf(self, freq_set, h, support_data, br1, min_conf=0.7):
        pruned_h = []
        for conseq in h:
            conf = support_data[freq_set] / support_data[freq_set - conseq]
            if conf >= min_conf:
                print(freq_set - conseq, '-->', conseq, 'conf:', conf)
                br1.append((freq_set - conseq, conseq, conf))
                pruned_h.append(conseq)
        return pruned_h
    
    def _rules_from_conseq(self, freq_set, h, support_data, br1, min_conf=0.7):
        m = len(h[0])
        if len(freq_set) > (m + 1):
            hmp1 = self._apriori_gen(h, m + 1)
            hmp1 = self._calc_conf(freq_set, hmp1, support_data, br1, min_conf)
            if len(hmp1) > 1:
                self._rules_from_conseq(freq_set, hmp1, support_data, br1, min_conf)

后话

如前面所介绍的，Apriori 算法在产生频繁模式完全集前需要对数据库进行多次扫描，同时产生大量的候选频繁项集，而且每次增加频繁项集的大小，Apriori 算法都会重新扫描整个数据集，这就使得 Apriori 算法时间和空间复杂度较大。当数据集很大时这会显著降低频繁项集的发现速度。

可以看出，Apriori 算法的主要时间和空间开销集中于数据集的多次全部访问，以及产生大量的频繁候选集。那么基于此有没有更好的方法用于改进 Apriori 算法，从而提高算法的效率呢？

一些学者在基于 Apriori 算法思想的条件下，主要提出了 FP-growth，GSP，CBA 等算法，事实上，在实际使用当中，也很少直接使用 Apriori 算法，但是理解 Apriori 算法是理解其他 Apriori 类算法的前提。

参考

《机器学习实战》
《数据挖掘：概念与技术第三版》

你可能感兴趣的:(Apriori)

每天一个数据分析题（四百九十八）- Apriori算法跟着紫枫学姐学CDA 数据分析题库数据分析算法数据挖掘
Apriori算法中,候选序列的个数比候选项集的个数大得多，产生更多候选的原因有？A.一个项在项集中最多出现一次，但一个事件可以在序列中出现多次B.一个事件在序列中最多出现一次，但一个项在项集中可以出现多次C.次序在序列中和项集中都是重要的D.序列不可以合并数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，
R语言Apriori关联规则、kmeans聚类、决策树挖掘研究京东商城网络购物用户行为数据可视化|附代码数据数据挖掘
全文链接：http://tecdat.cn/?p=30360最近我们被客户要求撰写关于网络购物用户行为的研究报告，包括一些图形和统计输出。随着网络的迅速发展，依托于网络的购物作为一种新型的消费方式，在全国乃至全球范围内飞速发展电子商务成为越来越多消费者购物的重要途径。我们被客户要求撰写关于网络购物行为的研究报告。项目计划使用数据挖掘的方法,以京东商城网购用户的网络购物数据为基础,对网络购物行为的三
Apriori介绍及代码批注 Fishermen_sail 机器学习数据挖掘 scikit-learn python 机器学习推荐算法
一、Apriori原理解析1.概述关联规则分析是数据挖掘中最活跃的研究方法之一，目的是在一个数据集中找到各项之间的关联关系，而这种关系并没有在数据中直接体现出来。以超市的销售数据为例，当存在很多商品时，可能的商品组合数量达到了令人望而却步的程度，这是提取关联规则的最大困难。因此各种关联规则分析算法从不同方面入手减少可能的搜索空间大小以及减少扫描数据的次数。Apriori算法是最经典的挖掘频繁项集的
基于关联规则的计算机类考研院校推荐系统计算机专业毕业设计
关联规则算法，就是我们常说的Apriori算法，利用该算法，通过对数据的关联性进行了分析和挖掘，挖掘出的这些信息在决策制定过程中具有重要的参考价值。本系统主要是根据该算法，帮助考研的学生，选择和推荐学校，方便学生选择到合适的学校。项目开发采用Eclipse做为开发工具，tomcat8.5以上版本，jdk1.8以上。系统采用Spring+SpringMVC+Mybits框架，实现了网站的建设。功能介
看书标记【数据科学：R语言实战 2】小胡涂记 r语言开发语言
看书标记——R语言Chapter2序列的数据挖掘2.1模式2.1.1Eclat频繁项集的挖掘用法用eclat找到成年人行为的相似点查找数据集中的频繁项目集中于最高频率的示例2.1.2arulesNBMiner用法为频繁集挖掘Agrawal数据2.1.3Apriori用法评估购物篮中的关联2.1.4用TraMineR确定序列用法确定训练和职业中的序列2.1.5序列相似点用法示例【数据科学：R语言实战
关联规则——Apriori算法与FP-Growth算法 CYYUN
Apriori算法•Apriori算法将发现关联规则的过程分为两个步骤：1、通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集2、利用频繁项集构造出满足用户最小置信度的规则。其中，检索所有频繁项集是该算法的核心，占整个计算量的大部分•Apriori算法的重要性质性质1：频繁项集的子集必为频繁项集。如果{B，C}是频繁的，那么{B}，{C}也一定是频繁的性质2：非频繁项集
关联规则挖掘算法的介绍 Clearlovekui9
学号：17020110019姓名：高少魁【嵌牛导读】关联规则挖掘算法是数据挖掘中的一种常用算法，用于发现隐藏在大型数据集中令人感兴趣的频繁出现的模式、关联和相关性。这里将对该算法进行简单的介绍，之后通过Apriori算法作为实例演示算法执行结果。【嵌牛鼻子】数据挖掘关联规则挖掘python【嵌牛正文】一、算法原理1、基本概念关联规则用于发现隐藏在大型数据集中令人感兴趣的频繁出现的模式、关联和相关性
01 机器学习与深度学习幽径微澜深度学习 python pytorch 深度学习笔记
源自：《深度学习》（徐立芳/主编莫宏伟/副主编）1.11.2机器学习方法类型1.监督式学习每个训练数据集包含输入和正确输出。在分类问题中，就是通过学习带有分类标签的样本，使用模型对未知的样本进行正确分类的过程。常见算法有逻辑回归和反向传播神经网络。2.无监督式学习训练数据仅包含输入，没有正确输出。通过研究数据的特征和进行数据的处理、分析，获得一个结果。常见算法包括Apriori算法、k-Means
2024年美国大学生数学建模思路 - 案例：ID3-决策树分类算法 m0_71450098 算法
文章目录0赛题思路1算法介绍2FP树表示法3构建FP树4实现代码建模资料0赛题思路（赛题出来以后第一时间在CSDN分享）https://blog.csdn.net/dc_sinor?type=blog1算法介绍FP-Tree算法全称是FrequentPatternTree算法，就是频繁模式树算法，他与Apriori算法一样也是用来挖掘频繁项集的，不过不同的是，FP-Tree算法是Apriori算法
大数据关联规则挖掘：Apriori算法的深度探讨星川皆无恙机器学习与深度学习大数据人工智能大数据大数据算法深度学习人工智能 pytorch python
文章目录大数据关联规则挖掘：Apriori算法的深度探讨一、简介什么是关联规则挖掘？什么是频繁项集？什么是支持度与置信度？Apriori算法的重要性应用场景二、理论基础项和项集支持度（Support）置信度（Confidence）提升度（Lift）Apriori原理三、Apriori算法概述算法步骤频繁项集生成关联规则生成优缺点优点缺点四、实战应用购物篮分析输入和输出Python实现代码示例和输出
Python数据分析基础ReadingDay14_关联分析FP_growth 放翁lcf
readingFoundationsforAnalysiswithPythonDay13《Python数据分析基础》封面之前我们已经完成了《Python数据分析基础》这本书的学习，之后的两篇笔记是关于关联分析的。这是第二篇。上一篇笔记我们讲到了关联分析的基本概念和应用场景，以及挖掘数据集中关联规则的Apriori算法，通过具体代码实现了一个Apriori算法，在上一篇笔记的最后提到Apriori算
2024美赛数学建模思路 - 案例：ID3-决策树分类算法建模君Assistance 2024美赛美国大学生数学建模建模思路
文章目录0赛题思路1算法介绍2FP树表示法3构建FP树4实现代码建模资料0赛题思路（赛题出来以后第一时间在CSDN分享）https://blog.csdn.net/dc_sinor?type=blog1算法介绍FP-Tree算法全称是FrequentPatternTree算法，就是频繁模式树算法，他与Apriori算法一样也是用来挖掘频繁项集的，不过不同的是，FP-Tree算法是Apriori算法
2024年美赛数学建模思路 - 案例：FPTree-频繁模式树算法建模君A 算法
文章目录算法介绍FP树表示法构建FP树实现代码建模资料##赛题思路（赛题出来以后第一时间在CSDN分享）https://blog.csdn.net/dc_sinor?type=blog算法介绍FP-Tree算法全称是FrequentPatternTree算法，就是频繁模式树算法，他与Apriori算法一样也是用来挖掘频繁项集的，不过不同的是，FP-Tree算法是Apriori算法的优化处理，他解决
2024年美赛数学建模思路 - 案例：ID3-决策树分类算法建模君A 算法
文章目录0赛题思路1算法介绍2FP树表示法3构建FP树4实现代码建模资料0赛题思路（赛题出来以后第一时间在CSDN分享）https://blog.csdn.net/dc_sinor?type=blog1算法介绍FP-Tree算法全称是FrequentPatternTree算法，就是频繁模式树算法，他与Apriori算法一样也是用来挖掘频繁项集的，不过不同的是，FP-Tree算法是Apriori算法
关联规则分析（Apriori算法天玑y #机器学习算法数学建模大数据机器学习人工智能数据分析数据挖掘
目录1.关联规则：2.关联规则算法：3.Apriori算法原理：3.1先找出频繁项集3.2是否能被设置为关联规则3.Apriori算法原理：小结：1.关联规则：什么是关联规则？可以归纳为X->Y，就是X发生的情况下很可能会发生Y比如：啤酒和尿布，就是尿布->啤酒这么一个强关联规则，含义是：如果顾客购买尿布，那么他很有可能买啤酒。啤酒和尿布的关联规则故事沃尔玛公司数据仓库里集中了其各门店的详细原始交
Apriori BluthLeee
Apriori算法原理总结-刘建平FPTree算法原理总结-刘建平PrefixSpan算法原理总结-刘建平用Spark学习FPTree算法和PrefixSpan算法-刘建平
2024美赛数学建模思路 - 案例：FPTree-频繁模式树算法建模君Assistance 算法 2024美赛美国大学生数学建模建模思路
文章目录算法介绍FP树表示法构建FP树实现代码建模资料##赛题思路（赛题出来以后第一时间在CSDN分享）https://blog.csdn.net/dc_sinor?type=blog算法介绍FP-Tree算法全称是FrequentPatternTree算法，就是频繁模式树算法，他与Apriori算法一样也是用来挖掘频繁项集的，不过不同的是，FP-Tree算法是Apriori算法的优化处理，他解决
自然语言处理5——发掘隐藏规律 - Python中的关联规则挖掘 theskylife 数据分析数据挖掘自然语言处理自然语言处理 python easyui 数据挖掘数据分析
目录写在开头1.了解关联规则挖掘的概念和实际应用1.1关联规则挖掘在市场分析和购物篮分析中的应用1.2关联规则的定义和基本原理1.3应用场景2.使用Apriori算法和FP-growth算法进行关联规则挖掘2.1Apriori算法的工作原理和实现步骤2.2FP-growth算法的优势和使用方法2.3Apriori算法vsFP-growth算法3.结果解读和关联规则可视化3.1如何解读挖掘出的关联规
Apriori算法C++实现无人赴约的cat 数据仓库与数据挖掘
最近刚上了数据挖掘这门课，老师讲了两个算法，即Apriori算法和FP-growth算法，然后布置了上机作业，挖掘一个有8万行的记录的retail.dat，需要从中找出强规则，即同时满足最小支持度和最小置信度的规则。Apriori算法在这里给出一个实现找出所有频繁模式集的c++代码，其中主要使用的存储结构是二维数组，有点简陋，凑合着看看。另外，这个版本是刚写出来初始版本，自连接之后没有修剪步骤，而
商品零售购物篮——关联规则 Sisyphus_Q
数据描述本数据共有两个表格，GoodsOrder.csv和GoodsTypes.csv，分别是商品购买信息和商品类型信息。分析目标分析商品的销售信息，了解商品销量。然后通过分析商品之间的关联度，找到达到所制定标准的商品进行推荐。分析方法对数据进行预处理，使其符合Apriori关联规则的算法要求，然后找出数据值中频繁出现的数据集合，导入python自带算法包，设置参数，找出达到置信度、支持度、提升度
使用apriori来挖掘关联规则阿君聊风控机器学习算法算法
1、apriori最重要的三个概念：1、支持度支持度(Support)：指某个商品组合出现的次数与总订单数之间的比例。在这个例子中，我们可以看到“牛奶”出现了4次，那么这5笔订单中“牛奶”的支持度就是4/5=0.8。2、置信度置信度(Confidence)：指的就是当你购买了商品A，会有多大的概率购买商品B，在包含A的子集中，B的支持度，也就是包含B的订单的比例。置信度（牛奶→啤酒）=3/4=0.
【Apriori算法Java实现版】聚类算法与关联分析张照博
正文之前当初毕设的时候准备用这个算法来着，不过后来为了给自己减少工作量（俗称偷懒），就没搞了，没想到这两天看一篇论文看到了这个，重新捡起来学一下。对于我这种算法底子不是很好的来说。。只能代码实现来感受下了。。正文基本概念关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法。这些关系可以有两种形式：频繁项集或者关联规则。频繁项集（frequentitemsets)是经常出现在一块的物品的集合，
西电数据挖掘实验三关联规则挖掘投票记录 oges 数据挖掘人工智能
1.实验内容1、数据来源http://archive.ics.uci.edu/ml/datasets/Congressional+Voting+Records2、使用Apriori算法，支持度设为30%，置信度为90%，挖掘高置信度的规则。2.实验结果频繁项集输出（条件）：支持度计数规则输出（{条件}{结论}置信度）因gh党支持规则太多这里只截取部分则可以得到高置信度的规则比如基于mz党反对态度的
机器学习--智能推荐算法（关联规则Apriori算法）原理刘同敏机器学习数学建模推荐算法机器学习人工智能
一、关联规则关联规则经常用于智能推荐。像平时大家购物的过程中，我们买了手机，根据关联关系，购物平台就会推荐耳机，手机保护套等配件给我们。类似还有，通过社交平台外卖平台知道你的很多朋友都爱吃辣的，那么根据你和朋友的关联关系，外卖就会推荐一些辣的菜品给你。为了更好的理解关联规则。我们下面通过一个简单购物案例来讲解几个概念。现在有10个顾客到超市买了西红柿，鸡蛋，袜子，苹果，排骨这五种商品，如下表：表1
FP-growth算法发现频繁项集（一）——构建FP树 NoEndForLearning 数据挖掘关联规则 FP-tree
常见的挖掘频繁项集算法有两类，一类是Apriori算法，另一类是FP-growth。Apriori通过不断的构造候选集、筛选候选集挖掘出频繁项集，需要多次扫描原始数据，当原始数据较大时，磁盘I/O次数太多，效率比较低下。FPGrowth不同于Apriori的“试探”策略，算法只需扫描原始数据两遍，通过FP-tree数据结构对原始数据进行压缩，效率较高。FP代表频繁模式（FrequentPatter
Python实现FP树暗焰之珩数据结构算法 Python 机器学习 FP树关联规则
目录FP树的基础知识疑问与数据构建的想法Python代码FP树是用来挖掘最大频繁k项集的一种数据结构，相对来说难度较大，因为在前辈们的博客中，对于FP树的实现讲的是比较清楚了，但是对于FP的编程思路却提的很少。在这里做一个简单的梳理。FP树的基础知识首先请花一些时间认真阅读以下两篇博文。Apriori算法原理总结FPTree算法原理总结疑问与数据构建的想法Q：项头表里面存储的节点链表，具体有什么用
数据挖掘中的模式发现（三）FpGrowth算法 SuPhoebe 机器学习 &深度学习机器学习与数学模型大数据数据挖掘
简介前两篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法，Aprori算法利用频繁集的两个特性，过滤了很多无关的集合，效率提高不少，但是我们发现Apriori算法是一个候选消除算法，每一次消除都需要扫描一次所有数据记录，造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法，FpGrowth算法，来挖掘频繁项集，它的效率比Aprori算法高很多。FpGrowth算法通过构造
【数据挖掘】4、关联分析：Apriori、FP-Growth 算法、买面包是否也爱买啤酒呆呆的猫数据挖掘数据挖掘算法人工智能
文章目录一、概念1.1支持度1.2置信度1.3提升度二、Apriori算法2.1频繁项集的定义2.2手动推导2.3SDK实战2.3.1超市购物2.3.2挑选演员2.3.2.1爬虫2.3.2.2挖掘三、FP-Growth算法3.1算法步骤3.1.1创建项头表3.1.2构造FP树3.1.3通过FP树挖掘频繁项集3.2手动推导3.2.1计算单一项的频率（支持度计数）3.2.2按支持度和频率降序过滤事务，
关联规则 FP-Growth算法小小程序○ 算法机器学习人工智能
FP-Growth算法FP-growth算法思想FP-growth算法是韩家炜老师在2000年提出的关联分析算法，它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-Tree)但仍保留项集关联信息。FP-growth算法是对Apriori方法的改进。生成一个频繁模式而不需要生成候选模式FP-growth算法以树的形式表示数据库，称为频繁模式树或FP-tree。此树结构将保持项集之
Apriori（关联分析算法） myword1314 数据分析算法
终于到了机器学习实战的第十一章了，这也是继K-均值后的第二个无监督学习算法了。同样的该算法也是在一堆数据集中寻找数据之间的某种关联，这里主要介绍的是叫做Apriori的‘一个先验’算法，通过该算法我们可以对数据集做关联分析——在大规模的数据中寻找有趣关系的任务，本文主要介绍使用Apriori算法发现数据的（频繁项集、关联规则）。这些关系可以有两种形式：频繁项集、关联规则。频繁项集：经常出现在一块的
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><