FavoriteStar

机器学习实战（十一）——使用Apriori算法进行关联分析

一、关联分析

关联分析是在一个大规模的数据集中寻找有趣关系的任务。而这些“有趣关系”可以有两种形式来表达：频繁项集或者关联规则。下面由一个例子来说明：

交易号码	商品
0	豆奶，莴苣
1	莴苣，尿布，葡萄酒，甜菜
2	豆奶，尿布，葡萄酒，橙汁
3	莴苣，豆奶，尿布，葡萄酒
4	莴苣，豆奶，尿布，橙汁

该表格为某简单交易清单。那么可以由这个例子来说明定义：

频繁项集：经常出现在一块的物品的集合，例如表格中经常出现葡萄酒、尿布、豆奶就是一个例子
关联规则：两种物品之间可能存在很强的关系，例如上面尿布总是和葡萄酒一起出现，那么就可能存在尿布->葡萄酒的关联规则。

那么如何定义一个商品集合属不属于频繁项集，以及如何定义有趣关系呢？则由支持度和可信度来完成。

支持度：一个项集的支持度定义为数据集中包含该项集的记录所占有的比例，例如上表中{豆奶}的支持度为 $4/5$ ，而{豆奶，尿布}的为 $3/5$ 。因此可以定义定义一个最小支持度，那些出现次数太少的项集就不考虑了，可以降低计算复杂度
可信度（置信度）：用以定义关联规则，例如{尿布}->{葡萄酒}这条关联规则的可信度被定义为支持度{尿布，葡萄酒} / 支持度{尿布} ，有点类似于条件概率的定义。

虽然定义了量化定义的方法，但是如果对每一个项集都计算的话将会有很大的计算量，因为随着物品数量的增加，它们之间的组合数据是呈现指数级增加的。因此就引入了Apriori原理。

二、Apriori原理

例如当前有4种商品，那么它们可能有的项集如下：

因此如果我们要计算各种项集的支持度，最简单的方法当然是通过不断遍历数据集来统计每一个项集所出现的次数。但对于包含 $N$ 种物品的数据集就会有 $2^N-1$ 种项集组合，这个计算量过大。因此可以利用Apriori原理

Apriori原理：如果某一个项集是频繁的（支持度大于最小支持度），那么它的所有子集也都是频繁的

例如项集{0,2}是频繁的，那么{0}和{2}也一定是频繁的。
那么如果我们反过来看这个思路，即可得：

如果一个项集是非频繁，那么它的所有超集（包含它的集合）就一定是非频繁的

例如如果{2,3}是非频繁的，那么{1,2,3}就一定也是非频繁的。因此可以从图中最上层的集合开始计算支持度，一旦发现非频繁的集合那么它的所有超集也就不用计算了，可以很好地减低计算量。

例如上图如果{2,3}是非频繁的，那么它的超集{0,2,3}、{1,2,3}、{0,1,2,3}就一定也是非频繁的，就不用计算了。

三、使用 Apriori算法来发现频繁集

经过前文的叙述我们不难发现，必须先找到频繁项集才能够获得关联规则。因此我们需要先用Apriori 算法来发现频繁项集。该算法有两个输入参数，分别是最小支持度和数据集。具体的流程大概为：先生成所有单个物品的项集列表，然后扫描数据集计算各个物品的支持度，把那些不满足最小支持度的去除掉；再对剩下的集合生成含有两个物品的项集，再扫描剔除，依次循环直到所有项集都被去除掉。

3.1、生成候选项集

在运行Apriori 算法之前需要辅助函数，包括构建初始集合的函数，扫描数据集以寻找交易记录子集的函数。其中数据集扫描的伪代码如下：

遍历数据集中的每天交易记录tran：
	遍历每个候选项集can：
		检查can是否是tran的子集：
			如果是则增加can的计数值
遍历每个候选项集：
	如果其支持度大于最小支持度则保留
返回所有频繁项集列表

接下来为辅助函数的代码：

def loadDataSet():
    return [[1,3,4],[2,3,5],[1,2,3,5],[2,5]]

# 用于对数据集构建初始项集
def createC1(dataSet):
    C1 =[]  # 用来存放初始项集
    for transaction in dataSet:  # 遍历每一个交易记录
        for item in transaction:  # 遍历记录中的每一个物品
            if not [item] in C1:  # 以列表作为元素，因为不能单独对一个int执行set
                C1.append([item])  # 不在则作为新物品添加
    C1.sort()  # 排序函数
    return list(map(frozenset,C1))  # frozenset是不可变集合，将C1中的每一个物品的变成不可变的集合

def scanD(D,Ck,minSupport):
    ssCnt = {}  # 空字典
    for tid in D:  # 遍历数据集的所有交易记录
        for can in Ck:  # 遍历当前的项集
            if can.issubset(tid):  # can中的所有元素是否都在tid中
                ssCnt[can] = ssCnt.get(can,0) + 1
                # python3废除了has_key方法，可以用get 方法代替
    numItems = float(len(D))
    retList = []  # 用来存放满足支持度的那些项集
    supportData = {}  # 用来存放所有项集与其对应的支持度
    for key in ssCnt:
        support1 = ssCnt[key] / numItems
        if support1 >= minSupport:  # 如果满足最小支持度的要求
            retList.insert(0,key)  # 将key插入到索引为0的位置
        supportData[key] = support1
    return retList,supportData

原文中的has_key方法在python3中已经废弃了，它的主要目的就是判断集合can是否在字典ssCnt中，那我们可以通过get方法，如果不在的话默认值是返回None，这里我们让它不存在就返回0即可。

3.2、组织完整的Apriori算法

具体的代码如下：

def aprioriGen(Lk,k):
    retList = []  # 用来存放新的项集
    lenLk = len(Lk)
    # 构建新项集的思路是遍历每个元素，两两之间如果只有1个不相同就可以加在一起
    # 当前项集中每一个元素的长度为k
    for i in range(lenLk):  # 外层遍历
        for j in range(i+1, lenLk):  # 内层遍历
            L1 = list(Lk[i])[:k-2]  # 取出前k-1个元素，就是索引到k-2
            L2 = list(Lk[j])[:k-2]
            L1.sort()
            L2.sort()
            if L1 == L2:  # 如果相等，说明Lk[i]和Lk[j]只有第k个元素不等
                retList.append(Lk[i] | Lk[j])
                # 采用集合的并方法将其添加到新集合中
    return retList

def apriori(dataSet,minSupport=0.5):
    C1 = createC1(dataSet)
    D = list(map(set,dataSet))  # 这里set不是将dataSet中的重复交易记录去除掉
    # 而是将dataSet的每一个交易记录中重复购买的东西去除掉
    L1, supportData = scanD(D,C1,minSupport)
    L = [L1]
    k = 2
    while len(L[k - 2]) > 0:  # 直到下一个项集为空
        Ck = aprioriGen(L[k-2],k)  # 新的项集
        Lk, supK = scanD(D,Ck,minSupport)  # 选取符合最小支持度的
        supportData.update(supK)  # 将新的项集和对应的支持度更新到支持度字典中
        L.append(Lk)  # 直到Lk为空，下一次循环的时候就退出了
        k += 1
    return L,supportData

重点解释第一个函数中为什么要索引到k-2：像我其中备注的那般，因为合并的原则就是两个集合之间只有一个元素不相同，那么合并之后大小才会只增加1，那么这里的思路就是当前集合都有k个元素，只要前k-1个元素相同，由于集合的互异性，第k个元素必然不相同，那么就可以合并。那么这里就会有一个问题，为什么只合并最后一个元素不相同的情况，如果是中间的元素不相同呢？例如有没有可能存在 :

{1,2,4}，{1,3,4}，然后没有{1,2,3}，那么这样如果将{1,2,4}和{1,3,4}合并，也可以达成{1,2,3,4}。而按照前面的思路就不能合并

有没有上述这种情况呢？不可能，因为如果没有{1,2,3}，那么集合{1,2}和集合{1,3}就不可能存在了，那么{1,2,4}和{1,3,4}也就不可能存在了。因此直接找只有最后一个不相同就可以了。

四、从频繁项集中挖掘关联规则

首先需要先明确一个定义，如果有一个频繁项集{豆奶，莴苣}，那么就可能会有一条关联规则”豆奶->莴苣“，但是返回来并不一定成立，就是不一定会有"莴苣->豆奶”。

类似于前面支持度的定义，本处对于关联规则的定义为可信度，一条规则 $P - > H$ 的可信度定义为： $s u pp or t (P ∣ H) / s u pp or t (P)$ ，就是 $P, H$ 两个集合的并集的支持度除以 $P$ 集合的支持度。而类似的也有最小可信度的要求，对于不满足的规则同样要去除掉。

那么应该找哪些规则呢？或者说从频繁项集中可以生成多少条规则呢？

这只是由频繁项集{0,1,2,3}所生成的关联规则，理论说对于每一个频繁项集都可以生成许多关联规则。那么与之前类似，也需要通过某些定理来降低计算的复杂度。具体为：

如果某条规则并不满足最小可信度要求，那么该规则的所有子集也不会满足最小可信度要求

如上图，如果规则 ${0,1,2}->{3}$ 并不满足规则度要求（黑色），那么其子集也都通通不满足。

具体的代码为：

def generateRules(L, supportData, minConf = 0.7):
    bigRuleList = []  # 用来存储符合条件的规则
    for i in range(1,len(L)):  # 索引0中只有单个元素无法构建规则，从索引1有两个元素的开始
        for freqSet in L[i]:  # 遍历当前的每一个频繁项集
            #print("freqSet = ",freqSet)
            Hl = [frozenset([item]) for item in freqSet]  # 拆成单个元素的集合构成的列表
            #print("Hl = ",Hl)
            if i > 1:  # i>1，则说明每个频繁项集大小大于2，那么可能有右端大于1的可能
                rulesFromConseq(freqSet,Hl,supportData,bigRuleList,minConf)
            else:  # i=1的话，频繁项集只有2的元素，只有右端为1的可能
                calcConf(freqSet,Hl,supportData,bigRuleList,minConf)
    return bigRuleList

def calcConf(freqSet,H,supportData,brl,minConf = 0.7):
    # freqset为当前的频繁项集，H存放其子集，不是全部的，长度不断增加的
    #print("进入calcConf函数")
    prunedH = []  # 用来存放那些规则的可信度满足要求的右端
    for conseq in H:  # 遍历freqset当前H长度的子集
        #print("conseq = ",conseq)
        conf = supportData[freqSet] / supportData[freqSet - conseq]
        # 计算可信度，-代表集合的去除操作
        #print("conf = ",conf)
        if conf >= minConf:
            print(freqSet-conseq,"--->",conseq,' conf: ',conf)
            brl.append((freqSet-conseq,conseq,conf))  # 存放所有的满足条件的规则
            prunedH.append(conseq)  # 用来放当前满足的，返回可以进入下一次迭代
    return prunedH

def rulesFromConseq(freqSet, H,supportData,brl,minConf = 0.7):
    #print("进入rulesFromConseq函数")
    m = len(H[0])  # 当前子集的长度
    if len(freqSet) > (m+1):  # 如果大于说明还能移除大小为m+1的子集来构建规则
        Hmp1 = aprioriGen(H,m+1)  # 用H中的集合取拼凑成长度为m+1的子集
        #print("Hmp1 = ",Hmp1)
        Hmp1 = calcConf(freqSet,Hmp1,supportData,brl,minConf)
        # 计算当前频繁项集与Hmp1这些子集的规则的可信度，返回的符合条件的规则的右端放入Hmp1中
        #print("Hmp1 = ",Hmp1)
        if len(Hmp1) > 1:
            rulesFromConseq(freqSet,Hmp1,supportData,brl,minConf)

具体的思路就是：

从前面构建出来的频繁项集的集合中，按照长度去遍历，第一次取长度为2的频繁项集（长度为1的频繁项集没办法构建规则）
- 遍历其中的每一个频繁项集can：
  - 将其拆分成单个元素的集合构成的列表H
  - 如果can的长度为2，那么直接计算每一个频繁项集与所有子集H的可信度即可，因为can没办法再去移除元素到右端来计算可信度
  - 如果can的长度大于2，那么就需要考虑将can的部分元素移动到右端，使右端能够形成新的子集从而来判断新的规则

这里目前我仍然有一个问题，就是例如当can的长度大于2，那么会直接进入rulesFromConseq函数，进入之后就会将子集H进行合并成Hmq1，再用Hmq1的元素去计算可信度，那么开始计算可信度的子集的最短长度为2，是不是就没有计算右端长度为1的情况，例如 $freqset = {1,2,3} ，H=[{1},{2},{3}]$ ，那么进入rulesFromConseq函数后也没有计算 ${1,2,3} -> {1}$ ， ${1,2,3} -> 2$ ， ${1,2,3} -> 3$ ，直接就H拿去合并了

这个疑问想请各位大佬解答！

六、示例：发现毒蘑菇的相似特征

fr = open("mushroom.dat")
mushDateSet = [line.split() for line in fr.readlines()]
L,suppData = Apriori.apriori(mushDateSet,minSupport=0.3)
print(L[1])
for item in L[1]:
    if(item.intersection('2')):
        print(item)

解释一下这行代码：

item.intersection('2')

intersection的语法为：

set.intersection(set1,set2,...)

返回一个新集合，该集合的元素是set、set1、set2等集合的交集

那么回到那行代码，其意义就是：返回集合item和集合{“2”}的交集

如果item中有“2”，那么返回值就可以通过if的判断，那么就可以将其输出。

python~集合详解鱼跃龙 python python集合详解 set集合
集合的基本操作首先需要明确的是：集合(set)是一个无序的不重复元素序列，多用来进行排重；不支持切片和索引取值！1.创建集合>>>a={1,2,4,4}>>>a{1,2,4}>>>type(a)**创建空集合时需要注意：不能直接用大括号，只能用set()；否则创建的是一个字典>>>b=set()>>>type(b)>>>c={}>>>type(c)2.添加元素add()方法是将要添加的元素作为一个
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
Python---frozenset集合爱听雨声的北方汉快快乐乐学Python Python
frozenset是set的不可变版本，因此set集合中所有能改变集合本身的方法（如add、remove、discard、xxx_update等），frozenset都不支持；set集合中不改变集合本身的方法，fronzenset都支持。frozenset的作用主要有以下两点：1、当集合元素不需要改变时，使用frozenset代替set更安全。2、当某些API需要不可变对象时，必须用frozens
(python)保障信息安全的加密库-cryptography Marst·Zhang 基础知识实用工具 python
前言cryptography是一个广泛使用的Python加密库，提供了各种加密、哈希和签名算法的实现。它支持多种加密算法，如AES、RSA、ECC等，以及哈希函数（如SHA-256、SHA-384等）和数字签名算法(如DSA、ECDSA等).目录常见用途密码学函数主要功能优点缺点总结常见用途数据加密使用对称加密算法（如AES）对数据进行加密，确保数据在传输或存储过程中的机密性。数字签名生成和验证数
Python if-else对缩进的要求宇寒风暖 python编程 python 开发语言学习笔记
在Python中，缩进是语法的一部分，用于表示代码块的层次结构。if-else语句的代码块必须通过缩进来定义，缩进不正确会导致语法错误或逻辑错误。1.缩进的基本规则1.1缩进的作用缩进用于表示代码块的层次结构。同一代码块中的语句必须具有相同的缩进级别。缩进通常使用4个空格，这是Python官方推荐的风格。1.2示例x=10ifx>5:print("x大于5")#缩进4个空格print("这是if代
一文弄懂 Python assert 断言宇寒风暖 python编程 python 开发语言学习笔记
在Python中，assert是一种用于调试的语句，用于检查某个条件是否为True。如果条件为False，assert会抛出AssertionError异常，并可选地输出错误信息。assert通常用于在开发阶段验证程序的假设条件，确保代码的正确性。1.assert的基本语法1.1语法assertcondition,messagecondition：需要检查的条件表达式。message：可选参数，当
开源项目常见问题解决方案——cryptography 周屹隽
开源项目常见问题解决方案——cryptographycryptographycryptographyisapackagedesignedtoexposecryptographicprimitivesandrecipestoPythondevelopers.项目地址:https://gitcode.com/gh_mirrors/cr/cryptography项目基础介绍cryptography是一个
python 利用pandas实现从CSV导出并格式化后写入.jsonl文件风_流沙 python工具备忘录 python pandas 开发语言
你可以使用pandas库来读取CSV文件，然后通过一些格式化操作将数据转换为JSONL格式并写入文件。JSONL（JSONLines）格式是一种每行一个JSON对象的文件格式。下面是一个示例，演示了如何使用pandas读取CSV文件，处理数据并将其导出到JSONL文件中：示例代码：importpandasaspdimportjson#读取CSV文件df=pd.read_csv('data.csv'
R.E.D.算法：革新文本分类的半监督学习新范式真智AI 算法 r语言分类人工智能学习
随着大型语言模型（LLMs）在解决问题方面的应用进入新时代，只有少数问题仍然存在不尽如人意的解决方案。大多数分类问题（在概念验证层面）可以通过良好的提示工程技术和自适应的上下文学习（ICL）示例，利用LLMs以70-90%的精确度/F1分数来解决。当您希望持续实现高于此水平的性能时——当提示工程不再足够时，会发生什么？分类难题文本分类是监督学习中最古老且最易理解的示例之一。鉴于这一前提，构建能够处
Python文件加密库之cryptography使用详解 Rocky006 python 开发语言
概要在现代信息社会中，数据的安全性变得越来越重要。为了保护敏感信息，文件加密技术被广泛应用。Python的cryptography库提供了强大的加密功能，可以轻松实现文件加密和解密。本文将详细介绍如何使用cryptography库进行文件加密，包含具体的示例代码。cryptography库简介cryptography是Python中一个功能强大且易用的加密库，提供了对称加密、非对称加密、哈希算法、
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
数据结构：交换排序的实现 z_鑫数据结构数据结构排序算法算法 c语言
概要交换排序是一类通过比较和交换元素位置来实现排序的算法。其核心思想是在序列中进行两两比较，若元素顺序不符合排序要求，则交换它们的位置。常见的交换排序算法包括冒泡排序和快速排序，它们在不同场景下各有优劣。整体架构流程冒泡排序从数组的第一个元素开始，依次比较相邻的两个元素；如果前一个元素大于后一个元素（假设为升序排序），则交换这两个元素的位置；对数组中的每一对相邻元素都执行上述操作，经过一轮比较后，
cryptography，一个神奇的 Python 库！ Sitin涛哥 Python python 开发语言
更多资料获取个人网站：ipengtao.com大家好，今天为大家分享一个神奇的Python库-cryptography。Github地址：https://github.com/pyca/cryptography在当今数字化时代，信息安全越来越受到重视。数据加密是保护数据安全的重要手段之一，而Python的cryptography库提供了丰富的功能来支持各种加密算法和协议。本文将深入探讨crypto
深度讨论Python for循环观智能 python 开发语言
作者的其他文章推荐：强化学习再受关注！for循环使用于遍历可迭代对象的Python语句，工作原理如下：#for循环foriteminiterable:print(item)#等价于iterator=iter(iterable)#获取迭代器whileTrue:try:item=next(iterator)#获取下一个元素print(item)exceptStopIteration:break#迭代结
Python第六章08：元组操作练习题苹果.Python.八宝粥 python 开发语言
#元组定义操作练习题"""定义一个元组，内容是：('周杰伦',11,['football','music'])，记录一个学生的信息（姓名、年龄、爱好）请通元组（tuple）的功能，对其进行如下操作：1.查询其年龄所在的下标位置2.查询学生的姓名3.删除学生爱好中的football4.增加爱好：coding"""my_tuple=('周杰伦',11,['football','music'])#1.查
Python第六章07：元组的定义和操作苹果.Python.八宝粥 python 前端开发语言
#tuple元组的定义和操作#tuple元组定义用小括号：(1,2,3,4,5),可以是不同类型元素#给变量定义元组时，写括号不写tuple：a=(1,2,3,4,5)#变量=（）变量=tuple（）空元组变量#tuple元组定义完成后，不可以修改，但是，如果元组中嵌套了一个列表时，元组中列表的内容可以修改#封装数据后，不希望被篡改数据，就使用元组tuple#1.定义一个元组t1=("halibo
Leetcode-100 贪心算法 LuckyAnJo leetcode leetcode 贪心算法算法
贪心算法简介贪心算法（GreedyAlgorithm）是一种常见的优化算法，用于解决最优化问题。该算法的核心思想是每次选择当前情况下的最优解，并期望通过这些局部最优解得到全局最优解。贪心算法通常用于那些可以分解为若干个子问题，且每个子问题的最优解可以合成全局最优解的问题。贪心算法之所以有用，是因为它可以快速地做出决策，并能在某些问题上实现较高的效率，避免了回溯与暴力解法的复杂度。贪心算法思想贪心算
利用Python爬虫获取Shopee（虾皮）商品详情：实战指南小爬虫程序猿 python 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Python爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Python爬虫获取Shopee商品详情，并提供完整的代码示例。一、为
Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析 m0_74825656 面试学习路线阿里巴巴 transformer 架构深度学习
1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT)编码器-解码器模型(如BART,T5)DenseTransformerDenseTransformer的优势是什么DenseTransform
在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
字节跳动算法高频题：动态规划最优模板知识产权13937636601 计算机算法动态规划
本文系统梳理字节跳动近三年算法面试中的动态规划（DP）高频题型，提炼出适用于80%场景的通用解题模板。通过背包问题、字符串处理、状态压缩等六大核心模块解析，结合跳槽、股票交易、编辑距离等15道真题案例，揭示动态规划的状态转移方程构建规律与维度优化技巧，助您在面试中实现时间复杂度与空间复杂度的双重最优解。第一章动态规划基础框架1.1动态规划三大特征特征判定标准真题案例重叠子问题递归树中存在重复计算节
macOS 使用 enca 识别文件编码类型（比 file 命令准确）知识搬运bot 软件工具/使用技巧 macos enca file iconv 文件编码
文章目录macOS上安装enca基本使用起因-iconv关于enca安装Encaenca&enconv其它用法macOS上安装encabrewinstallenca基本使用encafilepath.txt示例$enca动态规划算法.txt[0]SimplifiedChineseNationalStandard;GB2312CRLFlineterminators起因-iconv在macOS上打开一些
数据库数值函数详解 web安全工具库数据库 oracle jvm
各类资料学习下载合集https://pan.quark.cn/s/8c91ccb5a474数值函数是数据库中用于处理数值数据的函数，可以用于执行各种数学运算、统计计算等。数值函数在数据分析及处理时非常重要，能够帮助我们进行数据的聚合、计算和转换。在本篇博客中，我们将详细介绍常用的数据库数值函数，并通过Python和SQLite进行示例，帮助您理解和应用这些函数。1.数值函数的基本概念数值函数是用于
Python中Requests的Cookies的简单使用北条苒茗殇 python 开发语言 Requests
概述Python的Requests库中有一个cookies，是用于管理HTTPCookie的工具，可以像字典一样操作Cookie，支持自动处理作用域（域名、路径）和持久化，cookies是一个RequestsCookieJar的类型。一、概念1.作用自动存储服务器返回的Cookie根据请求域名和路径进行自动发送匹配的Cookie支持手动添加、修改、删除Cookie2.RequestsCookieJ
Pytest基础使用北条苒茗殇 pytest
概述Pytest是Python里的一个强大的测试框架，灵活易用，可以进行功能，自动化测试使用，可以与Requests，Selenium等进行结合使用，同时可以生成Html的报告。一、Pytest的基本使用在未指定Pytest的配置文件时，会对以下文件进行执行：test_*.py，如：test_1.py*_test.py，如：1_test.py会对以下的类和函数进行执行：类：以Test_开头的类，如
Visual Studio Code官网下载地址及使用技巧（含常用的拓展插件推荐） ITCTCSDN vscode ide 编辑器
VisualStudioCode（简称“VSCode”）是Microsoft于2015年4月发布的可运行于MacOS、Windows和Linux之上的跨平台源代码编辑器，它具有对JavaScript，TypeScript和Node.js的内置支持，并具有丰富的其他语言（例如C++，C＃，Java，Python，PHP，Go）和运行时（例如.NET和Unity）扩展的生态系统。VisualStudi
利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元墨夶数据库学习资料1 人工智能 mysql 物联网
在工业4.0和智能制造的大背景下，如何确保生产设备的高效稳定运行成为企业竞争力的核心要素之一。传统的事后维修方式已经难以满足现代制造业的需求，而基于人工智能（AI）的预测性维护系统则为这一挑战提供了全新的解决方案。今天，我们将深入探讨如何结合AI技术和MySQL数据库，打造一个智能、高效的工业物联网（IIoT）健康监测平台，助力企业在激烈的市场竞争中脱颖而出。一、为什么选择AI+MySQL？1.A
MySQL中基于机器学习的自适应缓存热点识别优化策略——开启数据库性能新纪元墨夶数据库学习资料1 数据库 mysql 机器学习
在数据驱动的世界里，数据库的性能直接影响到整个应用系统的响应速度和用户体验。随着业务量的增长和技术的发展，传统的缓存机制逐渐暴露出局限性。如何更智能地识别并利用热点数据进行缓存优化，成为提升数据库性能的关键所在。今天，我们将深入探讨一种创新的方法——基于机器学习的自适应缓存热点识别优化策略，并分享其在MySQL中的具体实现方案。为什么选择机器学习？‍传统上，开发者们依赖于手动配置或预设规则来决定哪
python中rmdir和rmtree的用法 Gin387 python
shutil.rmtree()是Python中shutil模块提供的一个函数，用于递归删除整个目录树（包括子目录和所有文件）。os.rmdir()（只能删除空目录）不同，shutil.rmtree()可以强制删除非空目录importshutil#删除指定目录及其所有内容shutil.rmtree('path/to/directory')
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

机器学习实战（十一）——使用Apriori算法进行关联分析

机器学习实战（十一）——使用Apriori算法进行关联分析

一、关联分析

二、Apriori原理

三、使用 Apriori算法来发现频繁集

3.1、生成候选项集

3.2、组织完整的Apriori算法

四、从频繁项集中挖掘关联规则

六、示例：发现毒蘑菇的相似特征

你可能感兴趣的:(机器学习,算法,机器学习,人工智能,python,回归)