奔腾的小马达

Apriori算法进行关联分析实战

使用Apriori算法进行关联分析(层次聚类)

一、基础知识

1.关联分析定义及存在的问题
- 定义：从大规模的数据集中寻找物品间的隐含关系，被称为关联分析或关联规则学习。
- 关联分析存在的主要问题：主要问题在于寻找不同物品的组合是一项很耗时的任务，所需要的计算代价很高，暴力方法无法解决这个问题，所以使用更加合理的方法在合理的时间范围内找到频繁项集。
2.Apriori算法的优缺点及适用场合
- 优点：容易编码实现
- 缺点：在大数据集上可能较慢
- 适用场合：数值型或标称型数据
3.关联分析中的基本概念
- 关联分析是一种在大规模数据集上寻找有趣关系的任务。这些关系可以有两种形式来表示，频繁项集和关联规则。
- 频繁项集：经常出现在一块的物品的集合。
- 关联规则：暗示两种物品之间可能存在很强的关系。
4.频繁项集和关联规则的解释
- 下面的所有记录中，集合{葡萄酒、尿布、豆奶}就是一个频繁集；也可以找出像尿布->葡萄酒的关联规则，这意味着，当有人购买尿布时，那么他很有可能会买葡萄酒。
```
    记录1    豆奶，莴苣
    记录2    莴苣，尿布，葡萄酒，甜菜
    记录3    豆奶，尿布，葡萄酒，橙汁
    记录4    莴苣，豆奶，尿布，葡萄酒
    记录5    莴苣，豆奶，尿布，橙汁
```
5.频繁的定义
- 何谓有趣关系？有什么来定义有趣？当寻找频繁项集时，频繁的定义是什么？可以使用支持度和可信度来描述频繁。
- 一个项集的支持度：数据集中包含该项集的记录所占有的比例。例如，上例中{豆奶}的支持度是4/5，{豆奶，尿布}的支持度是3/5。支持度是针对项集来说的，因此可以定义一个最小支持度，而只保留满足最小支持度的项集。
- 一条关联规则的可信度/置信度：是针对某条关联规则来定义的。例如，上例中像关联规则{尿布}->{葡萄酒}这条关联规则的可信度被定义为支持度({尿布，葡萄酒}})=3/5 / 支持度({尿布})=4/5，可知尿布->葡萄酒的可信度是0.75,这意味着，对于包含所有尿布的记录，我们的规则对其中的75%都是适用的。

二、Apriori算法原理

假设经营一家商店，商品的种类并不多。我们的目标是找出顾客经常一起购买的商品集合，目前只有四种商品，即0，1，2，3。?表示空集集不包括任何商品的集合。商品集合之间的连线表示两个或更多集合可以组合成一个更大的集合。
上面我们说过，使用支持度来表示频繁的定义。因此，一个集合的支持度表示为有多少比例的记录包含该集合。例如，给定集合{0,3}，如何计算其支持度？我们首先遍历，每条记录并检查此记录是否同时包含0和3，如果同时包含了这两个商品，则就增加计数值。在扫描完所有的数据后，使用统计得到的总数除以总的记录数目，就可以得到支持度。
存在的问题：上面只是针对单个集合{0,3}，要获得每种可能集合的支持度就需要多次重复上述过程。根据下图，可以发现，仅有4种商品的集合，也需要遍历数据15次。随着商品种类的增加，遍历次数就会剧烈增加。**对于包含N种商品的数据集，一共有2^N-1种项集的组合。**需要很长的时间才能计算完。
超集：如果集合S2中每个元素都在集合S1中，而且集合S1中可能包含集合S2中没有的元素，则集合S1是S2的一个超集，集合S2是S1的子集。
为了降低所需的计算时间，使用Apriori算法可以减少感兴趣的项集。Apriori原理:**如果某个项集是频繁的，那么它的所有子集也是频繁的。例如，集合{0,1}是频繁的，那么{0}、{1}也一定是频繁的。即如果一个项集的非频繁集，它的所有超集也是非频繁的。**例如下图中已知集合{2,3}是非频繁的，则它的超集{0, 2, 3}、{1, 2, 3}、{0, 1, 2, 3}也是非频繁的。也就是说，一旦计算出了{2, 3}的支持度，知道它是非频繁的，就不需要计算集合{0, 2, 3}、{1, 2, 3}、{0, 1, 2, 3}的支持度。使用Apriori原理就可以避免项集数目的指数增长，从而在合理的时间内计算出频繁集。

三、使用Apriori算法来发现频繁集

1.关联分析的目标是两个：发现频繁集和发现关联规则。首先需要找到频繁项集，然后才能获得关联规则。
2.Apriori算法发现频繁集的步骤：Apriori算法的两个输入参数分别是最小支持度、数据集。首先会生成所有单个物品的项集列表；接着扫描记录来查看哪些项集满足最小支持度要求，**那些不满足最小支持度的集合会被去掉。**然后，对剩下的集合进行组合来生成包含两个元素的项集。接着，在重新扫描记录，去掉不满足最小支持度的项集。**该过程重复进行，直到所有项集都被去掉。**具体代码如下：

加载数据集

    def loadDataSet():
        return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]

构建集合C1,C1是大小为1的所有候选项集的集合，如{{1},{2},{3},{4},{5}}

    def createC1(dataSet):
        C1 = []
        for record in dataSet:
            for item in record:
                if not [item] in C1:
                    C1.append([item])
        C1.sort()
        return list(map(frozenset, C1))  # frozenset是对C1进行冰冻，使C1不能进行修改

从C1中生成L1(L1是满足最小支持度的要求的项集构成的集合)

def scanD(D, Ck, minSupport):
    """
        D:数据集
        Ck:候选项集列表
        minSupport:感兴趣项集的最小支持度
        返回值：retList---L1;supportData---包含支持度值的字典
    """
    ssCnt = {}  # 创建一个空字典，字典的key就是C1中的集合，value是C1中的集合在所有记录中出现的次数
    for record in D:   # 遍历数据集中的每条记录
        for can in Ck:  # 遍历C1中的所有候选项集
            if can.issubset(record):   # 如果C1中的集合是记录中的一部分，则增加字典中对应的计数值;
                if not can in ssCnt:
                    ssCnt[can] = 1  # 字典的key就是集合
                else:
                    ssCnt[can] += 1
    numItems = float(len(D))  # 总的样本数
    print("总的记录数:", numItems)
    retList = []  # 创建一个空列表，此列表包含满足最小支持度的集合
    supportData = {}  # 最频繁项集的支持度
    for key in ssCnt:  # 遍历字典中的每个元素，并计算其最小支持度
        support = ssCnt[key] / numItems  # 计算支持度
        if support >= minSupport:  # 如果C1中的支持度满足最小支持度的要求，就将字典中的元素加入retList中
            retList.insert(0, key)  # 在列表的首部插入新的集合
        supportData[key] = support  # 最频繁项集的支持度
    return retList, supportData

进行合并操作，创建候选项集Ck

def aprioriGen(Lk, k):   # 创建候选项集Ck，对L1中的元素两两组合，得出候选项集C2
    """
        频繁项集列表LK，项集元素个数K
    """
    retList = []
    lenLk = len(Lk)
    for i in range(lenLk):
        for j in range(i + 1, lenLk):
            L1 = list(Lk[i])[:k - 2]
            L2 = list(Lk[j])[:k - 2]
            L1.sort()
            L2.sort()
            if L1 == L2:
                retList.append(Lk[i] | Lk[j])  # 集合的并操作
    return retList

Apriori核心程序

def apriori(dataSet, minSupport=0.5):
    C1 = createC1(dataSet)
    D = list(map(set, dataSet))
    L1, supportData0 = scanD(D, C1, minSupport)
    L = [L1]
    k = 2
    while(len(L[k - 2]) > 0):
        Ck = aprioriGen(L[k - 2], k)
        Lk, supportDatak = scanD(D, Ck, minSupport)
        supportData0.update(supportDatak)
        L.append(Lk)
        k += 1
    return L, supportData0

3.从频繁项集中挖掘关联规则
从频繁项集中挖掘关联规则的步骤：首先从一个频繁项集开始，创建一个关联规则表，每条关联规则的右部只含有一个元素。然后，对这些关联规则进行测试，如果每条关联规则的可信度不满足最小的可信度minConf要求，就去掉此条关联规则。最后，合并剩余的关联规则，创建一个新的关联规则表，其中关联规则的右部包含两个元素。重复上面的步骤，直到关联规则表为空时停止。具体代码如下：

关联规则表的生成

def generateRules(L, supportData, minConf=0.7):
    """
        L:频繁项集
        supportData:包含那些频繁项集支持数据的字典
        minConf:最小的可信度
        返回：一个包含可信度的规则列表bigRuleList
    """
    bigRuleList = []  # 初始化存放所有关联规则的列表
    for i in range(1, len(L)):
        for freqSet in L[i]:  # 最开始的关联规则表中，每条关联规则freqSet的右部H1只有一个元素
            H1 = [frozenset([item]) for item in freqSet]
            if (i > 1):
                rulesFromConseq(freqSet, H1, supportData, bigRuleList, minConf)
            else:
                calcConf(freqSet, H1, supportData, bigRuleList, minConf)
    return bigRuleList

可信度的计算,例如存在一条关联规则{0,1,2}–>{3, 5},则可信度的计算为:{0,1,2,3,5}的支持度 / {0,1,2}的支持度。其中下面程序中freqSet就是集合{0,1,2,3,5};H就是集合{3, 5};conseq就是{3}、{5}

def calcConf(freqSet, H, supportData, brl, minConf=0.7):
    prunedH = []
    for conseq in H:
        conf = supportData[freqSet] / supportData[freqSet - conseq]  # 计算每条关联规则的可信度
        print(freqSet - conseq, '--->', conseq, '可信度conf:', conf)
        brl.append((freqSet - conseq, conseq, conf))
        prunedH.append(conseq)
    return prunedH  # 返回一个满足最小可信度要求的关联规则表

合并上一次生成的关联规则，生成新的候选关联规则列表

def rulesFromConseq(freqSet, H, supportData, brl, minConf=0.7):
    m = len(H[0])
    if (len(freqSet) > (m + 1)):  # 合并关联规则
        Hmp1 = aprioriGen(H, m + 1)  # 创建新的频繁项集
        Hmp1 = calcConf(freqSet, Hmp1, supportData, brl, minConf)
        if (len(Hmp1) > 1):  # 新的关联规则表中，每条关联规则中的右边Hmp1必须包含两个元素
            rulesFromConseq(freqSet, Hmp1, supportData, brl, minConf)

打印关联规则

# 打印关联规则
def pntRules(ruleList, itemMeaning):
    for ruleTup in ruleList:
        for item in ruleTup[0]:
            print(itemMeaning[item])
        print("           -------->")
        for item in ruleTup[1]:
            print(itemMeaning[item])
        print("可信度: %f" % ruleTup[2])

四.所有代码如下：

```
    #!/usr/bin/env python
    # -*- coding: utf-8 -*-
    # @Date    : 2019-05-18 11:30:01
    # @Author  : cdl ([email protected])
    # @Link    : https://github.com/cdlwhm1217096231/python3_spider
    # @Version : $Id$

    from numpy import *


    # 层次聚类，基于查找关联规则Apriori算法


    def loadDataSet():
        return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]


    # 构建集合C1,C1是大小为1的所有候选项集的集合，如{{1},{2},{3},{4},{5}}
    def createC1(dataSet):
        C1 = []
        for record in dataSet:
            for item in record:
                if not [item] in C1:
                    C1.append([item])
        C1.sort()
        return list(map(frozenset, C1))  # frozenset是对C1进行冰冻，使C1不能进行修改


    # 从C1中生成L1(L1是满足最小支持度的要求的项集构成的集合)
    def scanD(D, Ck, minSupport):
        """
            D:数据集
            Ck:候选项集列表
            minSupport:感兴趣项集的最小支持度
            返回值：retList---L1;supportData---包含支持度值的字典
        """
        ssCnt = {}  # 创建一个空字典，字典的key就是C1中的集合，value是C1中的集合在所有记录中出现的次数
        for record in D:   # 遍历数据集中的每条记录
            for can in Ck:  # 遍历C1中的所有候选项集
                if can.issubset(record):   # 如果C1中的集合是记录中的一部分，则增加字典中对应的计数值;
                    if not can in ssCnt:
                        ssCnt[can] = 1  # 字典的key就是集合
                    else:
                        ssCnt[can] += 1
        numItems = float(len(D))  # 总的样本数
        print("总的记录数:", numItems)
        retList = []  # 创建一个空列表，此列表包含满足最小支持度的集合
        supportData = {}  # 最频繁项集的支持度
        for key in ssCnt:  # 遍历字典中的每个元素，并计算其最小支持度
            support = ssCnt[key] / numItems  # 计算支持度
            if support >= minSupport:  # 如果C1中的支持度满足最小支持度的要求，就将字典中的元素加入retList中
                retList.insert(0, key)  # 在列表的首部插入新的集合
            supportData[key] = support  # 最频繁项集的支持度
        return retList, supportData


    #
    def aprioriGen(Lk, k):   # 创建候选项集Ck，对L1中的元素两两组合，得出候选项集C2
        """
            频繁项集列表LK，项集元素个数K
        """
        retList = []
        lenLk = len(Lk)
        for i in range(lenLk):
            for j in range(i + 1, lenLk):
                L1 = list(Lk[i])[:k - 2]
                L2 = list(Lk[j])[:k - 2]
                L1.sort()
                L2.sort()
                if L1 == L2:
                    retList.append(Lk[i] | Lk[j])  # 集合的并操作
        return retList


    # Apriori核心程序
    def apriori(dataSet, minSupport=0.5):
        C1 = createC1(dataSet)
        D = list(map(set, dataSet))
        L1, supportData0 = scanD(D, C1, minSupport)
        L = [L1]
        k = 2
        while(len(L[k - 2]) > 0):
            Ck = aprioriGen(L[k - 2], k)
            Lk, supportDatak = scanD(D, Ck, minSupport)
            supportData0.update(supportDatak)
            L.append(Lk)
            k += 1
        return L, supportData0


    # 关联规则表的生成
    def generateRules(L, supportData, minConf=0.7):
        """
            L:频繁项集
            supportData:包含那些频繁项集支持数据的字典
            minConf:最小的可信度
            返回：一个包含可信度的规则列表bigRuleList
        """
        bigRuleList = []  # 初始化存放所有关联规则的列表
        for i in range(1, len(L)):
            for freqSet in L[i]:  # 最开始的关联规则表中，每条关联规则freqSet的右部H1只有一个元素
                H1 = [frozenset([item]) for item in freqSet]
                if (i > 1):
                    rulesFromConseq(freqSet, H1, supportData, bigRuleList, minConf)
                else:
                    calcConf(freqSet, H1, supportData, bigRuleList, minConf)
        return bigRuleList


    # 计算可信度
    def calcConf(freqSet, H, supportData, brl, minConf=0.7):
        prunedH = []
        for conseq in H:
            conf = supportData[freqSet] / supportData[freqSet - conseq]  # 计算每条关联规则的可信度
            print(freqSet - conseq, '--->', conseq, '可信度conf:', conf)
            brl.append((freqSet - conseq, conseq, conf))
            prunedH.append(conseq)
        return prunedH  # 返回一个满足最小可信度要求的关联规则表


    # 合并上一次生成的关联规则，生成新的候选关联规则列表
    def rulesFromConseq(freqSet, H, supportData, brl, minConf=0.7):
        m = len(H[0])
        if (len(freqSet) > (m + 1)):  # 合并关联规则
            Hmp1 = aprioriGen(H, m + 1)  # 创建新的频繁项集
            Hmp1 = calcConf(freqSet, Hmp1, supportData, brl, minConf)
            if (len(Hmp1) > 1):  # 新的关联规则表中，每条关联规则中的右边Hmp1必须包含两个元素
                rulesFromConseq(freqSet, Hmp1, supportData, brl, minConf)


    # 打印关联规则
    def pntRules(ruleList, itemMeaning):
        for ruleTup in ruleList:
            for item in ruleTup[0]:
                print(itemMeaning[item])
            print("           -------->")
            for item in ruleTup[1]:
                print(itemMeaning[item])
            print("可信度: %f" % ruleTup[2])


    if __name__ == "__main__":
        dataSet = loadDataSet()
        C1 = createC1(dataSet)  # 原始集合C1
        print("原始集合C1:", C1)
        D = list(map(set, dataSet))
        print("数据集D:", D)
        L1, supportData0 = scanD(D, C1, minSupport=0.5)
        print("频繁项集L1:", L1, "\n支持度:", supportData0)
        print("---------------完整测试-----------------")
        dataSet = loadDataSet()
        L, supportData = apriori(dataSet)
        print("频繁项集L:", L, "\n支持度: ", supportData)
        print('--------------关联规则的生成-------------')
        rules = generateRules(L, supportData, minConf=0.5)
        print("关联规则为:", rules)
```

LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
「日拱一码」020 机器学习——数据处理胖达不服输「日拱一码」机器学习人工智能数据处理 python
目录数据清洗缺失值处理删除缺失值：填充缺失值：重复值处理检测重复值处理重复值异常值处理Z-score方法IQR方法（四分位距）数据一致性检查数据转换规范化（归一化）Min-Max归一化MaxAbsScaler标准化离散化等宽离散化等频离散化数据清洗数据清洗是数据处理的第一步，目的是去除噪声数据、处理缺失值和异常值，使数据更加干净、可用缺失值处理删除缺失值：如果数据集中缺失值较少，可以直接删除包含缺
机器学习每周挑战——二手车车辆信息&交易售价数据梦想成为一名机器学习高手机器学习 python 人工智能
这是数据集的截图目录背景描述数据说明车型对照：燃料类型对照：老规矩，第一步先导入用到的库第二步，读入数据：第三步，数据预处理第四步：对数据的分析第五步：模型建立前的准备工作第六步：多元线性回归模型的建立第七步：随机森林模型的建立问题：背景描述本数据爬取自印度最大的二手车交易平台CARS24，包含8000+该平台上交易车辆的关键评估信息。CARS24成立于2015年，总部位于印度古尔冈，是一个在印度
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name