不论如何未来很美好

数据挖掘经典算法：FP-Growth算法（高效发现频繁项集）

本篇文章介绍一中与上一章Apriori算法功能类似的一种算法——FP-Growth，该算法速度更快、大多情况下效果更好，但是不能用于发现关联规则。以下都是通过机器学习实战与本人的实践过后的总结。

FP-Growth算法，基于Apriori构建，但在完成相同任务时采用了不同的技术，其只需要对数据集进行两次扫描，而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁，因此其比Apriori算法快。FP算法需要将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁项对。两次扫描步骤如下：

构建FP树
从FP树挖掘频繁项集

FP-Growth算法使用一种叫做FP树的数据结构，这种数据结构能更好的处理复杂的数据存储问题，相比Apriori算法实现起来就比较复杂，某些数据集上性能也可能下降，FP表示频繁模式，一颗FP树看起来与计算机科学中的其它树结构相似，但是它是使用链接（link）来连接相似元素，被连接的元素看起来就像链表一样，如下图所示：

相同的元素之间通过link来连接，同搜索树不同的是，一个元素项可以在一棵FP树中出现多次。FP树会存储项集的出现频率，而每个项集会以路径的方式存储在树中。存在相似元素的集合会共享树的一部分。只有当集合之间完全不同时，树才会分叉。树节点上给出集合中的单个元素及其在序列中的出现次数，路径会给出该序列的出现次数。相似项之间的链接即节点链接，用于快速发现相似项的位置。

（就我个人实践后而言，FP-Growth算法难点在于将（FP树的数据结构、FP树的创建、条件模式基查找、创建条件FP树）等几个重要的步骤结合起来使用可能有点复杂，理解起来也容易混乱，但是就每一个步骤而言是很容易理解的，我在每一个步骤中也有相关的注释，千万不要被稍多的代码吓到。）下面就每个分成块的内容实现代码进行介绍：

FP树的数据结构：

由于FP树需要存储的内容比较复杂且节点间的关联性比较大，所以这里采用类来封装这些属性，每一个树的节点使用类来保存。

# 树节点用类来封装所有属性（以便解决复杂的数据存储问题）
class treeNode:
    def __init__(self, nameValue, numOccur, parentNode):
        self.name = nameValue   # 元素名
        self.count = numOccur   # 该路径下该元素次数
        self.nodeLink = None    # 用来指向它的相同元素位置不同的节点的位置
        self.parent = parentNode  # 获取父节点，该功能方便后面查找前缀路径（条件模式基）
        self.children = {}      # 该节点的子节点

    def inc(self, numOccur):
        self.count += numOccur

    # 画树便于直观的观察和调试（实际代码意义不大，但很重要）
    def disp(self, ind=1):
        print('  ' * ind, self.name, ' ', self.count)
        for child in self.children.values():
            child.disp(ind + 1)

# 检验以下树的创建
rootNode = treeNode('pyramid',9,None)    # 创建根节点
rootNode.children['eye'] = treeNode('eye',13,None)    # 创建子节点
rootNode.children['phoenix'] = treeNode('phoenix',3,None)
rootNode.children['eye'].children['mm'] = treeNode('mm',6,None) # 创建子节点的子节点
rootNode.disp()    # 画出树图

比较简单的实现，后面树的建立都需要调用该类来创建相关的数据结构，且节点之间也需要设置它的属性来连接。

FP树的创建：

其实FP树还需要一个头指针表来指向给定类型的第一个示例，然后再从指向的节点指向下一个节点,头指针表就是一个指向入口后面可以用来快速查找前缀路径等作用，如下图所示：

在对事务记录过滤和排序之后，就可以构建FP树了。从空集，向其中不断添加频繁项集。过滤、排序后的事务依次添加到树中，如果树中巳存在现有元素，则增加现有元素的值;如果现有元素不存在，则向树添加一个分枝。

前两个函数仅为创建测试数据，提供测试样例。

# 创建测试数据
def loadSimpDat():
    simpDat = [['r', 'z', 'h', 'j', 'p'],
               ['z', 'y', 'x', 'w', 'v', 'u', 't', 's'],
               ['z'],
               ['r', 'x', 'n', 'o', 's'],
               ['y', 'r', 'x', 'z', 'q', 't', 'p'],
               ['y', 'z', 'x', 'e', 'q', 's', 't', 'm']]
    return simpDat

# 将记录数据转换为frozenset的字典并初始化为1，才能后续的树构造
def createInitSet(dataSet):
    retDict = {}
    for trans in dataSet:
        retDict[frozenset(trans)] = 1
    return retDict

# 创建树的主要封装函数
def createTree(dataSet, minSup=1):  # 从数据集创建FP-tree但不挖掘
    headerTable = {}
    # 遍历两次数据集
    # 第一次遍历数据集 计算所有元素的频率，返回字典样式
    for trans in dataSet:
        for item in trans:
            headerTable[item] = headerTable.get(item, 0) + dataSet[trans]   # get方法类似于[item]，直接取值，但是由于第一次取值为空，我们需要返回0，最为当前值，否则出错

    for k in list(headerTable.keys()):  # 循环所有的键，去除小于阈值的键值对
        if headerTable[k] < minSup:     # py3字典在遍历的时候不能更改，所以需要list(a.keys())
            del (headerTable[k])
    freqItemSet = set(list(headerTable.keys()))
    if len(freqItemSet) == 0:
        return None, None  # 如果没有满足最小minSup的元素则退出
    for k in headerTable:       # 后面试试在前面的for中就构建好！！！
        headerTable[k] = [headerTable[k], None]  # 重新构造 headerTable （计数值，指向第一个元素项的指针）
    retTree = treeNode('Null Set', 1, None)  # 构建最初的空值树
    # 第二次遍历数据集 构建FP树（只考虑第一次判定的频繁项
    for tranSet, count in dataSet.items():
        localD = {}
        for item in tranSet:  # 为每条筛选后不为0的记录排序
            if item in freqItemSet: # 如果所有频繁项中有该值
                localD[item] = headerTable[item][0]
        if len(localD) > 0:
            # print(localD) #{'z': 5, 'r': 3}
            # 排序主要步骤：通过sorted方法排序，排序的值key=items获得字典的值的第二个值（即元素个数），reverse=True表示降序排序，最后通过列表中只保存元素，不保留个数
            orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)]  # ['z','r']
            updateTree(orderedItems, retTree, headerTable, count)  # 使用有序的频繁项集填充树
    return retTree, headerTable  # 返回树和头表

# 将每条有序项集添加到树中
def updateTree(items, inTree, headerTable, count):
    if items[0] in inTree.children:  # 递归时都先判断当前画树的值是否在树的子节点上，如果在则不需要画，只需增加count值
        inTree.children[items[0]].inc(count)  # 给该子节点增加count值（通过类的函数inc）
    else:
        # 如果不在则需要画新的树节点 并且(由于新画了节点，所以需要将相同的该元素节点指向它，若是第一次则用头表指向它)
        inTree.children[items[0]] = treeNode(items[0], count, inTree)   # 画树只需要调用类的子函数treeNode即可
        # 更新头表
        if headerTable[items[0]][1] == None:    # 若头表中该值没有连接过则
            headerTable[items[0]][1] = inTree.children[items[0]]    # 创建link连接，将头表该元素字典的列表的第二个元素记录为该树节点
        else:   # 若有link连接则更新
            updateHeader(headerTable[items[0]][1], inTree.children[items[0]])   # 传入（原来头表指向的节点，新画的节点）
    if len(items) > 1:  # 当还有元素时，则继续调用updateTree更新FP树
        updateTree(items[1::], inTree.children[items[0]], headerTable, count)

# 更新头表
def updateHeader(nodeToTest, targetNode):  # 这个版本不使用递归
    while (nodeToTest.nodeLink != None):  # 不要使用递归来遍历链表！！
        nodeToTest = nodeToTest.nodeLink
    nodeToTest.nodeLink = targetNode

simpDat = loadSimpDat()    # 前面两个函数仅为创建数据集用来测试
initSet = createInitSet(simpDat)
myFPtree,myHeaderTable = createTree(initSet,3)  # FP树 头表
myFPtree.disp()   # 画出FP树
print(myHeaderTable)

获得的FP树和头表如下：

树的创建同样很简单，updateTree为生长树的函数这也是FP-Growth中‘Growth’生长一词的含义。

条件模式基查找：

创建了FP树后从该树种数据挖掘频繁项集的步骤如下：

从FP树种获得条件模式基
利用条件模式基创建FP条件树
重复迭代1、2步骤，直到树包含一个元素项为止

如何抽取条件模式基呢？首先从上面发现的已经保存在头指针表中的单个频繁元素项开始。对于每个元素项获得其对应的条件模式基。条件模式基是以所查找元素项为结尾的路径集合，每一条路径其实都是一条前缀路径。简而言之，一条前缀路径是介于所查找元素项与树根节点之间的所有内容。

前缀路径将被用来构建条件FP树，但是这里先讨论如何查找前缀路径。1：可以通过穷举式搜索，直到获得所有的频繁项位置。2：利用先前的头指针表，头指针表包含相同类型元素链表的起始指针。一旦到达每个元素项，就可以上溯这棵树直到根节点。

很显然2是一种更高效、更简单的方法，所以这里采用2这种方法来进行前缀路径的获取，头表中的每个元素的每条路径都回溯完后便是完整的条件模式基了。下面介绍该方法：

# 获取一条前缀路径
def ascendTree(leafNode, prefixPath):  # 从末节点回溯到根节点
    if leafNode.parent != None: # 由于前面画节点的时候，保存了上一个节点为下一个节点的父节点
        prefixPath.append(leafNode.name)
        ascendTree(leafNode.parent, prefixPath) # 回溯到根节点

# 获取条件模式基（前缀路径集合）
def findPrefixPath(basePat, treeNode):  # treeNode comes from header table
    condPats = {}
    while treeNode != None:
        prefixPath = []
        ascendTree(treeNode, prefixPath)
        if len(prefixPath) > 1:
            condPats[frozenset(prefixPath[1:])] = treeNode.count
        treeNode = treeNode.nodeLink    # 获取下一个前缀路径的最后一个节点
    return condPats     #{每条前缀路径：最后一个元素的计数值}

# 某元素的条件模式基获取
print(findPrefixPath('x',myHeaderTable['x'][1]))
print(findPrefixPath('r',myHeaderTable['r'][1]))

可以将结果与上面的图相比较看看是否正确（由于代码原因所以每次运行可能结果不同）：

获得了关于'x'，'r''的条件模式基，此段代码调用了前面获得的头指针表来上溯，此两段函数内容较少，也比较简单，但操作确实很骚的，可以对比着FP树结合节点数据结构来形象的理解。

创建条件FP树：

# 创建条件树  第一个参数意义不大     最小阈值  {}集合      []列表
def mineTree(inTree, headerTable, minSup, preFix, freqItemList):
    # 错误代码说明：p是：('r', [3, <__main__.treeNode object at 0x000002251A5F4BA8>])  p[1]是：[3, <__main__.treeNode object at 0x000002251A5F4BA8>]
    # 所以还需要对p[1]取[0]，得到key=3，用计数值排序而不是树结构排序
    bigL = [v[0] for v in sorted(headerTable.items(), key=lambda p: p[1][0])]    # 头表排序，只取键'r'
    for basePat in bigL:  # 从头表的底部开始 ['r', 's', 't', 'y', 'x', 'z']
        newFreqSet = preFix.copy()
        newFreqSet.add(basePat)  # 添加频繁元素到上一次的集合中
        # print(newFreqSet)
        freqItemList.append(newFreqSet)         # 这个列表用来保存所有的频繁项集
        condPattBases = findPrefixPath(basePat, headerTable[basePat][1])    # 找到条件模式基（即前缀路径集合）
        # 用该元素的条件模式基来创建该元素条件FP树
        myCondTree, myHead = createTree(condPattBases, minSup)  # 返回 条件FP树、头表
        if myHead != None:  # 继续挖掘FP树
            mineTree(myCondTree, myHead, minSup, newFreqSet, freqItemList)

# 创建条件FP树，并获得频繁项集
freqItems = []
mineTree(myFPtree,myHeaderTable,3,set([]),freqItems)
print(freqItems)

最后这个函数虽然代码量少，但是却包含了所有的内容，所以需要仔细的理解，主要用的是前面构建FP树时的头表信息，以及每个节点保存的信息。用头表获得每个元素的条件模式基，然后再用条件模式基来创建条件FP树。每次运行都是用freqItems列表来保存下

由于使用的集合所以结果的每个元素时随机的，如果像更好的观察数据的添加，可以将set([])变为列表[]，然后使用append，可以更好的查看元素的添加过程。

好了以上便是FP-Growth算法的全部内容，特点：每一步的运算相对较简单，但是将整个代码过程结合起来有点复杂，这也是该算法的一个缺点，尤其值最后一个函数代码量少却包含了太多的东西。

频繁项集的应用比较广法，比如购物交易、医学诊断、大气研究等等，本文最后在引入一个书上的实际示例：一个数据集包含一百万多条信息，每条信息为一个人读的文章的编号，我们需要找出哪些文章集合是被超过100000人看过的（那么这些文章集合便是要找的频繁项集）。

实际示例：

样例数据（每个人读的不一样）：

主要调用上述的代码，以及加载本地的数据集：

# 实际数据操作（每个人阅读的文章编号集合）
parsedDat = [line.split() for line in open('kosarak.dat').readlines()]  # 每一个数字代表一篇新闻的编号
initSet = createInitSet(parsedDat)
myFPtree,myHeaderTab = createTree(initSet,100000)   # 构建FP树，头表

myFreqList = []
mineTree(myFPtree,myHeaderTab,100000,set([]),myFreqList)
print(myFreqList)   # 有多少新闻集合被超过100000人看过

一共9条记录，FP-Growth算法真的比Apriori快太多了不止两个数量级，亲自用相同的数据测试过。

参考书籍：《机器学习实战》

机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
机器学习专栏博文汇总 python游乐园机器学习机器学习人工智能合集
本篇汇集了Python游乐园中机器学习专栏博文，会持续更新，需要的小伙伴可以收藏一下Python机器学习实战：基于不同机器学习算法的鸢尾花数据集分析机器学习常见问题：过拟合及其处理方式结构化数据和非结构化数据的区别是什么如何选择合适的机器学习算法来处理非结构化数据可用于文本分析的机器学习算法都有哪些Python机器学习实战：遗传算法机器学习基础：什么是启发式算法机器学习中常用的调节参数的方法（附P
Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
《机器学习实战：从数据清洗到云端部署的可视化进阶指南（三）》庸俗今天不摸鱼机器学习人工智能 python
▍前言：阶段核心突破当前已完成模型开发与优化升级核心任务，成功将理论模型转化为工业级解决方案。本阶段基于前期标准化数据，实现从基础模型构建到高性能算法迭代的跨越式发展。▍章节回顾：攻坚与优化成果3.模型开发阶段算法实现：逻辑回归：搭建分类基线（LogisticRegression，准确率基准）支持向量机：对比线性核与RBF核性能差异（F1-score提升12%）K近邻：动态优化邻居数（k=5时验证
数据挖掘实习面经一 Y1nhl 搜广推面经数据挖掘人工智能机器学习推荐算法 python 风控算法搜索引擎
写在前面：其实数据挖掘、风控、机器学习算法与搜广推的八股还是有重合的部分，毕竟都是面对结构化数据。特别是我自己是做竞赛的，平时LGBM、CatBoost用的挺多的，所以感觉这些八股还是有必要看看，建议大家也可以看一下。京东数据挖掘算法一、介绍贝叶斯优化的原理贝叶斯优化（BayesianOptimization）是一种用于优化黑盒函数的有效方法，特别适用于目标函数评估成本较高、不可导或难以解析表达的
机器学习实战：从理论到实践静默.\\ 机器学习人工智能
随着人工智能技术的迅猛发展，机器学习作为其核心部分，已经广泛应用于各个领域。它不仅在科技公司中扮演着关键角色，在医疗、金融、零售等行业也展现了巨大的潜力。然而，对于许多初学者来说，如何将理论知识转化为实际操作是一个挑战。本文旨在通过一个具体的案例——预测房价，来介绍机器学习的基本流程和具体操作步骤。我们将使用Python编程语言及其相关的科学计算库，如NumPy、Pandas、Scikit-Lea
《机器学习实战》专栏 No12：项目实战—端到端的机器学习项目Kaggle糖尿病预测带娃的IT创业者机器学习实战机器学习人工智能分类算法 python
《机器学习实战》专栏第12集：项目实战——端到端的机器学习项目Kaggle糖尿病预测本集为专栏最后一集，本专栏的特点是短平快，聚焦重点，不长篇大论纠缠于理论，而是在介绍基础理论框架基础上，快速切入实战项目和代码，所有代码都经过实践检验，是读者入门和熟悉上手的上佳知识材料在本集中，我们将通过Kaggle平台的经典糖尿病预测（PimaIndiansDiabetesDataset）数据集，系统回顾完整的
机器学些|实战? dami_king 随笔机器学习
机器学习实战：从零到%1…今天聊聊机器学习（MachineLearning,ML），这个听起来高大上的技术其实并没有那么神秘。跟着我的节奏，咱们一起来探索一下如何从零开始！准备工作：安装和导入必要的库在开始我们的房价预测项目之前，我们需要准备好开发环境并导入所有必要的库。这些库将帮助我们处理数据、构建模型、评估性能以及可视化结果。安装Python和JupyterNotebook首先，确保你已经安装
Python机器学习实战：独热编码 python游乐园机器学习 python 机器学习人工智能
独热编码（One-HotEncoding）是一种用于将分类数据转换为适合机器学习算法处理的数值型数据的编码技术。基本概念在机器学习中，很多算法要求输入的数据是数值型的，但实际数据中常常包含分类变量，比如颜色（红、绿、蓝）、性别（男、女）等。独热编码就是为了解决这个问题而设计的，它将每个类别变量转换为一个二进制向量。原理对于一个具有n个不同类别的分类变量，独热编码会创建一个长度为n的二进制向量。在这
Python机器学习实战：主成分分析(PCA)的原理和实战操作 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：主成分分析(PCA)的原理和实战操作1.背景介绍1.1什么是主成分分析(PCA)？主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的无监督学习算法，用于数据降维和特征提取。它通过线性变换将原始高维数据映射到低维空间，同时保留数据的主要特征和信息。PCA的目标是找到数据中最主要的方向（主成分），沿着这些方向对数据进行投影，从而实现降维。1
Python机器学习实战：人脸识别技术的实现和挑战 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：人脸识别技术的实现和挑战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：人脸识别技术,模型训练,多人识别,动态人脸检测,应用场景1.背景介绍1.1问题的由来随着科技的进步和互联网的普及，人脸识别技术因其在安全验证、生物特征识别、智能监控等多个领域的广泛应用而迅速崛起。从传统的门禁系统到现代的人脸支付、社交媒体的自动登
《机器学习实战》——在python中使用Matplotlib注解绘制树形图哆啦AA梦 python 机器学习 python 机器学习
#encoding=utf-8#使用文本注解绘制树形图importmatplotlib.pyplotaspltdecisionNode=dict(boxstyle="sawtooth",fc="0.8")leafNode=dict(boxstyle="round4",fc="0.8")arrow_args=dict(arrowstyle="<-")#上面三行代码定义文本框和箭头格式#定义决策树决策
Python从0到100（六十一）：机器学习实战-实现客户细分是Dream呀 python 机器学习开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
【机器学习实战入门】使用OpenCV进行性别和年龄检测精通代码大仙数据挖掘深度学习 python 机器学习 python opencv 数据挖掘人工智能
GenderandAgeDetectionPython项目首先，向您介绍用于此高级Python项目的性别和年龄检测中的术语：什么是计算机视觉？计算机视觉是一门让计算机能够像人类一样观察和识别数字图像和视频的学科。它面临的挑战大多源于对生物视觉有限的了解。计算机视觉涉及获取、处理、分析和理解数字图像，旨在从现实世界中提取高维数据，从而生成可用来做决策的符号或数值信息。该过程通常包括物体识别、视频跟踪
【机器学习实战中阶】音乐流派分类-自动化分类不同音乐风格精通代码大仙数据挖掘深度学习 python 机器学习分类自动化人工智能数据挖掘深度学习
音乐流派分类–自动化分类不同音乐风格在本教程中，我们将开发一个深度学习项目，用于自动化地从音频文件中分类不同的音乐流派。我们将使用音频文件的频率域和时间域低级特征来分类这些音频文件。对于这个项目，我们需要一个具有相似大小和相似频率范围的音频曲目数据集。GTZAN流派分类数据集是音乐流派分类项目中最推荐的数据集，并且它是为了这个任务而收集的。音乐流派分类器模型音乐流派分类关于数据集：GTZAN流派收
【机器学习实战入门项目】基于机器学习的鸢尾花分类项目精通代码大仙数据挖掘 python 深度学习机器学习分类人工智能大数据数据挖掘算法 python
基于机器学习的鸢尾花分类项目介绍：本项目利用机器学习模型对鸢尾花进行分类。鸢尾花数据集是一个著名的机器学习数据集，包含三种类别的花朵：Setosa、Versicolor和Virginica，每种类别由四个特征描述：萼片长度、萼片宽度、花瓣长度和花瓣宽度。什么是机器学习？机器学习是关于从数据中学习预测或提取知识的过程。它是人工智能的一个子领域。机器学习算法基于样本数据（即训练数据）构建模型，并根据训
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
机器学习实战----波士顿房价预测模型永远偷渡不了的非洲人机器学习机器学习 sklearn python
波士顿房价模型预测是一个回归问题，可以采用r2_score方法来作为评价指标。importnumpyasnpimportpandasaspdfromsklearn.metricsimportr2_score#从sklearn的数据库中导入波士顿房产数据fromsklearn.datasetsimportload_bostonfromsklearn.model_selectionimporttrai
python logistic模型_Python实践之逻辑回归（Logistic Regression） weixin_39922394 python logistic模型
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归(LogisticRegression)，也算进入了比较正统的机器学习算法。啥叫正统呢？我概念里面机器学习算法一般是这样一个
(二十一)Seaborn知识学习8-python数据分析与机器学习实战(学习笔记) 努力奋斗的durian
文章原创,最近更新：2018-05-17课程来源:python数据分析与机器学习实战-唐宇迪引言:介绍seaborn热度图绘制学习参考链接:1、Seaborn官方0.8.1版本首先介绍以下热度图的作用,拿出离散群数据,离散群数据可能会发生波动变化.看一下哪个点的值比较高,看一下哪个点的值比较低?通过值的变化,用颜色表现出来,这个是我们要做的一件事.热度图是由不同的颜色构成的,这个颜色由可能是由浅入
机器学习实战2--蒙特卡洛方法与Q-Q图(2022/10/12) 点灯的棉羊机器学习Jupyter笔记机器学习人工智能 numpy python
蒙特卡洛方法与Q-Q图文章目录蒙特卡洛方法与Q-Q图蒙特卡洛方法蒙特卡洛的定义和基本步骤一些常用的概率论相关函数使用蒙特卡洛验证大数定理Q-Q图Q-Q图的定义及用途importnumpyasnpfromnumpy.linalgimportinv,eigimportmatplotlib.pyplotaspltimportpandasaspdfromscipy.statsimportnorm蒙特卡洛方
机器学习实战1-基础运用（2022/10/11）点灯的棉羊机器学习Jupyter笔记机器学习 python numpy
机器学习实战1-基础运用文章目录机器学习实战1-基础运用numpy的简单运用生成矩阵和矩阵的简单操作用pandas库读取、保存csv数据文件read_csv()函数及读入的数据处理to_csv()保存数据matplotlib.pyplot库绘图的使用条形图的绘制箱型图的绘制分位数（Quantile）分位点/四分位数分位数与箱型图`boxplot()`函数绘制交叉报表热力图plt绘图基础import
机器学习实战Jupyter笔记专栏汇总点灯的棉羊机器学习Jupyter笔记机器学习 jupyter 人工智能
机器学习实战Jupter笔记开始博客学校开始的一门机器学习的课程，于是使用jupyter写这门课的作业，顺便将其完善为笔记发表为这个专栏的博客，并将专栏博客链接汇总到这里。由于是刚开始学习机器学习方面的内容，如有错误的地方，希望能有大佬能帮忙指正。笔记1机器学习实战1-基础运用种一棵树最好的时间–是十年前，其次是现在
Python环境下基于深度判别迁移学习网络的轴承故障诊断哥廷根数学学派故障诊断信号处理深度学习 python 迁移学习开发语言
目前很多机器学习和数据挖掘算法都是基于训练数据和测试数据位于同一特征空间、拥有相同数据分布的假设。然而在现实应用中，该假设却未必存在。一方面，如果将利用某一领域数据训练得到的模型直接应用于新的目标领域，领域之间切实存在的数据差异可能会导致模型效果的骤然下降。另一方面，如果直接在新的目标领域中进行模型的训练，其数据的稀缺和标注的不完整可能会导致监督学习出现严重的过拟合问题，难以达到令人满意的学习效果
朴素贝叶斯算法 YuanDaima2048 机器学习算法学习算法机器学习人工智能深度学习 python sklearn
朴素贝叶斯算法一、基本概念二、算法及代码应用朴素贝叶斯NB算法分类算法区别其他机器学习算法：机器学习实战工具安装和使用一、基本概念朴素贝叶斯（NB）是一种基于贝叶斯定理与特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤等领域。朴素贝叶斯算法简单易懂，其核心思想是假设在给定目标值时，各个属性之间相互独立。在实际应用中，朴素贝叶斯算法在垃圾邮件过滤中表现出色。它不仅准确率高，而且速度快
【机器学习实战】大数据与MapReduce 吵吵人
当运算需求超出了当前资源的运算能力，一、可以考虑购买更好的机器；二、可以将计算转换成并行作业，MapReduce就提供了这种方案的一个具体实施框架。MapReduce：分布式计算的框架MapReduce是一个软件框架，可以将单个计算工作分配给多台计算机执行。工作流程包括map和reduce阶段。第一阶段，输入数据被切片分发到节点上，各个节点对本地数据进行处理对应的运算代码叫做mapper。第二阶段
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

数据挖掘经典算法：FP-Growth算法（高效发现频繁项集）

FP树的数据结构：

FP树的创建：

条件模式基查找：

创建条件FP树：

你可能感兴趣的:(数据挖掘算法,机器学习实战)