troysps

FP-Growth算法理解

基本概念

FP-Growth 全称: Frequent Pattern Growth—-频繁模式增长
在整个算法执行过程中,只需要遍历数据集2次,就可完成频繁模式的发现

FP-growth算法简介

一种非常好的发现频繁项集的算法那
基于Apriori算法构建但是数据结构不同,使用叫做FP树的数据结构来存储集合

算法核心思想

基于数据构建FP树
从FP树中挖掘频繁项集

FP树介绍—-以树结构存储频繁项集

FP树的节点结构如下:
    节点名称
    节点出现次数
    不同项集的相同项通过nodelink链接在一起
    指向父节点
    存储叶子节点

构建FP树

基于数据构建FP树

步骤1:
1.遍历所有的数据集集合,计算所有项的支持度
2.丢弃非频繁项
3.基于支持度降序排序所有的项
4.所有数据集合按照得到的顺序重新整理
5.重新整理完成后,丢弃每个集合末尾非频繁的项
步骤2:
6.读取每个集合插入FP树中,同时用一个头部链表数据结构维护不同集合的相同项
步骤3:
1.对头部链表进行降序排序
2.对头部链表节点从小到大变量,得到条件模型基,同时获得一个频繁项集

FP树：用于编码数据集的有效方式
FP代表: Frequent Pattern 一个FP树看上去与计算机科学中的其他树节后类似
但是它通过连接(link)来连接相似元素,被连起来的元素项可以看成一个链表

与搜索树不同的是:一个元素项可以在FP树中出现多次,FP树会存储项集的出现频率,
而每个项集会以路径的方式存储在树中,相似元素的集合会共享树的一部分
只有当集合之间完全不同时,树才会分叉,树节点上给出集合中的单个元素及其在序列中
出现次数,路径会给出该序列的出现次数
相似项之间的链接称为节点链接,用于快速发现相似项的位置

核心思想
遍历两次数据集:
第一次:遍历数据集, 创建头指针表
第二次:遍历数据集, 依据头指针表 — 创建FP树(难点)

具体实现
第一次遍历,头部指针,dict{item,count} 单个项集与其支持度
第二次变量,找出每个事物中同项集与其对应的支持度,根据该支持度,逐一对事务进行排序,
然后再进行FP树构建

class tree_node(object):
    def __init__(self, name_value, num_occur, parent_node):
        self.name = name_value      # 节点名称
        self.count = num_occur      # 节点出现次数
        self.node_link = None       # 不同项集的相同项通过node_link连接在一起
        # needs to be updated
        self.parent = parent_node   # 指向父节点
        self.children = {}          # 存储叶子节点

    def increase(self, num_occur):
        """
        increase 对count变量增加给定定值
        :param num_occur:
        :return:
        """
        self.count += num_occur

    def display(self, ind=1):
        """
        display 用于将树以文本形式显示
        :param ind:
        :return:
        """
        print(' '*ind, self.name, ' ', self.count)
        for child in self.children.values():
            child.display(ind+1)


def load_data():

    data_set = [['r', 'z', 'h', 'j', 'p'],
                ['z', 'y', 'x', 'w', 'v', 'u', 't', 's'],
                ['z'],
                ['r', 'x', 'n', 'o', 's'],
                ['y', 'r', 'x', 'z', 'q', 't', 'p'],
                ['y', 'z', 'x', 'e', 'q', 's', 't', 'm']]
    return data_set


def create_init_set(data_set):
    """
    初始化数据集 dic{事务:出现的频次}
    :param data_set: 数据集
    :return:
        ret_dict 以字典形式存储单个项集及其对应的支持度
    """
    ret_dict = dict()
    for data in data_set:
        if frozenset(data) not in ret_dict:
            ret_dict[frozenset(data)] = ret_dict.get(frozenset(data), 0) + 1
    return ret_dict


def update_header(node_to_test, target_node):
    """
    更新头指针,建立相同元素之间的关系,例如: 左边的r指向右边的r值,就是后出现的相同元素,指向已经出现的元素
    从头指针的node_link开始,一直沿着node link直到到达链表末尾, 这就是链表
    性能: 如果链表很长可能会遇到迭代调用的次数限制
    :param node_to_test:    满足min support {所有元素+(value, tree node)}
    :param target_node:     tree对象的子节点
    :return:
    """
    # 建立相同元素之间的关系, 例如左边的r指向右边的r值
    while node_to_test.node_link is not None:
        node_to_test = node_to_test.node_link
    node_to_test.node_link = target_node


def update_tree(items, inTree, header_table, count):
    """
    update tree (更新FP-tree,第二次遍历)
    :param items: 满足min support 排序后的元素key的数组 (从大到小排序)
    :param inTree:  空的tree对下岗
    :param header_table: 满足min support {所有元素+(value, treeNone)}
    :param count: 原数据集中每一组事务出现的次数
    :return:
    """
    # 如果该元素在 inTree.children 这个字典中,就进行累加
    # 如果该元素不存在就inTree.children 字典中新增key,value 为初始化的tree_node 对象
    if items[0] in inTree.children:
        # 更新最大元素, 对应的tree node 对象的count进行叠加
        inTree.children[items[0]].increase(count)
    else:
        # 如果不存在子节点,就为该intree添加子节点
        inTree.children[items[0]] = tree_node(items[0], count, inTree)
        # 如果满足min support的dict字典的value值第二位为null, 我们就设置该元素为本节点对应的tree节点
        # 如果元素第二位不为null 我们就更新header节点
        if header_table[items[0]][1] is None:
            # header_table 只记录第一次节点出现的位置
            header_table[items[0]][1] = inTree.children[items[0]]
        else:
            # 本质是修改header_table的key对应的tree的node link值
            update_header(header_table[items[0]][1], inTree.children[items[0]])
    if len(items) > 1:
        # 递归调用,在items[0]的基础上, 添加items[1]做子节点,count只要循环的进行累计加和而已, 统计出节点的最后的统计值
        update_tree(items[1:], inTree.children[items[0]], header_table, count)


def create_tree(data_set, min_sup=1):
    """
    创建FP树
    :param data_set:数据集 dict{行:出现次数}的样本数据
    :param min_sup: 最小支持度
    :return:
        tree FP-tree
        headerTable   头指针表 存储频繁项集与其对应的支持度
    """
    # step1 第一次遍历数据集,创建头指针表
    header_table = dict()
    for trans in data_set:
        for item in trans:
            header_table[item] = header_table.get(item, 0) + data_set[trans]

    print('第一个遍历数据集创建header_table', header_table)
    # 根据最小支持度过滤
    less_than_min_sup = list(filter(lambda k: header_table[k] < min_sup, header_table.keys()))
    print('less than min support', less_than_min_sup)
    for k in less_than_min_sup:
        del header_table[k]
    print('过滤后的header table--头指针表', header_table)

    # 如果所有数据都不满足最小支持度,返回None, None
    frequent_item_set = set(header_table.keys())
    if len(frequent_item_set) == 0:
        return None, None

    for k in header_table:
        header_table[k] = [header_table[k], None]

    print('再次优化的header_table', header_table)

    # 第二次遍历数据集,构建树FP-TREE
    ret_tree = tree_node('NULL Set', 1, None)
    # 循环dic{行:出现次数}的样本数据
    for trans, count in data_set.items():
        print('trans', trans, 'count', count)
        # local_d = dict{元素key:元素总出现次数}
        local_d = dict()
        for item in trans:
            # 判断是否在满足min support的集合中
            if item in frequent_item_set:
                print('header_table[item][0]=', header_table[item][0], header_table[item])
                local_d[item] = header_table[item][0]

        print('local_d', local_d)
        # 判断local_d dic 是否存在
        if len(local_d) > 0:
            # p = key, value; 所以是通过value值的大小, 进行从大到小的排序
            # ordered_items表示取出元组的key值,也就是字母本身, 但是字母本身是从大到小的顺序
            ordered_items = [v[0] for v in sorted(local_d.items(), key=lambda p: p[1], reverse=True)]
            print('ordered_items', ordered_items)

            # 填充树, 通过有序的orderItems的第一位,进行顺序填充,第一层的子节点
            update_tree(ordered_items, ret_tree, header_table, count)
    return ret_tree, header_table

从FP树中挖掘频繁项集

FP tree — 发现频繁项集接下来需要从FP tree中构建关联规则
概念：

条件模式基:头部链表中的某一点的前缀路径组合就是条件模式基条件模式基的值取决于末尾节点的值
条件FP树: 以条件模式基为数据集构造的FP树叫做条件FP树
原理与实现:
得到FP树后需要对每一个频繁项集逐个挖掘频繁项集

具体过程为:
首先获得频繁项的前缀路径
然后将前缀路径作为新的数据集以此构建前缀路径的条件FP树
然后对条件FP树中的每一个频繁项获得前缀路径并以此构建新的条件FP树不断迭代直到条件FP树中只包含一个频繁项为止

总体而言:分解为三个步骤
从FP树中挖掘频繁项集
(1) 从FP树中获得条件模式基
(2) 利用条件模式基, 构建一个条件FP树
(3) 迭代重复上述两个步骤, 直到树包含一个元素项为止

def ascend_tree(leaf_node, prefix_path):
    """
    ascend_tree 如果存在父节点 就记录当前节点的name值
    :param leaf_node: 查询的的节点对于的node_tree
    :param prefix_path: 要查询的节点值
    :return:
        prefix_path   递归该节点上所有要查询的节点值(条件模式基)
    """
    if leaf_node.parent is not None:
        prefix_path.append(leaf_node.name)
        ascend_tree(leaf_node.parent, prefix_path)


def find_prefix_path(base_pat, tree_node):
    """
    基础数据集
    step1：递归FP tree 寻找该节点的父节点 ----> 实质上就是找到该节点的频繁项集
    step2：对递归计算而出的频繁项集 计数 -----> 相当于Apriori算法中的频繁项集组合
    :param base_pat: 要查询的节点值
    :param tree_node: 查询的节点所在的当前node_tree
    :return:
        cond_pats 对非base_pat的倒叙值作为key 赋值为count数

    """
    cond_pats = dict()
    while tree_node is not None:
        prefix_path = list()
        # 寻找该节点的父节点, 相当于找到了该节点的频繁项集
        ascend_tree(tree_node, prefix_path)
        print('prefix_path', prefix_path)
        # 避免 单独 'z'一个元素 添加了空节点
        if len(prefix_path) > 1:
            # 对非base_pat的倒叙值作为key 赋值为count数
            # prefix_path[1:] 变frozenset后 字母就变无序了
            print(prefix_path[1:])
            cond_pats[frozenset(prefix_path[1:])] = tree_node.count
        # 递归 寻找该节点的下一个 相同值的链接节点
        tree_node = tree_node.node_link
    return cond_pats

def mine_tree(in_tree, header_table, min_sup, prefix, frequent_list):
    """
    mine_tree 创建条件FP tree
    构建条件FP tree -----> 实质上就是构建关联规则
    :param in_tree:  FP TREE
    :param header_table:  满足最小支持项集{所有元素+{value, tree_node}}
    :param min_sup:     最小支持项集
    :param prefix:     prefix 为newFreqset 上一次的存储记录 一旦没有myhead 就不会更新
    :param frequent_list: 用来存储频繁子项的列表
    :return:
    """
    # 通过value进行从小到大的排序 得到频繁项集的key
    # 最小支持项集的key的list集合
    # print('sorted header table', sorted(header_table.items()))
    big_list = [v[0] for v in sorted(header_table.items(), key=lambda p:p[1][0])]
    print()
    print('big_list', big_list)
    # 循环遍历 最频繁项集的key  从小到大的递归寻找对应的频繁项集
    for base_pat in big_list:
        # prefix 为newFreqset 上一次的存储记录 一旦没有  myhead 就不会更新
        new_frequent_set = prefix.copy()
        new_frequent_set.add(base_pat)
        print('new_frequent_set= ', new_frequent_set, prefix)

        frequent_list.append(new_frequent_set)
        print('frequent_list', frequent_list)

        cond_pattern_bases = find_prefix_path(base_pat, header_table[base_pat][1])
        print('cond_pattern_bases', base_pat, '*'*8,  cond_pattern_bases)

        # 构建FP tree
        cond_tree, cond_head = create_tree(cond_pattern_bases, min_sup)
        print('cond_head', cond_head)
        if cond_head is not None:
            cond_tree.display(1)
            print('\n\n\n')
            # 递归 cond_head 找出频繁项集
            mine_tree(cond_tree, cond_head, min_sup, new_frequent_set, frequent_list)
        print('\n\n\n\n')



    pass

def main():
    data_set = load_data()
    init_data_set = create_init_set(data_set)
    print(init_data_set)
    fp_tree, header_table = create_tree(init_data_set, min_sup=2)
    print('header table', header_table)
    fp_tree.display()

    # 抽取条件模式基
    # 查询树节点的 频繁子项
    print('x --->', find_prefix_path('x', header_table['x'][1]))
    print('z --->', find_prefix_path('z', header_table['z'][1]))
    print('r --->', find_prefix_path('r', header_table['r'][1]))


    # 创建条件模式基
    frequent_list = []
    mine_tree(fp_tree, header_table, 3, set([]), frequent_list)
    print(frequent_list)

if __name__ == '__main__':
    main()

参考文献
《机器学习实战》

新手村：混淆矩阵嘉羽很烦机器学习机器学习
新手村：混淆矩阵一、前置条件知识点要求学习资源分类模型基础理解分类任务（如二分类、多分类）和常见分类算法（如逻辑回归、决策树）。《Hands-OnMachineLearningwithScikit-Learn》Python基础熟悉变量、循环、函数、列表、字典等基本语法。《PythonCrashCourse》或在线教程（如Codecademy）scikit-learn基础掌握模型训练、预测、评估的基
数据架构与机器学习：如何构建智能系统 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习（MachineLearning）是一种使计算机程序在未被明确编程的情况下，通过经验的学习自动改善其行为的技术。机器学习的目标是使计算机能够自主地从数据中学习，以便在未来的问题中做出更好的决策。数据架构（DataArchitecture）是一种用于有效管理、存储和处理数据的系统结构和组件。数据架构涉及到数据的收集、存储、处理和分析，以及数据的存储和传输。数据架构是构建智能系统的
信息检索系统评估指标的层级分析：从单点精确度到整体性能度量人工智能深度学习llm检索系统
在构建搜索引擎系统时，有效的评估机制是保证系统质量的关键环节。当用户输入查询词如"machinelearningtutorialspython"，系统返回结果列表后，如何客观评估这些结果的相关性和有效性？这正是信息检索评估指标的核心价值所在。分析用户与搜索引擎的交互模式，我们可以观察到以下行为特征：用户主要关注结果列表的前几项对顶部结果的关注度显著高于底部结果用户基于多次搜索体验形成对搜索系统整体
Python实现机器学习项目教程：房价预测向着开发进攻 python python 机器学习开发语言
Python实现机器学习小项目教程：房价预测案例机器学习（MachineLearning）是数据科学中的一项重要技术，它通过从数据中学习规律，进行预测和决策。对于初学者来说，通过实际的项目来学习机器学习的原理和实现方法，是非常有效的。本篇教程将通过Python实现一个简单的机器学习小项目——房价预测。我们将使用scikit-learn库来构建并训练一个线性回归模型，预测房价。项目背景假设我们拥有一
机器学习入门指南：从 TensorFlow 到 PyTorch 6v6-博客机器学习 tensorflow pytorch
机器学习入门指南：从TensorFlow到PyTorch机器学习（MachineLearning）是人工智能的核心领域之一，近年来在图像识别、自然语言处理、推荐系统等领域取得了巨大进展。本文将从基础概念入手，介绍机器学习的核心知识，并带你快速上手两大主流框架：TensorFlow和PyTorch。机器学习基础什么是机器学习？机器学习是一种通过数据训练模型，使计算机能够自动学习和改进的技术。它主要分
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
深度学习和机器学习的差异 The god of big data 教程深度学习机器学习人工智能
一、技术架构的本质差异传统机器学习（MachineLearning）建立在统计学和数学优化基础之上，其核心技术是通过人工设计的特征工程（FeatureEngineering）构建模型。以支持向量机（SVM）为例，算法通过核函数将数据映射到高维空间，但特征提取完全依赖工程师的领域知识。这种"人工特征+浅层模型"的结构在面对复杂非线性关系时容易遭遇性能瓶颈。深度学习（DeepLearning）作为机器
PyBroker: 使用Python进行机器学习驱动的算法交易指南任铃冰Flourishing
PyBroker:使用Python进行机器学习驱动的算法交易指南pybrokerAlgorithmicTradinginPythonwithMachineLearning项目地址:https://gitcode.com/gh_mirrors/py/pybroker一、项目目录结构及介绍PyBroker项目遵循了清晰的组织结构来简化其源码管理和维护。以下是该仓库的主要目录及其简介：├──docs#文
Python 在 AI 领域的应用：从零构建你的第一个 AI 模型嵌入式Jerry Python python 人工智能开发语言嵌入式硬件 windows ubuntu
引言人工智能（AI）已经成为现代科技的核心，而Python是AI领域最受欢迎的编程语言之一。其强大的库和框架，如TensorFlow、PyTorch、scikit-learn，使AI开发变得更加简单高效。本文将带你深入理解Python在AI中的应用，并通过机器学习（MachineLearning）和深度学习（DeepLearning）的实际示例，讲解如何构建一个AI模型。1.Python为什么适合
机器学习在地图制图学中的应用地图模型炼丹师机器学习人工智能
原文链接：https://www.tandfonline.com/doi/full/10.1080/15230406.2023.2295948#abstractCSDN/2025/Machinelearningincartography.pdfatmain·keykeywu2048/CSDN·GitHub核心内容本文是《制图学与地理信息科学》特刊的扩展评论，系统探讨了机器学习（尤其是深度学习）在制
Unity AI 技术浅析（二）爱研究的小牛 AIGC—游戏制作 AIGC—虚拟现实 unity 人工智能游戏引擎 AIGC 机器学习深度学习
UnityAI是Unity引擎中集成的智能技术，旨在为游戏开发者、虚拟现实（VR）和增强现实（AR）应用开发者提供强大的AI工具和功能。UnityAI涵盖了从智能代理（Agents）、机器学习（MachineLearning）到自然语言处理（NLP）等多个领域。一、UnityAI的工作原理1.智能代理（Agents）UnityAI的核心之一是智能代理（Agents），这些代理可以模拟游戏中的非玩家
机器学习笔记有涯小学生赵卫东机器学习笔记机器学习人工智能
1概述1.1简介机器学习（MachineLearning）是计算机科学的子领域，也是人工智能的一个分支和实现方式。“对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么就称这个计算机程序在从经验E学习。”（汤姆·米切尔（TomMitchell），1997，MachineLearning）1.2机器学习、人工智能、数据挖掘从本质上看，数据科学的目标是通过处理各
【量子退火（Quantum Annealing, QA）在Machine Learning Classification中的应用】搞技术的妹子机器学习量子计算人工智能
随着量子计算技术的发展，**量子退火（QuantumAnnealing,QA）成为了优化问题中一种潜力巨大的方法。它不仅可以用于求解传统优化问题，还被逐渐应用于机器学习领域，特别是机器学习分类（MachineLearningClassification）**任务中。在这篇博客中，我们将探讨量子退火在机器学习分类中的应用，并通过一个实际的案例来展示如何使用量子退火优化分类模型。什么是量子退火（Qua
[水]与grok聊Java 啾啾大学习水 java 开发语言
摘要：AI时代，二本毕业一般工资一般履历的java程序员要怎么做才能不被淘汰呢？3步之内必有解药？AI带来的问题让AI解决？转行么？先水一篇吧（我知道可能不如去学习，但是我要是学习好我会这个样子，可恶，加油）目录1、AI带来的问题职业危机2、AI带来的机遇2.1、职业发展的帮助职业发展预测可能的职业1.AI工程师（AIEngineer）2.机器学习工程师（MachineLearningEngine
DiNN学习笔记1-理论部分瓜皮37 同态加密密码学信息安全神经网络
DiNN学习笔记1-理论部分背景知识机器学习即服务MLaaS中的全同态加密神经网络Fhe-DiNN中的默认设定Fhe-DiNN方案神经元中的计算离散神经网络DiNN评估步骤自举的引入激活函数的同态评估对TFHE的改进明文的打包密钥转换的前置动态变化的消息空间优化盲旋步骤DiNN方案的整体流程参考资料背景知识机器学习即服务机器学习即服务(MachineLearningasaService,MLaaS
机器学习第一章绪论太炀机器学习机器学习人工智能
1.1引言什么是机器学习（machinelearning）？机器学习是致力于研究如何通过计算手段，利用经验来改善系统自身的性能的学科。在计算机系统中，“经验”以“数据”的形式表现。通过这些数据产生模型（model）的算法，即“学习算法”（learningalgorithm）。如果说计算机科学是研究“算法”的学问，那机器学习就是研究“学习算法”的学问。ps：本系列所说“模型（model）”泛指数据学
机器学习与深度学习资料 JasonDing1354 【Machine Learning】
《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、DeepLearning.《DeepLearninginNeuralNetworks:AnOverview》介绍:这是瑞士人工智能实验室JurgenSchmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以
【人工智能算法】人工智能算法都包括什么？请详细列出和解释资源存储库算法强化学习人工智能算法
目录人工智能算法都包括什么？请详细列出和解释1.机器学习算法（MachineLearningAlgorithms）监督学习算法（SupervisedLearning）无监督学习算法（UnsupervisedLearning）强化学习算法（ReinforcementLearning）2.进化算法（EvolutionaryAlgorithms）3.模拟退火（SimulatedAnnealing）4.粒
TensorFlow 架构 weixin_zdpau AI tensorflow 人工智能神经网络
https://www.tensorflow.org/guide/extend/architecture一WedesignedTensorFlowforlarge-scaledistributedtrainingandinference,butitisalsoflexibleenoughtosupportexperimentationwithnewmachinelearningmodelsands
深入探索Spark MLlib：大数据时代的机器学习利器 concisedistinct 人工智能 mllib spark-ml Spark MLlib 大数据机器学习
随着大数据技术的迅猛发展，机器学习在各行各业的应用日益广泛。ApacheSpark作为大数据处理的利器，其内置的机器学习库MLlib（MachineLearningLibrary）提供了一套高效、易用的工具，用于处理和分析海量数据。本文将深入探讨SparkMLlib，介绍其核心功能和应用场景，并通过实例展示如何在实际项目中应用这些工具。一、SparkMLlib概述1.什么是SparkMLlib？S
终于明白了！人工智能、机器学习、深度学习、集成学习及大模型的定义与联系大模型玩家人工智能机器学习深度学习产品经理算法学习方法集成学习
在当今快速发展的科技领域，人工智能（ArtificialIntelligence,AI）、机器学习（MachineLearning,ML）、深度学习（DeepLearning,DL）、集成学习（EnsembleLearning）以及大模型（LargeModels）等概念频繁出现在人们的视野中。它们不仅推动了科技的进步，也深刻影响了社会生活的方方面面。本文将对这些概念进行全面解析，并探讨它们之间的联
机器学习基础 dringlestry 机器学习人工智能
了解机器学习的基本概念，如监督学习、无监督学习、强化学习、模型评估指标（准确率、召回率、F1分数等）。机器学习（MachineLearning，ML）是人工智能（AI）的一个分支，它使计算机能够通过数据和经验自动改进，而无需明确编程。机器学习可以根据学习方式和数据的有无，分为以下几种基本类型：1.监督学习（SupervisedLearning）监督学习是一种机器学习类型，其中模型通过带标签的数据进
编程小白冲Kaggle每日打卡（14）--kaggle学堂：＜机器学习简介＞你的第一个机器学习模型 AZmax01 编程小白冲Kaggle每日打卡机器学习人工智能
Kaggle官方课程链接：YourFirstMachineLearningModel本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。YourFirstMachineLearningModel建立你的第一个模型。好哇！选择建模数据你的数据集有太多的变量，你无法理解，甚至无法很好地打印出来。你如何将如此庞大的数据量缩减到你能理解的程度？我们将从使用直觉选择几个变量开始。后续课程将向您展示自动
文献阅读 250222-A Robust Causal Machine Learning Approach ZzYH22 笔记
InferringHeterogeneousTreatmentEffectsofCrashesonHighwayTraffic:ADoublyRobustCausalMachineLearningApproach来自##Intro:研究问题：高速公路交通事故对交通系统和经济都产生了相当大的影响。在这种情况下，准确可靠的应急响应对于有效的交通管理至关重要。但是，车祸对交通状态的影响因不同因素而异，并
ACCFIN5246 Machine Learning in Finance 后端
DataScience&MachineLearninginFinance(ACCFIN5246)CourseProject–Spring20251Instruction(I)Deadline:4March,noon.(II)Thiscourseprojectcountstowards(i)35%(viaquizformat)+(ii)50%viathereflectivereport,totheo
CS 189/289A Machine Learning 后端
CS189/289AIntroductiontoMachineLearningDue:Wednesday,February26at11:59pm•Homework3consistsofcodingassignmentsandmathproblems.•WepreferthatyoutypesetyouranswersusingLATEXorotherwordprocessingsoftware.I
阅读论文“用于车联网安全车载通信的机器学习技术“的学习笔记饮长安千年月物联网安全安全机器学习学习
前言论文全称为MachineLearningTechnologiesforSecureVehicularCommunicationinInternetofVehicles:RecentAdvancescandApplications智能交通系统（ITS）和计算系统的快速发展为智能交通安全提供了新的科学研究，并提供了舒适和高效的解决方案。人工智能（AI）已被广泛用于优化不同研究领域的传统数据驱动方法
机器学些|实战? dami_king 随笔机器学习
机器学习实战：从零到%1…今天聊聊机器学习（MachineLearning,ML），这个听起来高大上的技术其实并没有那么神秘。跟着我的节奏，咱们一起来探索一下如何从零开始！准备工作：安装和导入必要的库在开始我们的房价预测项目之前，我们需要准备好开发环境并导入所有必要的库。这些库将帮助我们处理数据、构建模型、评估性能以及可视化结果。安装Python和JupyterNotebook首先，确保你已经安装
书籍-《机器学习的秘密：它是如何工作的以及它对你的意义》机器学习深度学习人工智能
书籍：SecretsOfMachineLearning:HowItWorksAndWhatItMeansForYou作者：TomKohn出版：WorldScientificPublishingCoPteLtd编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《机器学习的秘密：它是如何工作的以及它对你的意义》01书籍介绍在众多关于机器学习和人工智能的技术文献及充满恐慌的书籍中，《机器学习的秘密》犹
ECE 219 Models and Algorithms 后端
Large-ScaleDataMining:ModelsandAlgorithmsECE219Winter2025Project2:DataRepresentationsandClusteringDueFebruary07,2025by11:59pmIntroductionMachinelearningalgorithmsareappliedtoawidevarietyofdata,includi
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

FP-Growth算法理解

FP-Growth算法理解

基本概念

FP-growth算法简介

算法核心思想

FP树介绍—-以树结构存储频繁项集

构建FP树

从FP树中挖掘频繁项集

你可能感兴趣的:(MachineLearning)