关联分析与FP-growth算法

关联分析

关联分析：从大规模数据集中寻找物品见的隐含关系被称作关联分析或者关联规则学习。
存在的问题：
寻找物品的不同组合是一项十分耗时的任务，所需要的计算代价很高，暴力搜索不能解决这个问题。

Apriori算法

优点：易于编码实习
缺点：在大数据集上可能较慢
适用数据类型：数值型或者标称型数据

Apriori原理

Apriori 原理是说如果某个项集是频繁的那么它的所有子集也是频繁的。在做关联分析的时候我们反过来看，即一个项集值非频繁集，那么它的所有超集也是非频繁的。
Apriori 算法是用来发现频繁项集的一种方法，该算法的参数为最小支持度和数据集

求解频繁项集

算法流程：

生成所有单个物品的项集列表
扫描交易记录查看哪些项集满足最小支持度要求，去除不满足的集合
生成包含两个元素的项集列表
重新扫描交易记录，去掉不满足最小支持度的项集
重复进行知道所有的项集都被去掉

如图所示：

从频繁项集中挖掘出关联规则

example:
{豆奶}→{莴笋} ：意味着如果有人购买豆奶，那么他买莴笋的概率很大。
箭头左边的集合称为前件，箭头右边的称为后件。
我们通过可信度来量化的考核一条关联规则：
关联规则： P→H ,可以表示为 support(P∪H)support(P)

类比寻找频繁项集我们可以得出，如果某条规则不满足最小可信度要求，那么该规则的所有子集也不会满足最小可信度要求。

算法流程：

从一个频繁项集开始，接着创建一个规则列表，其中规则的后件只包含一个元素
然后对这些规则进行测试，去除不满足最小可信度要求的规则
合并所有剩余规则来创建一个新的规则列表，其中规则的后件包含两个元素。
然后重复执行上面的步骤

Code

Apriori.py

#-*- coding:utf8 -*-

def loadDataSet():
    return [[1,3,4],[2,3,5],[1,2,3,5],[2,5]]

""" 生成单个物品的项集列表 """
def creatC1(dataSet):
    C1 = []
    for transation in dataSet:
        for item in transation:
            if not [item] in C1:
                C1.append([item])
    C1.sort()
    #frozenset一旦建立不可修改
    return map(frozenset,C1)

""" 扫描交易记录 参数：交易记录D,长度为k的项集的列表，最小支持度 """
def ScanD(D,Ck,minSupport):
    ssCnt = {}
    for tid in D:
        for can in Ck:
            if can.issubset(tid):
                if not ssCnt.has_key(can):
                    ssCnt[can] = 1
                else:
                    ssCnt[can] +=1
    numItems = float(len(D))
    retList =[]
    supportData ={}
    for key in ssCnt:
        support = ssCnt[key]/numItems
        if support >= minSupport:
            retList.insert(0,key)
        supportData[key]=support
    return retList,supportData
""" 创建k个物品的项集列表 参数：长度为K-1的数据项列表，新数据列表元素的长度K """
def aprioriGen(Lk,k):
    retList = []
    lenLk = len(Lk)
    for i in range(lenLk):
        for j in range(i+1,lenLk):
            L1 = list(Lk[i])[:k-2]
            L2 = list(Lk[j])[:k-2]
            L1.sort()
            L2.sort()
            if L1 == L2: #若前K-2项一样则合并生成一个大小为K的数据项
                retList.append(Lk[i] | Lk[j])
    return retList
""" 执行Apriori算法 参数:数据集，最小支持度 """
def apriori(dataSet,minSupport = 0.5):
    C1 = creatC1(dataSet)
    D = map(set,dataSet)
    L1 ,supportData = ScanD(D,C1,minSupport)
    L = [L1]
    k = 2
    while len(L[k-2]) > 0:
        Ck = aprioriGen(L[k-2],k)
        Lk , supk = ScanD(dataSet,Ck,minSupport)
        supportData.update(supk)
        L.append(Lk)
        k += 1
    return L,supportData
""" 生成关联规则 参数：频繁项集列表，频繁项集支持数据的字典，最小可信度 """
def generateRules(L,supportData,minConf=0.7):
    bigRuleList =[]
    for i in range(1,len(L)):
        for freqSet in L[i]:
            H1 = [frozenset([item]) for item in freqSet]
            if i > 1:
                rulesFromConseq(freqSet,H1,supportData,bigRuleList,minConf)
            else:
                calcConf(freqSet,H1,supportData,bigRuleList,minConf)
    return bigRuleList

""" 计算规则的可信度以及找到满足最小可信度要求的规则 参数：频繁项集，现有规则后件的元素列表 """
def calcConf(freqSet,H,supportData,br1,minConf=0.7):
    prunedH = []
    for conseq in H:
        conf = supportData[freqSet]/supportData[freqSet-conseq]
        if conf >= minConf:
            print freqSet-conseq,'-->',conseq,'conf: ',conf
            br1.append((freqSet-conseq,conseq,conf))
            prunedH.append(conseq)
    return prunedH

""" 从初始项集生成更多的关联规则 参数：频繁项集，现有规则后件的元素列表 """
def rulesFromConseq(freqSet,H,supportData,br1,minConf = 0.7):
    m = len(H[0])
    if len(freqSet) > (m+1):
        Hmp1 = aprioriGen(H,m+1)
        Hmp1 = calcConf(freqSet,Hmp1,supportData,br1,minConf)
        if len(Hmp1) > 1:
            rulesFromConseq(freqSet,Hmp1,supportData,br1,minConf)

test.py

__author__ = 'bigship'

import Apriori
#test load
dataSet = Apriori.loadDataSet()
print dataSet
#test CreatC1
C1 = Apriori.creatC1(dataSet)
D = map(set,dataSet)
#test ScanD
L1,supportData0 = Apriori.ScanD(D,C1,0.5)
print L1
print supportData0
#test apriori
L,supportData = Apriori.apriori(dataSet,0.5)
print L
#test generateRules
rules = Apriori.generateRules(L,supportData,0.7)
print rules

分析毒蘑菇的特征
mushroom.py

__author__ = 'bigship'

import Apriori

def split(str,cha):
    retList = []
    for x in str:
        if x != cha[0] and x!= cha[1]:
            retList.append(x)
    return retList
mushDataSet = []
data = open('mushroom.txt')
cha = [',','\n']
for line in data.readlines():
    mushDataSet.append(split(line,cha))
data.close()
smallDataSet = mushDataSet[:10]
print smallDataSet
L , supportData = Apriori.apriori(smallDataSet,0.7)
for item in L[4]:
    if item.intersection('e'):
        print item
result = Apriori.generateRules(L,supportData,0.85)

Summary

关联分析是用于发现大数据集中元素间有趣关系的一个工具集，可以采用两种方式来量化这些有趣的关系。第一种方式是使用频繁项集，它会给出经常在一起出现的元素项。第二种方式是关联规则，每条关联规则意味着元素项之间的“如果……那么”关系。
关联分析可以用在许多不同物品上。商店中的商品以及网站的访问页面是其中比较常见的例子。
每次增加频繁项集的大小，Apriori算法都会重新扫描整个数据集。当数据集很大时，这会显著降低频繁项集发现的速度。

FP-growth算法

FP-growth算法也是基于Apriori思想提出来的一共算法，但是其采用了一种高级的数据结构减少扫描次数，大大加快了算法速度。FP-growth算法只需要对数据库进行两次扫描，而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁，因此FP-growth算法的速度要比Apriori算法快。

算法流程：

构建FP树
从FP树中挖掘出频繁项集

优缺点：

优点：一般快于Apriori算法
缺点：实现比较困难，在某些数据集上性能会下降
适用数据类型：标称型数据

构建FP树

事务数据:

FP树:

其中没有出现p,q,的原因是因为我们实战的有最小支持度的阀值，当小于这个阀值的时候我们认为其是不频繁的。
在构建FP树时我们需要对原始数据扫描两遍：

第一遍对所有元素项的出现次数进行计数，去掉不满足最小支持度的元素项
第二遍扫描中只需要考虑那些频繁元素，读入每个项集将其添加到一条已经存在的路径中，若该路径不存在则创建一条新路径。

从FP树中挖掘频繁项集

从FP树中抽取频繁项集的三个步骤:

从FP树中获得条件模式基
利用条件模式基，构建一颗条件FP树
迭代重复步骤(1),(2)，直到树包含一个元素项为止

条件模式基：以所查找元素项为结尾的路径集合，每一条路径都是一条前缀路径。
example:

频繁项	前缀路径
z	{}5
r	{x,s}1,{z,x,y}1,{z}1
x	{z}3,{}1
y	{z,x}3
s	{z,x,y}2,{x}1
t	{z,y,x,s}2,{z,x,y,r}1

想要求得频繁项，我们可以通过对树进行遍历得到。

对于得到的每一个频繁项，我们都要创建一颗条件FP树，然后我们会递归的发现频繁项，发现条件基，以及发现另外的条件树，直到条件树没有元素为止。

Code

FPgrowth.py

#-*- coding:utf8 -*-

class treeNode:
    def __init__(self,nameValue,numOccur,parentNode):
        self.name = nameValue #节点的值
        self.count = numOccur #节点值出现的次数
        self.nodeLink = None #用于连接相似的元素项
        self.parent = parentNode #父节点
        self.children ={} #子结点
    """ 修改count的值 """
    def inc(self,numOccur):
        self.count += numOccur
    """ 输出树 """
    def disp(self,ind=1):
        print ' '*ind,self.name,' ',self.count
        for child in self.children.values():
            child.disp(ind+1)
""" 创建FP树 参数:数据集合，最小支持度 """
def createTree(dataSet, minSup=1):
    # 第一次遍历数据集，创建头指针表
    headerTable = {}
    for trans in dataSet:
        for item in trans:
            headerTable[item] = headerTable.get(item,0) + dataSet[trans]
    # 移除不满足最小支持度的元素项
    for k in headerTable.keys():
        if headerTable[k] < minSup:
            del(headerTable[k])
    # 空元素集，返回空
    freqItemSet = set(headerTable.keys())
    if len(freqItemSet) == 0:
        return None, None
    # 增加一个数据项，用于存放指向相似元素项指针
    for k in headerTable:
        headerTable[k] = [headerTable[k], None]
    retTree = treeNode('Null Set', 1, None) # 根节点
    # 第二次遍历数据集，创建FP树
    for tranSet, count in dataSet.items():
        localD = {} # 对一个项集tranSet，记录其中每个元素项的全局频率，用于排序
        for item in tranSet:
            if item in freqItemSet:
                localD[item] = headerTable[item][0] # 注意这个[0]，因为之前加过一个数据项
        if len(localD) > 0:
            orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)] # 排序
            updateTree(orderedItems, retTree, headerTable, count) # 更新FP树
    return retTree, headerTable

def updateTree(items, inTree, headerTable, count):
    if items[0] in inTree.children:
        # 有该元素项时计数值+1
        inTree.children[items[0]].inc(count)
    else:
        # 没有这个元素项时创建一个新节点
        inTree.children[items[0]] = treeNode(items[0], count, inTree)
        # 更新头指针表或前一个相似元素项节点的指针指向新节点
        if headerTable[items[0]][1] == None:
            headerTable[items[0]][1] = inTree.children[items[0]]
        else:
            updateHeader(headerTable[items[0]][1], inTree.children[items[0]])
    if len(items) > 1:
        # 对剩下的元素项迭代调用updateTree函数
        updateTree(items[1::], inTree.children[items[0]], headerTable, count)
""" 更新头指针表 """
def updateHeader(nodeToTest,targetNode):
    while nodeToTest.nodeLink != None:
        nodeToTest = nodeToTest.nodeLink
    nodeToTest.nodeLink = targetNode

def loadSimpDat():
    simpDat = [['r', 'z', 'h', 'j', 'p'],
               ['z', 'y', 'x', 'w', 'v', 'u', 't', 's'],
               ['z'],
               ['r', 'x', 'n', 'o', 's'],
               ['y', 'r', 'x', 'z', 'q', 't', 'p'],
               ['y', 'z', 'x', 'e', 'q', 's', 't', 'm']]
    return simpDat

def creatInitSet(dataSet):
    retDict = {}
    for trans in dataSet:
        retDict[frozenset(trans)] = 1
    return retDict

def ascendTree(leafNode, prefixPath):
    if leafNode.parent != None:
        prefixPath.append(leafNode.name)
        ascendTree(leafNode.parent, prefixPath)
""" 根据headerTable表找到所要找的元素的条件模式基 参数：所要找的元素，headerTable的表头 """
def findPrefixPath(basePat, treeNode):
    condPats = {}
    while treeNode != None:
        prefixPath = []
        ascendTree(treeNode, prefixPath)
        if len(prefixPath) > 1:
            condPats[frozenset(prefixPath[1:])] = treeNode.count
        treeNode = treeNode.nodeLink
    return condPats
""" 递归查找频繁项集 参数：FP树，头指针表，最小支持度，前缀表，频繁项集 """
def mineTree(inTree,headerTable,minSup,preFix,freqItemList):
    bigL = [v[0] for v in sorted(headerTable.items(),key=lambda p:p[1])]
    for basePat in bigL:
        newFreqSet = preFix.copy()
        newFreqSet.add(basePat)
        freqItemList.append(newFreqSet)
        condPattBases = findPrefixPath(basePat,headerTable[basePat][1])
        myCondTree,myHead = createTree(condPattBases,minSup)
        if myHead != None:
            mineTree(myCondTree,myHead,minSup,newFreqSet,freqItemList)

def fpGrowth(dataSet, minSup=3):
    initSet = creatInitSet(dataSet)
    myFPtree, myHeaderTab = createTree(initSet, minSup)
    freqItems = []
    mineTree(myFPtree, myHeaderTab, minSup, set([]), freqItems)
    return freqItems

test.py

import FPgrowth

#test TreeNode
rootNode = FPgrowth.treeNode('pyramid',9,None)
rootNode.children['eye']=FPgrowth.treeNode('eye',13,None)
rootNode.disp()
#test loadSimDat and initdata
SimData = FPgrowth.loadSimpDat()
initSet = FPgrowth.creatInitSet(SimData)
#test creatTree
myFPtree , myHeadTable = FPgrowth.createTree(initSet,3)
myFPtree.disp()
#test fpGrowth
print FPgrowth.fpGrowth(SimData)

海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
Google大数据架构技术栈剑海风云 Big Data 大数据架构 Google BigData
数据存储层ColossusColossus作为Google下一代GFS（GoogleFileSystem）。GFS本身存在一些不足单主瓶颈GFS依赖单个主节点进行元数据管理，随着数据量和访问请求的增长，出现了可扩展性瓶颈。想象一下，只有一位图书管理员管理着一个庞大的图书馆——最终，事情变得难以承受。元数据可扩展性有限主节点上的集中元数据存储无法有效扩展，影响了性能并妨碍了PB和EB级数据的管理。实
绿色智慧档案馆构想之智慧档案馆环境综合管控一体化平台盛世宏博智慧档案智慧档案馆智慧档案馆
【智慧档案馆整体效果图】智慧档案库房一体化平台通过智慧档案管理，实现智慧档案感知协同处置功能；实现对档案实体的智能化识别、定位、跟踪监控；实现对档案至智能密集架、空气恒湿净化一体设备、安防设备，门禁设备等智能化巡检与即时处理。智慧档案平台基于物联网、云计算、大数据、档案人健康防护、档案安全防护等新技术，实现了对档案的收、管、存、用全业务流程管理；实现了对档案实体资源与数字资源的集中建设与管理；实现
大数据时代，我们都是透明人随心追梦人
随着科技的飞速发展，现在的吃穿住行变得愈发的便捷，各种新兴产业也顺应着时代的发展营运而生，许多跟不上时代的产业，技术也随之被淘汰，中国真正进入了新时代！新时代有几个特点，其中之一便是信息技术的发展让我们生活更便捷，与此同时，各行业获取客户的信息也更方便和完整，收集到的数据再加以运用又会助力其他产业的更新和进步，这就是大数据的作用。前两天，一个同事说他买的房今年10月接房，前两天就有好几个装修公司给
虚拟现实智能家居实训系统实训解决方案武汉唯众智创智能家居实训系统智能家居实训室虚拟现实智能家居实训系统
随着科技的飞速发展，智能家居已成为现代生活的重要组成部分，它不仅极大地提升了居住的便捷性与舒适度，还推动了物联网、大数据、人工智能等前沿技术的融合应用。为了满足市场对智能家居专业人才日益增长的需求，虚拟现实智能家居实训系统实训解决方案旨在通过高度仿真的虚拟环境，为职业院校学生提供全面、高效、安全的智能家居系统学习与实践平台。一、解决方案概述该方案是一款深度融合教学理论、实践操作与效果评估的全方位解
命令行工具部署达梦数据库 DMDPC（BP 多副本架构）百代繁华一朝都-绮罗生数据库架构网络
解达梦数据库DPC集群的主要使用场景：DMDPC关注和解决的是大数据、计算与存储分离、高可用、支持全部的SQL标准、拥有完整的事务处理能力和集群规模能够动态伸缩的业务场景：大量的复杂查询操作要求优化器能够生成优良的执行计划，并且执行引擎能够充分利用多机器、多核的硬件资源某些行业对数据一致性和多副本备份容灾有较高要求，同时希望维护成本足够低和故障恢复时间足够短；用户的业务规模有峰值，要求所需的机器资
国家等保 2.0 时代，你的移动安全要如何防护？ Reneeeeee412
移动互联时代，什么对企业最重要？是人才？是技术？在勒索病毒“WannaCry”肆虐全球之后企业更加意识到安全才是关键所在跃至2.0时代国家等级保护范围扩展到新领域在信息安全领域，国家提出了最为深远的保障制度——信息安全等级保护制度。在2017年5月等保制度顺应时代要求一跃升级到2.0，不仅安全等级的评定条件更加严格，保护要求也扩展到移动互联、云计算、大数据、物联网和工业控制等新技术和新应用领域。在
计算机毕业设计选题推荐-基于Python框架项目推荐（中）计算机毕设大佬 Java毕设实战项目 Python毕设实战项目爬虫+大数据毕设实战项目 python 计算机毕业设计 django 计算机毕业设计如何选题 25届计算机毕业设计如何选题计算机毕业设计选题推荐 24届计算机毕设选题推荐
博主介绍：✌十余年IT大项目实战经验、在某机构培训学员上千名、专注于本行业领域✌技术范围：Java实战项目、Python实战项目、微信小程序/安卓实战项目、爬虫+大数据实战项目、Nodejs实战项目、PHP实战项目、.NET实战项目、Golang实战项目。主要内容：系统功能设计、开题报告、任务书、系统功能实现、功能代码讲解、答辩PPT、文档编写、文档修改、文档降重、一对一辅导答辩。获取源码可以联系
VBA 把Excel表当做一个大数据库来操作码猩 excelVBA专栏 excel 数据库
VBA把Excel表当做一个大数据库来操作SubSqlQueryBJD(strBillNoAsString)DimstrSqlAsStringDimarrCol()AsStringDimstrLineWhereDimarrWhere()AsStringDimstrWhereValAsStringDimstrResultShowRngAsStringDimstrWhereRngAsStringDim
淘宝购物攻略,省钱技巧大揭秘! 测评君高省
淘宝买东西省钱的方法有哪些?很早之前就已经开始实行网购返利，但还是有那么一部分人不愿意相信，戒备心的驱使下网购一直都是原价，但用大数据告诉你淘宝一年返利好几亿，就我本人一个月返利都好几百，特别是在双十一那种电商节的时候返利提现上千很容易。首先，为什么会有返利？简单来说淘宝商家为了推广自己的产品，给自己的产品设置了返利和优惠券，这个返利并不是我们购物时页面上看到的，是隐藏的返利，包括优惠券也是隐藏的
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
【大数据】如何读取多个Excel文件并计算列数据的最大求和值熬夜的王大数据 excel python 开发语言 big data
导语：在数据分析和处理中，我们经常需要从多个Excel文件中提取数据并进行计算。本文将带您通过一个实用的Python教程，学习如何读取D盘目录下特定文件夹内的多个Excel文件，并计算特定列数据的最大求和值。文章目录一、准备工作二、教程步骤1.导入必要的库2.设置文件路径3.获取Excel文件列表4.选择文件5.初始化最大求和值6.指定求和的列索引7.读取Excel文件并计算列求和8.输出结果三、
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
python实现模糊逻辑_基于Python的大数据集模糊逻辑 takeiiii python实现模糊逻辑
我的团队一直致力于在两个大数据集上运行模糊逻辑算法。第一个(子集)大约是180K行，包含我们需要在第二个(超集)中匹配的人的姓名、地址和电子邮件。超集包含250万条记录。两者都具有相同的结构，并且数据已经被清理，即地址解析、名称规范化等ContactIDint,FullNamevarchar(150),Addressvarchar(100),Emailvarchar(100)目标是将一行子集中的值
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界--大数据大厂之MySQL数据库课程设计：MySQL集群架构负载均衡方法选择全攻略（2-2）青云交大数据新视界 Java技术栈 Java性能优化数据库高可用性架构负载均衡业务规模预算限制可扩展性技术团队能力数据安全性系统复杂性行业特点硬件负载均衡器 Nginx HAProxy
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之Flink强势崛起：大数据新视界的璀璨明珠青云交大数据新视界 Flink 大数据数据类型实时处理流处理框架对比应用场景数据处理大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
【深入剖析】Kylin架构全景及其组件详解 2401_85763639 kylin 架构大数据
标题：【深入剖析】Kylin架构全景及其组件详解ApacheKylin是一个开源的分布式分析引擎，提供大数据集上的即时分析能力。它通过预计算技术，将数据以多维立方体的形式存储，从而加快查询速度。本文将详细探讨Kylin的架构及其组件，包括数据源、元数据存储、Cube构建、协调节点、查询引擎等关键部分。1.Kylin架构概述Kylin的架构设计为分层结构，每一层负责不同的功能和任务。2.数据源层Ky
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
从底层原理上理解ClickHouse 中的稀疏索引 goTsHgo 大数据分布式 Clickhouse 数据库 clickhouse
稀疏索引（SparseIndexes）是ClickHouse中一个重要的加速查询机制。与传统数据库使用的B-Tree或哈希索引不同，ClickHouse的稀疏索引并不是为每一行数据构建索引，而是为数据存储的块或部分数据生成索引。这种索引的核心思想是通过减少需要扫描的数据范围来加速查询，特别适用于大数据量场景。1.基本概念：数据存储与索引在理解稀疏索引之前，首先需要理解ClickHouse的列式存储
ECharts地图-自定义26(大数据量散点图、地图飞线效果) 图表制作解说 echarts地图 echarts地图大数据量散点图涟漪散点图飞线图统计分析数据可视化大屏可视化
代码视频讲解：ECharts地图-自定义26_哔哩哔哩_bilibiliECharts地图-自定义26
Python爬虫入门实战：抓取CSDN博客文章 A Bug's Code Journey 爬虫 python
一、前言在大数据时代，网络上充斥着海量的信息，而爬虫技术就是解锁这些信息宝库的钥匙。Python，以其简洁易读的语法和强大的库支持，成为编写爬虫的首选语言。本篇博客将从零开始，带你一步步构建一个简单的Python爬虫，抓取CSDN博客的文章标题和链接。二、环境准备在开始之前，确保你的环境中安装了Python和以下必要的库：1.requests：用于发送HTTP请求2.BeautifulSoup：用
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
Peewee的基本使用不曾驻足工具指北数据库 database
背景：刚接触大数据工作，要核对大量的接口返回数据的准确性验证工作，由于数据字典在编写sql的时候查看很不方便，而且对现有数据接口不是很清楚且表、字段数据量多且短时间内无法烂熟于心，给予此背景，简单的整理了一下peewee在工作中的应用。前提：需先安装peewee/pwiz:pip3installpeeweepip3installpwiz1、环境具备了之后，在使用peewee库的时候要先生成mode
2022-04-17 图灵基因
NatBiotech|组织中单细胞转录组的空间图谱原创图灵基因图灵基因2022-04-1707:03收录于话题#前沿生物大数据分析单细胞RNA测序（scRNA-seq）已经彻底改变了单细胞水平上的基因表达研究。最近，空间技术通过添加空间信息将转录组学提升到了一个新的水平。但是，它缺乏单细胞分辨率。现在，来自德克萨斯大学MD安德森癌症中心的一个小组开发了一种名为CellTrek的计算方法，将这两个数
机器学习和深度学习的区别不会代码的小林机器学习
机器学习和深度学习在多个方面存在显著的区别，以下是对这些区别的详细阐述：一、定义与起源机器学习：是人工智能的一个分支领域，它使计算机能够从数据中学习并改进其性能，而无需进行显式编程。机器学习起源于20世纪50年代，随着算法和计算能力的不断发展而逐渐成熟。深度学习：则是机器学习的一个子领域，它利用深度神经网络模型进行学习和预测。深度学习在21世纪初开始兴起，特别是随着大数据的普及和计算能力的显著提升
大数据行业发展进步的原动力是什么？丨程序之道丨
大数据时代，数据源是大数据行业发展进步的原动力，是行业内获得竞争力的核心资本。数据源的保有量叠加开发应用能力，将奠定大数据公司的市场地位。中国大数据产业自2013年前后日趋活跃至今，已表现出异彩纷呈、百花齐放的发展态势。在互联网业内，腾讯、百度、阿里巴巴为代表的行业领头羊，将积累的社交数据、搜索数据、电商数据转化为大数据时代珍贵的原生素材。在电信行业，中国移动、中国联通、中国电信三大巨头的通讯数据
一些机器学习不错的书籍 jimmyleeee 机器学习人工智能
最近，在学习一些机器学习的相关知识，在Github上居然找到了一个可以下载一些不错的介绍机器学习和大数据挖掘和分析的书籍。具体的书籍的信息可以参考一下链接：Books/DataSciencefromScratch.pdfatmaster·varunkashyapks/Books·GitHub
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

关联分析与FP-growth算法

关联分析

Apriori算法

相关概念

Apriori原理

求解频繁项集

从频繁项集中挖掘出关联规则

Code

Summary

FP-growth算法

构建FP树

从FP树中挖掘频繁项集

Code

你可能感兴趣的:(大数据,Apriori,关联分析,FP-Growth)