haozhepeng

关联规则挖掘

转https://www.cnblogs.com/lsqin/p/9342926.html

Python机器学习算法 — 关联规则（Apriori、FP-growth）

关联规则 -- 简介

关联规则挖掘是一种基于规则的机器学习算法，该算法可以在大数据库中发现感兴趣的关系。它的目的是利用一些度量指标来分辨数据库中存在的强规则。也即是说关联规则挖掘是用于知识发现，而非预测，所以是属于无监督的机器学习方法。
Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

关联规则的一般步骤:
1、找到频繁集；
2、在频繁集中通过可信度筛选获得关联规则。

关联规则应用：
1、Apriori算法应用广泛，可用于消费市场价格分析，猜测顾客的消费习惯，比如较有名的“尿布和啤酒”的故事；
2、网络安全领域中的入侵检测技术；
3、可用在用于高校管理中，根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作；
4、也可用在移动通信领域中，指导运营商的业务运营和辅助业务提供商的决策制定。

关联规则算法的主要应用是购物篮分析，是为了从大量的订单中发现商品潜在的关联。其中常用的一个算法叫Apriori先验算法。

关联规则 -- 概念

        关联分析（Association Analysis）：在大规模数据集中寻找有趣的关系。
        频繁项集（Frequent Item Sets）：经常出现在一块的物品的集合，即包含0个或者多个项的集合称为项集。
        支持度（Support）：数据集中包含该项集的记录所占的比例，是针对项集来说的。
        置信度（Confidence）：出现某些物品时，另外一些物品必定出现的概率，针对规则而言。
        关联规则（Association Rules）：暗示两个物品之间可能存在很强的关系。形如A->B的表达式，规则A->B的度量包括支持度和置信度
        项集支持度：一个项集出现的次数与数据集所有事物数的百分比称为项集的支持度

支持度反映了A和B同时出现的概率，关联规则的支持度等于频繁集的支持度。
项集置信度：包含A的数据集中包含B的百分比

置信度反映了如果交易中包含A，则交易包含B的概率。也可以称为在A发生的条件下，发生B的概率，成为条件概率。
只有支持度和置信度(可信度)较高的关联规则才是用户感兴趣的。

关联规则 --支持度和置信度

1、支持度(Support)

支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小，说明A与B的关系不大；如果A与B同时出现的非常频繁，则说明A与B总是相关的。

支持度: P(A∪B)，即A和B这两个项集在事务集D中同时出现的概率。

2、可信度（Confidence）

置信度揭示了A出现时，B是否也会出现或有多大概率出现。如果置信度度为100%，则A和B可以捆绑销售了。如果置信度太低，则说明A的出现与B是否出现关系不大。

置信度: P(B｜A)，即在出现项集A的事务集D中，项集B也同时出现的概率。

3、设定合理的支持度和置信度

        对于某条规则：（A = a）−>（B = b）（support=30%,confident=60%）；其中support=30%表示在所有的数据记录中，同时出现A=a和B=b的概率为30%；confident=60%表示在所有的数据记录中，在出现A=a的情况下出现B=b的概率为60%，也就是条件概率。支持度揭示了A=a和B=b同时出现的概率，置信度揭示了当A=a出现时，B=b是否会一定出现的概率。
        （1）如果支持度和置信度闭值设置的过高，虽然可以减少挖掘时间，但是容易造成一些隐含在数据中非频繁特征项被忽略掉，难以发现足够有用的规则；
        （2）如果支持度和置信度闭值设置的过低，又有可能产生过多的规则，甚至产生大量冗余和无效的规则，同时由于算法存在的固有问题，会导致高负荷的计算量，大大增加挖掘时间。

关联规则 -- Apriori算法

Apriori算法简介

Apriori算法：使用候选项集找频繁项集
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

Apriori原理：如果某个项集是频繁的，那么它的所有子集也是频繁的。该定理的逆反定理为：如果某一个项集是非频繁的，那么它的所有超集（包含该集合的集合）也是非频繁的。Apriori原理的出现，可以在得知某些项集是非频繁之后，不需要计算该集合的超集，有效地避免项集数目的指数增长，从而在合理时间内计算出频繁项集。

在图中，已知阴影项集{2,3}是非频繁的。利用这个知识，我们就知道项集{0,2,3}，{1,2,3}以及{0,1,2,3}也是非频繁的。也就是说，一旦计算出了{2,3}的支持度，知道它是非频繁的后，就可以紧接着排除{0,2,3}、{1,2,3}和{0,1,2,3}。

算法思想

      ①找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。
        ②由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。
        ③使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。
        ④一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。

算法步骤

Ariori算法有两个主要步骤：
        1、连接：（将项集进行两两连接形成新的候选集）
            利用已经找到的个项的频繁项集，通过两两连接得出候选集，注意进行连接的，，必须有个属性值相同，然后另外两个不同的分别分布在，中，这样的求出的为的候选集。
        2、剪枝：（去掉非频繁项集）
          候选集中的并不都是频繁项集，必须剪枝去掉，越早越好以防止所处理的数据无效项越来越多。只有当子集都是频繁集的候选集才是频繁集，这是剪枝的依据

代码实现

#Apriori算法实现
from numpy import *

def loadDataSet():
    return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]

# 获取候选1项集，dataSet为事务集。返回一个list，每个元素都是set集合
def createC1(dataSet):
    C1 = []   # 元素个数为1的项集（非频繁项集，因为还没有同最小支持度比较）
    for transaction in dataSet:
        for item in transaction:
            if not [item] in C1:
                C1.append([item])
    C1.sort()  # 这里排序是为了，生成新的候选集时可以直接认为两个n项候选集前面的部分相同
    # 因为除了候选1项集外其他的候选n项集都是以二维列表的形式存在，所以要将候选1项集的每一个元素都转化为一个单独的集合。
    return list(map(frozenset, C1))   #map(frozenset, C1)的语义是将C1由Python列表转换为不变集合（frozenset，Python中的数据结构）

# 找出候选集中的频繁项集
# dataSet为全部数据集，Ck为大小为k（包含k个元素）的候选项集，minSupport为设定的最小支持度
def scanD(dataSet, Ck, minSupport):
    ssCnt = {}   # 记录每个候选项的个数
    for tid in dataSet:
        for can in Ck:
            if can.issubset(tid):
                ssCnt[can] = ssCnt.get(can, 0) + 1   # 计算每一个项集出现的频率
    numItems = float(len(dataSet))
    retList = []
    supportData = {}
    for key in ssCnt:
        support = ssCnt[key] / numItems
        if support >= minSupport:
            retList.insert(0, key)  #将频繁项集插入返回列表的首部
        supportData[key] = support
    return retList, supportData   #retList为在Ck中找出的频繁项集（支持度大于minSupport的），supportData记录各频繁项集的支持度

# 通过频繁项集列表Lk和项集个数k生成候选项集C(k+1)。
def aprioriGen(Lk, k):
    retList = []
    lenLk = len(Lk)
    for i in range(lenLk):
        for j in range(i + 1, lenLk):
            # 前k-1项相同时，才将两个集合合并，合并后才能生成k+1项
            L1 = list(Lk[i])[:k-2]; L2 = list(Lk[j])[:k-2]   # 取出两个集合的前k-1个元素
            L1.sort(); L2.sort()
            if L1 == L2:
                retList.append(Lk[i] | Lk[j])
    return retList

# 获取事务集中的所有的频繁项集
# Ck表示项数为k的候选项集，最初的C1通过createC1()函数生成。Lk表示项数为k的频繁项集，supK为其支持度，Lk和supK由scanD()函数通过Ck计算而来。
def apriori(dataSet, minSupport=0.5):
    C1 = createC1(dataSet)  # 从事务集中获取候选1项集
    D = list(map(set, dataSet))  # 将事务集的每个元素转化为集合
    L1, supportData = scanD(D, C1, minSupport)  # 获取频繁1项集和对应的支持度
    L = [L1]  # L用来存储所有的频繁项集
    k = 2
    while (len(L[k-2]) > 0): # 一直迭代到项集数目过大而在事务集中不存在这种n项集
        Ck = aprioriGen(L[k-2], k)   # 根据频繁项集生成新的候选项集。Ck表示项数为k的候选项集
        Lk, supK = scanD(D, Ck, minSupport)  # Lk表示项数为k的频繁项集，supK为其支持度
        L.append(Lk);supportData.update(supK)  # 添加新频繁项集和他们的支持度
        k += 1
    return L, supportData

if __name__=='__main__':
    dataSet = loadDataSet()  # 获取事务集。每个元素都是列表
    # C1 = createC1(dataSet)  # 获取候选1项集。每个元素都是集合
    # D = list(map(set, dataSet))  # 转化事务集的形式，每个元素都转化为集合。
    # L1, suppDat = scanD(D, C1, 0.5)
    # print(L1,suppDat)

    L, suppData = apriori(dataSet,minSupport=0.7)
    print(L,suppData)

关联规则 -- FP树频集算法

算法简介

在关联分析中，频繁项集的挖掘最常用到的就是Apriori算法。Apriori算法是一种先产生候选项集再检验是否频繁的“产生-测试”的方法。这种方法有种弊端：当数据集很大的时候，需要不断扫描数据集造成运行效率很低。
而FP-Growth算法就很好地解决了这个问题。它的思路是把数据集中的事务映射到一棵FP-Tree上面，再根据这棵树找出频繁项集。FP-Tree的构建过程只需要扫描两次数据集。

算法步骤

        FP-growth算法发现频繁项集的基本过程如下：
              ①构建FP树；
              ②从FP树中挖掘频繁项集；

实现流程

输入：数据集、最小值尺度
输出：FP树、头指针表

1、遍历数据集，统计各元素项出现次数，创建头指针表
2、移除头指针表中不满足最小值尺度的元素项
3、第二次遍历数据集，创建FP树。对每个数据集中的项集：
- 3.1 初始化空FP树
- 3.2 对每个项集进行过滤和重排序
- 3.3 使用这个项集更新FP树，从FP树的根节点开始：
  - 3.3.1 如果当前项集的第一个元素项存在于FP树当前节点的子节点中，则更新这个子节点的计数值
  - 3.3.2 否则，创建新的子节点，更新头指针表
  - 3.3.3 对当前项集的其余元素项和当前元素项的对应子节点递归3.3的过程

算法详解

1、用FP树编码数据集

FP-growth算法将数据存储在一个称为FP树的紧凑数据结构中，它与计算机科学中的其他树的结构类似，但是它通过链接来链接相似元素，被连起来的元素可以看做一个链表，如下图：

图1--FP树的结构示意图

FP树会存储项集出现的频率，每个项集都会以路径的形式存储在树中，存在相似元素的集合会共享树的一部分。只有当集合之间完全不同时树才会分叉，树节点上给出集合中单个元素及其在序列中出现的次数，路径会给出该序列的出现次数。
相似项之间的链接即节点链接，用于快速发现相似项的位置，下面的例子：

图2--用于发现图1中FP树的事务数据样例

第一列是事务的ID，第二列是事务中的元素项，在图1中z出现了5次，而{r,z}项支出项了一次，所以z一定自己本身或者和其他的符号一起出现了4次，而由图1同样可知：集合{t,s,y,x,z}出现了2次，集合{t,r,y,x,z}出现了1次，所以z一定本身出现了1次。看了图2可能会有疑问，为什么在图1中没有p,q,w,v等元素呢？这是因为通常会给所有的元素设置一个阈度值（Apriori里的支持度），低于这个阈值的元素不加以研究。暂时不理解没关系，看了下面的内容可能会对这一段的内容有比较好的理解。

1.1、构建FP树

构建FP树是算法的第一步，在FP树的基础之上再对频繁项集进行挖掘。为了构建FP树，要对数据集扫描两次，第一次对所有元素项出现次数进行计数，记住如果一个元素不是频繁的，那么包含这个元素的超集也不是频繁的，所以不需要考虑这些超集，第二遍的扫描只考虑那些频繁元素。

除了图1给出的FP树之外，还需要一个头指针表来指向给定类型的第一个实例。利用头指针表可以快速访问FP树中一个给定类型的所有元素，发现相似元素项，如下图所示：

图3--带头指针的FP树

头指针表的数据结构是字典，除了存放头指针元素之外，还可以存放FP中每类元素的个数。第一次遍历数据集得到每个元素项出现的频率，接下来去掉不满足最小值支持度的元素项，在接下来就可以创建FP树了，构建时，将每个项集添加到一个已经存在的路径中，如果该路径不存在，则创建一个新的路径。每个事务都是一个无序的集合，然而在FP树中相同项只会出现一次，{x,y,z}和{y,z,x}应该在同一个路径上，所以在将集合添加到树之前要对每个集合进行排序，排序是基于各个元素出现的频率来进行的，使用图3头指针表中单个元素的出现值，对图2中的数据进行过滤，重排后的新数据如下：

图4--移除非频繁项，重新排序后的事务表

现在，就可以构建FP树了，从空集开始，向其中不断添加频繁项集。过滤，排序后的事务依次添加到树中，如果树中已有现有元素，则增加该元素的值；如果元素不存在，则添加新分枝。图4中事务表前两条事务添加的过程如下图所示：

图5--FP构建过程示例图

2、从FP树中挖掘频繁项

    有了FP树之后就可以抽取频繁项集了，思想与Apriori算法大致一样，从单元素项集开始，逐步构建更大的集合，只不过不需要原始的数据集了。
    从FP树中抽取频繁项集的三个基本步骤：
        1）从FP树中获得条件模式基；
        2）利用条件模式基，构建一个条件FP树；
          3）迭代重复步骤（1）（2）直到树只包含一个元素项为止

2.1抽取条件模式基

条件模式基是以所查找元素项为结尾的路径集合，每一条路径包含一条前缀路径和结尾元素，图3中，符号r的前缀路径有{x,s}、{z,x,y}和{z}，每一条前缀路径都与一个数据值关联，这个值等于路径上r的数目，下表中列出单元素频繁项的所有前缀路径。

图6--每个频繁项的前缀路径

前缀路径将被用于构建条件FP树。为了获得这些路径，可以对FP树进行穷举式搜索，直到获得想要的频繁项为止，但可以使用一个更为有效的方法加速搜索过程。可以用先前的头指针表来创建一种更为有效的方法，头指针表中包含相同类型元素链表的起始指针。一旦到达了每一个元素项，就可以上溯这棵树直到根节点为止。

2.2、创建条件FP树

对于每一个频繁项，都要创建一个条件FP树，将上面的条件模式基作为输入，通过相同的建树方法来构建这些条件树，然后递归地发现频繁项、发现条件模式基，以及发现另外的条件树。举个例子，假定为频繁项t创建一个条件FP树，然后对{t,y}，{t,x}、...重复该过程。元素项t的条件FP树的构建过程如下：

图7

s，r虽然是条件模式基的一部分，且单独看都是频繁项，但是在t的条件树中，他却是不频繁的，分别出现了2次和一次，小于阈值3，所以{t,r}，{t,s}不是频繁的。接下来对集合{t,z}，{t,x}，{t,y}来挖掘对应的条件树，会产生更复杂的频率项集，该过程重复进行，直到条件树中没有元素为止，停止。

代码实现

# FP树类
class treeNode:
    def __init__(self, nameValue, numOccur, parentNode):
        self.name = nameValue  #节点元素名称，在构造时初始化为给定值
        self.count = numOccur   # 出现次数，在构造时初始化为给定值
        self.nodeLink = None   # 指向下一个相似节点的指针，默认为None
        self.parent = parentNode   # 指向父节点的指针，在构造时初始化为给定值
        self.children = {}  # 指向子节点的字典，以子节点的元素名称为键，指向子节点的指针为值，初始化为空字典

    # 增加节点的出现次数值
    def inc(self, numOccur):
        self.count += numOccur

    # 输出节点和子节点的FP树结构
    def disp(self, ind=1):
        print(' ' * ind, self.name, ' ', self.count)
        for child in self.children.values():
            child.disp(ind + 1)

# =======================================================构建FP树==================================================

# 对不是第一个出现的节点，更新头指针块。就是添加到相似元素链表的尾部
def updateHeader(nodeToTest, targetNode):
    while (nodeToTest.nodeLink != None):
        nodeToTest = nodeToTest.nodeLink
    nodeToTest.nodeLink = targetNode

# 根据一个排序过滤后的频繁项更新FP树
def updateTree(items, inTree, headerTable, count):
    if items[0] in inTree.children:
        # 有该元素项时计数值+1
        inTree.children[items[0]].inc(count)
    else:
        # 没有这个元素项时创建一个新节点
        inTree.children[items[0]] = treeNode(items[0], count, inTree)
        # 更新头指针表或前一个相似元素项节点的指针指向新节点
        if headerTable[items[0]][1] == None:  # 如果是第一次出现，则在头指针表中增加对该节点的指向
            headerTable[items[0]][1] = inTree.children[items[0]]
        else:
            updateHeader(headerTable[items[0]][1], inTree.children[items[0]])

    if len(items) > 1:
        # 对剩下的元素项迭代调用updateTree函数
        updateTree(items[1::], inTree.children[items[0]], headerTable, count)

# 主程序。创建FP树。dataSet为事务集，为一个字典，键为每个事物，值为该事物出现的次数。minSup为最低支持度
def createTree(dataSet, minSup=1):
    # 第一次遍历数据集，创建头指针表
    headerTable = {}
    for trans in dataSet:
        for item in trans:
            headerTable[item] = headerTable.get(item, 0) + dataSet[trans]
    # 移除不满足最小支持度的元素项
    keys = list(headerTable.keys()) # 因为字典要求在迭代中不能修改，所以转化为列表
    for k in keys:
        if headerTable[k] < minSup:
            del(headerTable[k])
    # 空元素集，返回空
    freqItemSet = set(headerTable.keys())
    if len(freqItemSet) == 0:
        return None, None
    # 增加一个数据项，用于存放指向相似元素项指针
    for k in headerTable:
        headerTable[k] = [headerTable[k], None]  # 每个键的值，第一个为个数，第二个为下一个节点的位置
    retTree = treeNode('Null Set', 1, None) # 根节点
    # 第二次遍历数据集，创建FP树
    for tranSet, count in dataSet.items():
        localD = {} # 记录频繁1项集的全局频率，用于排序
        for item in tranSet:
            if item in freqItemSet:   # 只考虑频繁项
                localD[item] = headerTable[item][0] # 注意这个[0]，因为之前加过一个数据项
        if len(localD) > 0:
            orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)] # 排序
            updateTree(orderedItems, retTree, headerTable, count) # 更新FP树
    return retTree, headerTable

# =================================================查找元素条件模式基===============================================

# 直接修改prefixPath的值，将当前节点leafNode添加到prefixPath的末尾，然后递归添加其父节点。
# prefixPath就是一条从treeNode（包括treeNode）到根节点（不包括根节点）的路径
def ascendTree(leafNode, prefixPath):
    if leafNode.parent != None:
        prefixPath.append(leafNode.name)
        ascendTree(leafNode.parent, prefixPath)

# 为给定元素项生成一个条件模式基（前缀路径）。basePet表示输入的频繁项，treeNode为当前FP树中对应的第一个节点
# 函数返回值即为条件模式基condPats，用一个字典表示，键为前缀路径，值为计数值。
def findPrefixPath(basePat, treeNode):
    condPats = {}  # 存储条件模式基
    while treeNode != None:
        prefixPath = []  # 用于存储前缀路径
        ascendTree(treeNode, prefixPath)  # 生成前缀路径
        if len(prefixPath) > 1:
            condPats[frozenset(prefixPath[1:])] = treeNode.count  # 出现的数量就是当前叶子节点的数量
        treeNode = treeNode.nodeLink  # 遍历下一个相同元素
    return condPats

# =================================================递归查找频繁项集===============================================
# 根据事务集获取FP树和频繁项。
# 遍历频繁项，生成每个频繁项的条件FP树和条件FP树的频繁项
# 这样每个频繁项与他条件FP树的频繁项都构成了频繁项集

# inTree和headerTable是由createTree()函数生成的事务集的FP树。
# minSup表示最小支持度。
# preFix请传入一个空集合（set([])），将在函数中用于保存当前前缀。
# freqItemList请传入一个空列表（[]），将用来储存生成的频繁项集。
def mineTree(inTree, headerTable, minSup, preFix, freqItemList):
    # 对频繁项按出现的数量进行排序进行排序
    sorted_headerTable = sorted(headerTable.items(), key=lambda p: p[1][0])  #返回重新排序的列表。每个元素是一个元组，[（key,[num,treeNode],()）
    bigL = [v[0] for v in sorted_headerTable]  # 获取频繁项
    for basePat in bigL:
        newFreqSet = preFix.copy()  # 新的频繁项集
        newFreqSet.add(basePat)     # 当前前缀添加一个新元素
        freqItemList.append(newFreqSet)  # 所有的频繁项集列表
        condPattBases = findPrefixPath(basePat, headerTable[basePat][1])  # 获取条件模式基。就是basePat元素的所有前缀路径。它像一个新的事务集
        myCondTree, myHead = createTree(condPattBases, minSup)  # 创建条件FP树

        if myHead != None:
            # 用于测试
            print('conditional tree for:', newFreqSet)
            myCondTree.disp()
            mineTree(myCondTree, myHead, minSup, newFreqSet, freqItemList)  # 递归直到不再有元素

# 生成数据集
def loadSimpDat():
    simpDat = [['r', 'z', 'h', 'j', 'p'],
               ['z', 'y', 'x', 'w', 'v', 'u', 't', 's'],
               ['z'],
               ['r', 'x', 'n', 'o', 's'],
               ['y', 'r', 'x', 'z', 'q', 't', 'p'],
               ['y', 'z', 'x', 'e', 'q', 's', 't', 'm']]
    return simpDat

# 将数据集转化为目标格式
def createInitSet(dataSet):
    retDict = {}
    for trans in dataSet:
        retDict[frozenset(trans)] = 1
    return retDict

if __name__=='__main__':
    minSup =3
    simpDat = loadSimpDat()  # 加载数据集
    initSet = createInitSet(simpDat)  # 转化为符合格式的事务集
    myFPtree, myHeaderTab = createTree(initSet, minSup)  # 形成FP树
    # myFPtree.disp()  # 打印树

    freqItems = []  # 用于存储频繁项集
    mineTree(myFPtree, myHeaderTab, minSup, set([]), freqItems)  # 获取频繁项集
    print(freqItems)  # 打印频繁项集

基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
【字节跳动】数据挖掘面试题0010：解释全国人均收入下降，各省份人均收入增加的现象，属于辛普森悖论（开放性问题）言析数智数据挖掘常见面试题辛普森悖论局部与整体分析差异归因数据分析面试题
文章大纲一、辛普森悖论的核心定义二、现象成因：加权平均中的“权重偏移”三、数学逻辑与案例说明1.数学表达式2.具体案例四、辛普森悖论的本质：忽略“混杂因素”的影响五、生活中常见的辛普森悖论案例及应对策略1.医疗疗法效果评估2.大学录取率的性别偏差3.篮球运动员投篮效率4.公司员工绩效与部门规模如何利用辛普森悖论？（数据分析中的价值）六、总结全国人均收入下降而各省份人均收入增加的现象，确实属于辛普森
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
【力扣（LeetCode）】数据挖掘面试题0003： 356. 直线镜像
文章大纲题目描述**坐标变化规律**解题方案题目描述在一个二维平面空间中，给你n个点的坐标。问，是否能找出一条平行于y轴的直线，让这些点关于这条直线成镜像排布？平行于y轴的直线（即垂直于x轴的直线，其方程形式为(x=a)，其中(a)为常数）的对称点具有以下显著特点：坐标变化规律设直线为(x=a)，平面内任意一点(P(x,y))关于该直线的对称点为(P’(x’,y’))，则两者坐标满足：纵坐标不变：
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
Python 爬虫实战：京东商品数据采集（登录态验证 + 价格监控系统） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言在电商飞速发展的当下，京东作为国内头部电商平台之一，拥有海量商品数据。对于商家而言，精准掌握这些数据能助力优化定价策略、洞察市场动态；对消费者来说，追踪商品价格走势有助于把握最佳购买时机。本文将深入剖析如何借助Python爬虫技术实现京东商品数据采集，包括突破登录态验证以及搭建价格监控系统，为读者呈上一份实用的电商数据挖掘指南。二、环境搭建安装Python库：执行以下命令安装所需的库：pi
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
满血DeepSeek加持的AlphaGPT，助力高文律师事务所全面拥抱AI
2025年初,中国团队精心雕琢的通用大模型DeepSeek凭借其创新的架构优化以及深入的数据挖掘技术,在逻辑推理、多轮对话和知识搜索等关键领域大放异彩,其为诸多垂直领域,特别是法律行业的智能化转型,开拓了全新的方向。2月8日,法律科技领域的领军者iCourt将旗下的AlphaGPT与DeepSeek深度融合,重磅推出业内首款“DeepSeek+法律专业”AI大模型。这一创举彻底打破了传统法律智能工
量化策略进阶：事件驱动与另类数据挖掘实战
前面的章节，我们已经详细探讨了量化系统的基础架构：从数据的获取与管理（数据层），到策略的研发与验证（回测层），再到指令的高速执行（交易执行层），以及确保资金安全的防线（风控与监控运维层），我们共同构建了一套完整的量化交易体系。今天，我们将深入探讨量化策略的更高维度：事件驱动型策略和另类数据挖掘。这不仅仅是技术栈的扩展，更是对市场洞察力和信息处理能力的全面提升，旨在帮助您的策略在传统量价数据之外，捕
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
【力扣（LeetCode）】数据挖掘面试题0013：1264. 页面推荐（泛化后，基于MySQL题解）言析数智数据挖掘常见面试题 leetcode 数据挖掘 mysql 笔试笔试题
文章大纲一、题目要求：二、模拟数据构建三、题解参考方案朋友关系列表：Friendship+---------------+---------+|ColumnName|Type|+---------------+---------+|user1_id|int||user2_id|int|+---------------+---------+(user1_id,user2_id)是这张表具有唯一值的列
R 语言安装使用教程小奇JAVA面试安装使用教程 r语言开发语言
一、R语言简介R是一种用于统计分析、数据挖掘和可视化的编程语言和环境。它在学术界和数据分析领域中广泛使用，拥有丰富的统计函数库和绘图功能。二、安装R语言2.1下载R安装包前往CRAN官网下载适合你操作系统的安装程序：官网地址：https://cran.r-project.org/2.2Windows安装下载.exe安装包；双击安装程序，按默认选项一路安装即可；安装完成后，可通过RGUI或命令行启动
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
【数据挖掘】支持向量机（SVM）大雨淅淅大数据数据挖掘支持向量机算法大数据回归
目录一、支持向量机（SVM）算法概述二、支持向量机（SVM）算法优缺点和改进2.1支持向量机（SVM）算法优点2.2支持向量机（SVM）算法缺点2.3支持向量机（SVM）算法改进三、支持向量机（SVM）算法实现3.1支持向量机（SVM）算法C语言实现3.2支持向量机（SVM）算法JAVA实现3.3支持向量机（SVM）算法python实现四、支持向量机（SVM）算法应用五、支持向量机（SVM）算法发
【字节跳动】数据挖掘面试题0005：在旋转有序数组中查找是否存在元素key 言析数智数据挖掘常见面试题算法面试题数据挖掘二分查找法
文章大纲方法思路代码解释问题场景：在“打乱”的有序数组里找数核心思路：每次排除一半可能性分步骤找数（以数组[7,8,9,10,1,2,3]为例，找数字10）再举个反例：找数字5（数组中没有）用“左右有序”的逻辑来总结代码的“人话”翻译为什么时间复杂度是O(logn)？要在旋转后的有序数组中以O(logn)时间复杂度查找元素，可利用二分查找的变体。关键在于确定哪一半数组仍然有序，并判断目标值是否在该
【字节跳动】数据挖掘面试题0006：SVM（支持向量机）详细原理言析数智数据挖掘常见面试题支持向量机数据挖掘算法 SVM
文章大纲SVM（支持向量机）原理：用最通俗的话讲清楚1.核心思想：找一条“最安全”的分界线2.数学背后的“人话”逻辑3.处理“分不开”的情况：核函数的魔法4.为什么SVM有时比神经网络“聪明”？`5.SVM的优缺点：适合什么场景？`6.一句话总结SVM7.SVM常见的面试知识点除了原理相关内容外**1.硬间隔SVM的数学表达****2.软间隔SVM的数学表达****3.拉格朗日对偶问题推导****
Orange3机器学习建模和可视化分析数据预处理、特征工程、算法训练维度软件库测试工具开源软件电脑
各位数据挖掘爱好者们！今天给你们介绍一款超厉害的开源软件——Orange3。它就像一个神奇的工具箱，你只要通过拖放组件就能完成机器学习建模和可视化分析，软件下载地址安装包它支持数据预处理、特征工程、算法训练和评估整个流程，就像一个贴心的管家，把数据挖掘的事儿全给你安排得明明白白！它还内置了箱线图、决策树这些可视化工具，能直观地把数据分布和模型结构展示出来，就像给你开了个透视眼，让数据一目了然！这软
推荐算法化身 “购物读心术”！ZKmall开源商城如何让用户消费激增 30%？ zkmall ZMkall B2C商城 B2B2C商城推荐算法算法机器学习
在电商竞争白热化的当下，如何精准把握用户需求、提升消费转化，成为企业突围的关键。ZKmall开源商城以推荐算法为核心驱动力，通过深度数据挖掘与智能策略优化，实现用户平均消费金额提升30%，复购率增长25%。这套被称为“购物读心术”的技术，究竟如何颠覆传统电商的人货匹配模式？一、传统推荐的痛点：“猜不准”导致用户流失传统电商平台的推荐功能往往依赖简单的“热销商品”“同类推荐”逻辑，无法满足用户个性化
科学的第五范式：人工智能如何重塑发现之疆田园Coder 人工智能科普人工智能科普
在人类探索未知的壮阔史诗中，科学方法的演进如同照亮迷雾的灯塔。从基于经验的第一范式（描述自然现象），到以理论推演为核心的第二范式（牛顿定律、麦克斯韦方程），再到以计算机模拟为标志的第三范式（气候模型、分子动力学），直至以大数据挖掘为驱动的第四范式（基因组学、高能物理），每一次范式跃迁都极大地拓展了认知的疆界。如今，我们正站在一个更恢弘转折的门槛上——第五范式：人工智能驱动的科学（AIforScie
Python入门Day1 Zonda要好好学习 Python python 开发语言
Python介绍Python的发展历程为什么叫PythonPython本来是蟒蛇的意思，用来象征写代码的程序员。因为相对于Java、C++等程序，Python非常简单，所以写Python也的程序员也象征“玩蛇”的程序员。Python的由来Python的历史也相对比较悠久，可以追溯到1990年，有数十年的发展历程，随着今年人工智能和数据挖掘的发展，Python飞速发展。ABC语言是一种语言和编程环境
基于Python的气象数据分析及可视化研究
气象数据作为地球系统科学的核心要素，其分析与可视化在气候研究、灾害预警、农业生产等领域具有战略性意义。本文以Python技术栈为基座，系统探讨气象数据的采集预处理、多维度分析模型及可视化表达范式，通过3000+字深度研究揭示Pandas时序处理、Xarray多维计算、Cartopy地理可视化等工具的核心方法论。内容涵盖全球再分析数据挖掘、极端天气模式识别、动态热力图构建等实战场景，并引入机器学习预
Anconda环境下Vscode安装Python Java后时代程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Python爬虫实战：研究stdlib库相关技术 ylfhpy 爬虫项目实战 python 爬虫前端开发语言 stdlib 标准库
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈指数级增长。网络爬虫作为一种自动获取网页内容的工具，在信息检索、数据挖掘、舆情分析等领域发挥着重要作用。Python由于其简洁的语法和丰富的库支持，成为开发网络爬虫的首选语言。本文旨在探讨如何利用Python标准库构建一个功能完整的网络爬虫系统，避免依赖过多第三方库，提高系统的可移植性和稳定性。1.2研究目标本文的研究目标是设计并
【字节跳动】数据挖掘面试题0004：一个随机整数产生器产生[1，5]，如何设计一个产生[1，7]的随机整数产生器。言析数智数据挖掘常见面试题 python 随机数算法面试题
文章大纲题目描述方法思路具体实现方法解释数学原理通俗类比解释第一步：从1-5到0-4第二步：创造"更大的骰子"第三步：给棋盘编号第四步：压缩到1-7第五步：处理"无效数字"总结：`完成解决方案流程`题目描述要基于一个生成范围在[1,5]的随机整数生成器来设计出能生成[1,7]随机整数的生成器，可按以下步骤操作：方法思路借助原有的生成器生成两个相互独立的随机数，范围都是[1,5]。把这两个随机数组合
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

关联规则挖掘

Python机器学习算法 — 关联规则（Apriori、FP-growth）

关联规则 -- 简介

关联规则 -- 概念

关联规则 --支持度和置信度

关联规则 -- Apriori算法

Apriori算法简介

算法思想

算法步骤

关联规则 -- FP树频集算法

算法简介

算法步骤

你可能感兴趣的:(数据挖掘)