Fonsi-

【商业挖掘】关联规则——Apriori算法(最全~)

一、关联规则挖掘

1. 定义：参考百度百科即可：

“假设是项的集合。给定一个交易数据库D，其中每个事务(Transaction)t是I的非空子集，即，每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率；置信度(confidence)是D中事务已经包含X的情况下，包含Y的百分比，即条件概率。如果满足最小支持度阈值和最小置信度阈值，则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。” ——引用百度百科词条解释

百度百科或者一些教材说的太专业了反而很难理解，不妨看下面的个人观点大白话解释：

关联规则提出的背景是购物篮分析，A顾客会买零食、面包、牛奶，不同客户会有不同的消费，那每一个顾客的消费集合就构成了一个事务（消费-支付事务），那这个事务集就上上面说的“唯一标识符TID”；那问题是，每种商品被不同顾客购买了多少次呢？那么这个次数就是“支持频数”，那被所有顾客购买的概率就是“支持度Sup”；那问题又来了，X商品和Y商品之间的被购买关系是怎样的呢？比如消费者买了面包，还可能会买面包伴侣（牛奶等），那面包和牛奶就构成了关联，那这个关联的置信度又是多少呢？就是消费者买了面包，再去买牛奶的概率是多少呢？反之亦言。那这个条件概率，就是上面提到的置信度。

2. 作用：可以揭示数据集的内在的、重要的特性。是很多重要数据挖掘任务的基础关联、相关和因果分析的基本方式。在序列、结构（e.g.子图）模式分析；时空、多媒体、时序和流数据中的模式分析；分类：关联分类；聚类分析：基于频繁模式的聚类；数据仓库：冰山方体计算等各类数据挖掘工作中发挥着基础性作用。

        说的又很奇奇怪怪的，关联规则的挖掘到底有什么用？还是可以回到上面的购物篮分析，比如啊，我们分析了面包和牛奶的关联规则之后，如果满足支持度、置信度要求，那么我们就可以把这两个商品放在一块儿（可能会增加购买），或者在做Promotion打造时可以辅助策略制定等等。事实上，从商业视角来说，他就是对People、Place、Promotion、Price策略制定的综合考量因子（4ps战略）。
        在和复旦大佬学长交流之后，他提到了异常检测，虽然我也不太明白什么道理。但是结合财会视角来看，这个关联规则或许还能够对企业行为进行监测。

        那对于网页开发来说，点击哪些模块儿？链接？先后顺序？等都是可以考量的点。

———“个人角度，如果有错误请予以斧正！！！”

3. 挖掘的步骤：①找出频繁项集；②由频繁项集，找出满足minsup和minconfi的关联规则。

如果一个Goodlist由100个商品，如果想要遍历循环，那得到的频繁项集有2^100-1个

↓
引出Apriori算法

二、Apriori-关联规则算法

Apriori算法利用频繁项集性质的先验知识（prior knowledge），通过逐层搜索的迭代方法，即将k-项集用于探察(k+1)-项集，来穷尽数据集中的所有频繁项集。

步骤：先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2，接着用L2找L3，直到找不到频繁k-项集，找每个Lk需要一次数据库扫描。最后得到所有满足最小支持的频繁项集合，再进行关联规则输出。

关于Apriori的解释，CSDN中有非常多的前辈给出了自己非常完备的解释，对其优缺点也进行了深入剖析，我在这里就不做过多解释，向大家推我认为非常非常好的三篇文章链接：

这一篇生动有趣，适合年轻人来看！（点击本文字即可）

这一篇有博主手写的解释！适合小白理解Apriori的步骤！

这一篇也不错噢！

三、Apriori算法分解—Python大白话式实现

我看了CSDN中很多博主分享的代码，发现很多博主代码趋同（可能复制粘贴），或者直接调用的外部开源的库来实现的，还有的博主自己撰写的，但是用了很多可能不懂的函数来做的，甚至还有的就直接在一个函数里面嵌套多个函数来传递参数实现，读起来感觉，对小白非常不友好。

那在这里，我就分享一些很简单的代码来实现。包括数据导入、数据处理、调用、关联规则挖掘等完整的分析流程。我看了一下这个应该是全站流程最全面的代码了。

——当然简单就意味着代码很长，有些地方处理的比较粗糙

步骤1：外部库调用❀

只用到了 pandas itertools 和自带的time

import pandas as pd #数据导入用
import itertools as it #子集生成用
import time #输出程序员运行时间用

步骤2：数据导入❀

因为是全函数编写，最终的数据导入在代码最后，所以直接拿出来看

if __name__ == '__main__':
    # 数据导入
    data = pd.read_excel("D:\OneDrive\桌面\测试数据.xlsx", index_col=0, header=0)
    data = data.applymap(lambda x: str(x).strip())  # 删除导入时可能存在的空格值，比如：“面包”成了“ 面包”
    # 数据格式转换
    data = data.values  # 改为元组型数据，便于list输出
    data = data.tolist()  # 输出为客户*商品集合
    # 设定支持度和置信度
    minsup,minconfi=map(eval,input("请输入支持度和置信度：").split(" "))
    start = time.time()
    Find_rule_apriori(data,minsup,minconfi)
    end=time.time()
    print('Running time: {0} Seconds'.format(end - start))

步骤3：数据处理❀

很多博主在数据导入阶段说明不清，不知道最终的导入格式，这里我把测试数据截图放出来仅供大家参考，助于后续程序的理解：

那在Panda导入中会出现一个问题就是，空白格会被默认为None值，输出出来就是“non”：

那么为了处理“nan”值，而常规的pandas的其他功能应该是不能直接删去的，多数还是填充。因此我编写了以下“白话for循环”的Non_deal()函数:

def Non_deal(df):
    list_data = []
    rows = len(df)
    for i in range(0,rows):
        list = df[i]
        list_con = []
        cols = len(list)
        for j in range(0,cols):
            if list[j]!="nan":
                list_con.append(list[j])  
#如果用remove法需要倒序去除，否则无法去除干净（因为每一次去除会导致len-1）
        list_data.append(list_con)
    return list_data

输出结果为: 可以看到non值都被删去了。注意remove的使用，我这里处理比较粗糙，为了用Append多加了一个中间列表List_con，虽然用remove会更快。

步骤4：输出所有Goodlist❀

事实上也就是备选频繁1项集，这个函数不太重要，后续调用也完全可以替代别的方式，编写的目的是我思考时的便利逻辑过程的一种方式而已。

#目的是得到备选1-项集
def Good_list(df):  #将单个商品集合出来
    list_all=[]
    list_in=Non_deal(df)
    for i in range(0,len(list_in)):
        for j in range(0,len(list_in[i])):
            list_m=[]
            list_m.append(str(list_in[i][j]))
            list_all.append(str(list_m))
        list_all=list(set(list_all))
    for i in range(0,len(list_all)):
        list_all[i]=eval(list_all[i])
    return list_all

步骤5：项集重组❀

因为Apriori是通过满足支持度阈值的频繁k项集得到备选频繁k+1项集合，因此这一个函数的目的便是进行项集重组，升阶化的过程。注意，这个不是放在最前面的逻辑，而是预先编写。为了后面直接调用的准备工作。可以发现也都是for循环，连while等等都不带的。由于我们导入数据就选择的是列表格式，因此我们后续工作也就都利用list来完成，那么list就需要一直for循环调用，不像dict中直接for item in dict等等方便清晰，前面也说了，细节处理还是较粗糙。

#目的是进行k-1-频繁项集合的重组为k项目集合
def creat_connect(list_c,n): ##实现集合内的重组，例如2-项集合重组为3-项集
    new_list=[]
    for i in range(0,len(list_c)):
        list_a = []
        for j in range(i+1,len(list_c)):
            list_b = list_c[i]
            list_d = []
            for k in range(0,n):
                list_d.append(list_c[j][k])
            list_a = list_b+list_d
            list_a=list(set(list_a))
            list_a.sort()
            new_list.append(str(list_a))
        new_list=list(set(new_list))
    New_list=[]
    for i in range(0,len(new_list)):
        new_list[i]=eval(new_list[i])
        new_list[i].sort()
        if len(new_list[i])==n+1:
            New_list.append(new_list[i])
    return New_list

步骤6：支持度扫描与输出 ❀

这里就回归了逻辑线条，这里提供两种方法，一种是输出counts一种是输出rates，即支持频数和支持度的两种衡量办法，这里仅供大家挑选，两个函数没什么区别。本find_rule函数用的是counts函数，如果要换记得调整为rates。

#输出每个k-项频繁集的候选集的比率
def sup_rate(df,data):
    m = len(data)  # 事务总数
    item_set_list = []
    for i in range(0,len(df)):
        n=0
        list_n=[]
        for j in range(0,len(data)):
            if (set(df[i]) <= set(data[j]))==True:
                n+=1
        list_n.append(df[i])
        list_n.append(round(n/m,2))
        item_set_list.append(list_n)
    return  item_set_list
#输出每个k-项频繁集的候选集的个数，上有比率写法，两者无本质区别，都可以使用
def sup_counts(df,data): #输出每个1-项频繁集的候选集的次数
    item_set_list = []
    for i in range(0,len(df)):
        n=0
        list_n=[]
        for j in range(0,len(data)):
            if (set(df[i]) <= set(data[j]))==True:
                n+=1
        list_n.append(df[i])
        list_n.append(n)
        item_set_list.append(list_n)
    return  item_set_list

步骤7：根据最小支持度阈值进行减枝叶❀

其他博主文章也说过，Apriori算法的核心就是通过剪枝来减少扫描难度。因为非频繁项集的超级也一定不频繁。

#得到满足最小支持度阈值的关联规则（find——rule of min-sup-rate item）
def sup_satisfy_item(data,min_suprate):
    n = len(data)  # 事务总数
    Good_list1=Good_list(data)
    m = len(Good_list1)  # 商品总数
    dt = sup_counts(Good_list1, data)
    All_freitem_list=[]
    for k in range(1,m):
        dt.sort()
        k_apriori=[]
        for j in range(0,len(dt)):
            if dt[j][-1] >= min_suprate*n: ##减枝过程
                k_apriori.append(dt[j][0])
                k_apriori.sort()
        dt=sup_counts(creat_connect(k_apriori,k),data)
        if len(k_apriori)!=0:
            All_freitem_list.append(k_apriori)
        else:
            break
    return All_freitem_list

步骤8：对每一个频繁项集进行子集拆分计算confi和rule挖掘❀

这个函数也是一个中间函数，预备工作而已。注意条件（前提是频繁项集，如果不是的话，数量可能非常多，很难挖掘）这也是身边其他人或者大家可能会犯的错误，为啥不通过Good_list清单来生成所有的1/2/3/.../k项备选频繁集，再来扫描其每一个的支持度呢？那如果是这么想的，就忽略了Apriori算法的核心了。具体是什么可以返回自行理解。

——好吧我承认 /(ㄒoㄒ)/~~：事实上Good_list()函数的编写，就是我按照上述逻辑来编写的

def Ksubset_get(df): #获得非空子集（前提条件是频繁项集，否则数量太多，很难挖掘）
    n =len(df)
    k =len(df[0])
    All_nzsubset=[]
    for num in range(n):
        for i in it.combinations(df,num+1):  #调用it.combination 函数
            All_nzsubset.append(list(i))
    return All_nzsubset

步骤9：Find_rule❀

最后一步了！！直接进行规则输出就好了，这一步非常非常非常的复杂，因为用的是list不是dict，可能在某些处理上不得不加入很多中间list来进行暂存以便后续调用。但其实我后面想了一下，用dict也很复杂，简单不到哪里去的感觉。（主要是没写）

def Find_rule_apriori(data,min_suprate,min_confi):
    a=len(data) #事务总数
    Sup_satisfy_item=sup_satisfy_item(data,min_suprate) #获得满足支持度的频繁项集，第一项为频繁1项集合的集合，以此类推。
    l=len(Sup_satisfy_item) #获得频繁项集集合的集合长度
    for i in range(1,l): #无需对频繁1项集合找寻关联规则，直接从频繁二项集的集合进行扫寻循环
        Sup_satisfy_itemi=Sup_satisfy_item[i]    #得到一个频繁i+1项集合的列表的列表
        m=len(Sup_satisfy_itemi)
        for j in range(0,m):  #为对每一个频繁项集进行扫寻，因此需要再做一次for循环
            Prule = Sup_satisfy_itemi[j]
            list1=[]
            list1.append(Prule)
            item_counts1 = sup_counts(list1,data)[0][-1]  #首先需要得到这一个频繁项集的支持度，或者计算频数也可以
            list1.clear()
            prerule_find = Ksubset_get(Prule)  #得到这一个频繁项集集合的所有非空集合，方便进行关联规则的重组
            prerule_find.remove(prerule_find[-1])  #删除全集
            q = len(prerule_find)   #得到排除全集后的关联重组列表的长度，以便进行for循环
            for z in range(0,q):
                list2=[]
                list2.append(prerule_find[z])
                item_counts2 = sup_counts(list2,data)[0][-1]  #得到每一个关联重组后项集的支持度（或频数）
                list2.clear()
                if item_counts2 > 0:
                    Confi_item = item_counts1/item_counts2 #得到置信度
                    if Confi_item >= min_confi: #置信度减除
                        n=len(prerule_find[z])
                        list3 = Prule[:]
                        for o in range(0, n):
                            list3.remove(str(prerule_find[z][o]))
                        print("{0} ==> {1},sup={2},confi={3}".format(prerule_find[z],list3,round(item_counts1/a,2),round(Confi_item,2)))

输出结果：可以看到，整个程序的运行速度还是比较快的，加入更多的good和tid之后个人认为还是可以保持较快的输出速度。

四、Apriori代码——全部呈上~

import pandas as pd
import numpy as np
import itertools as it
import time
# 去除集合矩阵（i，j）None值，便于计数以及算法，常规的pandas是用来数据清洗和数据填充的，没办法解决这种问题
def Non_deal(df):
    list_data = []
    rows = len(df)
    for i in range(0,rows):
        list = df[i]
        list_con = []
        cols = len(list)
        for j in range(0,cols):
            if list[j]!="nan":
                list_con.append(list[j])  #如果用remove法需要倒序去除，否则无法去除干净（因为每一次去除会导致len-1）
        list_data.append(list_con)
    return list_data
#目的是得到备选1-项集
def Good_list(df):  #将单个商品集合出来
    list_all=[]
    list_in=Non_deal(df)
    for i in range(0,len(list_in)):
        for j in range(0,len(list_in[i])):
            list_m=[]
            list_m.append(str(list_in[i][j]))
            list_all.append(str(list_m))
        list_all=list(set(list_all))
    for i in range(0,len(list_all)):
        list_all[i]=eval(list_all[i])
    return list_all
#目的是进行k-1-频繁项集合的重组为k项目集合
def creat_connect(list_c,n): ##实现集合内的重组，例如2-项集合重组为3-项集
    new_list=[]
    for i in range(0,len(list_c)):
        list_a = []
        for j in range(i+1,len(list_c)):
            list_b = list_c[i]
            list_d = []
            for k in range(0,n):
                list_d.append(list_c[j][k])
            list_a = list_b+list_d
            list_a=list(set(list_a))
            list_a.sort()
            new_list.append(str(list_a))
        new_list=list(set(new_list))
    New_list=[]
    for i in range(0,len(new_list)):
        new_list[i]=eval(new_list[i])
        new_list[i].sort()
        if len(new_list[i])==n+1:
            New_list.append(new_list[i])
    return New_list
#输出每个k-项频繁集的候选集的比率
def sup_rate(df,data):
    m = len(data)  # 事务总数
    item_set_list = []
    for i in range(0,len(df)):
        n=0
        list_n=[]
        for j in range(0,len(data)):
            if (set(df[i]) <= set(data[j]))==True:
                n+=1
        list_n.append(df[i])
        list_n.append(round(n/m,2))
        item_set_list.append(list_n)
    return  item_set_list
#输出每个k-项频繁集的候选集的个数，上有比率写法，两者无本质区别，都可以使用
def sup_counts(df,data): #输出每个1-项频繁集的候选集的次数
    item_set_list = []
    for i in range(0,len(df)):
        n=0
        list_n=[]
        for j in range(0,len(data)):
            if (set(df[i]) <= set(data[j]))==True:
                n+=1
        list_n.append(df[i])
        list_n.append(n)
        item_set_list.append(list_n)
    return  item_set_list
#得到满足最小支持度阈值的关联规则（find——rule of min-sup-rate item）
def sup_satisfy_item(data,min_suprate):
    n = len(data)  # 事务总数
    Good_list1=Good_list(data)
    m = len(Good_list1)  # 商品总数
    dt = sup_counts(Good_list1, data)
    All_freitem_list=[]
    for k in range(1,m):
        dt.sort()
        k_apriori=[]
        for j in range(0,len(dt)):
            if dt[j][-1] >= min_suprate*n: ##减枝过程
                k_apriori.append(dt[j][0])
                k_apriori.sort()
        dt=sup_counts(creat_connect(k_apriori,k),data)
        if len(k_apriori)!=0:
            All_freitem_list.append(k_apriori)
        else:
            break
    return All_freitem_list
def Ksubset_get(df): #获得非空子集（前提条件是频繁项集，否则数量太多，很难挖掘）
    n =len(df)
    k =len(df[0])
    All_nzsubset=[]
    for num in range(n):
        for i in it.combinations(df,num+1):  #调用it.combination 函数
            All_nzsubset.append(list(i))
    return All_nzsubset
def Find_rule_apriori(data,min_suprate,min_confi):
    a=len(data) #事务总数
    Sup_satisfy_item=sup_satisfy_item(data,min_suprate) #获得满足支持度的频繁项集，第一项为频繁1项集合的集合，以此类推。
    l=len(Sup_satisfy_item) #获得频繁项集集合的集合长度
    for i in range(1,l): #无需对频繁1项集合找寻关联规则，直接从频繁二项集的集合进行扫寻循环
        Sup_satisfy_itemi=Sup_satisfy_item[i]    #得到一个频繁i+1项集合的列表的列表
        m=len(Sup_satisfy_itemi)
        for j in range(0,m):  #为对每一个频繁项集进行扫寻，因此需要再做一次for循环
            Prule = Sup_satisfy_itemi[j]
            list1=[]
            list1.append(Prule)
            item_counts1 = sup_counts(list1,data)[0][-1]  #首先需要得到这一个频繁项集的支持度，或者计算频数也可以
            list1.clear()
            prerule_find = Ksubset_get(Prule)  #得到这一个频繁项集集合的所有非空集合，方便进行关联规则的重组
            prerule_find.remove(prerule_find[-1])  #删除全集
            q = len(prerule_find)   #得到排除全集后的关联重组列表的长度，以便进行for循环
            for z in range(0,q):
                list2=[]
                list2.append(prerule_find[z])
                item_counts2 = sup_counts(list2,data)[0][-1]  #得到每一个关联重组后项集的支持度（或频数）
                list2.clear()
                if item_counts2 > 0:
                    Confi_item = item_counts1/item_counts2 #得到置信度
                    if Confi_item >= min_confi: #置信度减除
                        n=len(prerule_find[z])
                        list3 = Prule[:]
                        for o in range(0, n):
                            list3.remove(str(prerule_find[z][o]))
                        print("{0} ==> {1},sup={2},confi={3}".format(prerule_find[z],list3,round(item_counts1/a,2),round(Confi_item,2)))

if __name__ == '__main__':
    # 数据导入
    data = pd.read_excel("D:\OneDrive\桌面\测试数据.xlsx", index_col=0, header=0)
    print(data)
    data = data.applymap(lambda x: str(x).strip())  # 删除导入时可能存在的空格值，比如：“面包”成了“ 面包”
    # 数据格式转换
    data = data.values  # 改为元组型数据，便于list输出
    data = data.tolist()  # 输出为客户*商品集合
    print(Non_deal(data))
    # 设定支持度和置信度
    minsup,minconfi=map(eval,input("请输入支持度和置信度：").split(" "))
    start = time.time()
    Find_rule_apriori(data,minsup,minconfi)
    end=time.time()
    print('Running time: {0} Seconds'.format(end - start))

五、总结

① 非常感谢我们老师的指导和激励呜呜呜，上课一直被点名。

② Apriori算法真的很难写出来，写的很痛苦的家人们一定不要放弃！心态要好，希望这篇文章能够帮到你们一些，给到你们一些“我踩过的坑不要踩”的建议。

③ 个人一直以来就喜欢分享，看以前的文章也可以发现，什么聚类分析、模糊聚类（传递闭包矩阵算法等等）都是个人编写的大白话函数，所以撰写本文的初衷就是个人的分享~

④ K-means算法本人由于之前学习数学建模的时候太懒了，就没有撰写。

⑤ 如果大家复制了我的函数，希望能够在代码段中标明了引用。

⑥ 本文在细节的处理非常粗糙，希望大家在编写过程中能够予以改进，期待和各位交流（改进了一定要记得和我分享分享呜呜呜）

⑦ 这是一个学习锻炼的过程，非计科、信管等专业，但也要强化这种语言能力~特别是商科！

分享Python7个爬虫小案例（附源码）人工智能-猫猫爬虫 python 开发语言
在这篇文章中，我们将分享7个Python爬虫的小案例，帮助大家更好地学习和了解Python爬虫的基础知识。以下是每个案例的简介和源代码：1.爬取豆瓣电影Top250这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中。importrequestsfrombs4importBeautifulSoupimportcsv#请求U
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
【愚公系列】《高效使用DeepSeek》023-兴趣技能培训愚公搬代码愚公系列-书籍专栏人工智能 AI Agent deepseek 学习
【技术大咖愚公搬代码：全栈专家的成长之路，你关注的宝藏博主在这里！】开发者圈持续输出高质量干货的"愚公精神"践行者——全网百万开发者都在追更的顶级技术博主！江湖人称"愚公搬代码"，用七年如一日的精神深耕技术领域，以"挖山不止"的毅力为开发者们搬开知识道路上的重重阻碍！【行业认证·权威头衔】✔华为云天团核心成员：特约编辑/云享专家/开发者专家/产品云测专家✔开发者社区全满贯：CSDN博客&商业化双料
后端框架模块化 GIS程序媛—椰子后端
后端框架的模块化设计旨在简化开发流程、提高可维护性，并通过分层解耦降低复杂性。以下是常见的后端模块及其在不同语言（Node.js、Java、Python）中的实现方式：目录1.路由（Routing）2.中间件（Middleware）3.数据库与ORM（models）4.迁移（Migration）5.服务层（ServiceLayer）6.配置管理（Configuration）7.依赖注入（DI）8.
Pyhton 基础 368. python python 开发语言
初识PythonPython是一种解释型语言Python使用缩进对齐组织代码执行，所以没有缩进的代码，都会在载入时自动执行数据类型：整形int无限大浮点型float小数复数complex由实数和虚数组成Python中有6个标准的数据类型：Number(数字)String(字符串)List(列表)Tuple(元组)Sets(集合)Dictionart(字典)其中不可变得数据：Number(数字)St
基于python+django+mysql的小区物业管理系统源码+运行步骤冷琴1996 Python系统设计 python 开发语言
该系统是基于python+django开发的小区物业管理系统。适用场景：大学生、课程作业、毕业设计。学习过程中，如遇问题可以在github给作者留言。主要功能有：业主管理、报修管理、停车管理、资产管理、小区管理、用户管理、日志管理、系统信息。源码学习技术。演示地址http://wuye.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https:/
用Python修改Word文档字体
在数字化办公场景中，Word文档作为主流文件格式承载着大量商务文书与学术资料。传统手动调整字体格式的操作模式存在显著局限性：当面对批量文档处理、动态内容生成或企业级模板维护时，逐一手工修改不仅效率低下，更难以保障格式规范的统一性。通过Python实现文档字体的程序化控制，能够有效构建自动化处理流程，在确保排版精准度的同时，显著提升文档批量化操作能力。本文将介绍如何使用Python修改Word文档段
C/C++学习路线概述 DustWind丶 C/C++c++
根据如下视频和文章总结：想做C语言/C++开发?这些才是你该学的东西！C语言/C++直通企业级开发的详细学习路线节选：肝了半个月，我整理出了这篇嵌入式开发学习学习路线+知识点梳理目录1C/C++学习概述1.1C语言的基础知识1.2C++的基础知识2C/C++编程学习四大件2.1数据结构和算法2.2操作系统2.3计算机网络2.3.1计算机网络分层2.3.2典型协议（以TCP/IP四层模型举例）2.4
360度用户信息赋能老客运营自动化刘小奇�多自动化运维 sass
在当今竞争激烈的商业环境中，客户关系管理（CRM）系统已成为企业提升客户满意度和忠诚度的重要工具。通过基于360度用户信息，企业能够深入洞察老客需求，实现自动化的老客运营和维护，从而提升客户体验和企业竞争力。一、360度用户信息整合：洞察老客需求的关键（一）多渠道数据收集企业需要从多个渠道收集客户数据，包括线上线下的交互记录。例如，通过企业微信，销售人员可以实时与客户沟通，了解他们的最新需求和反馈
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
python中strip的使用 ICER瞌睡虫
今天聊聊python去除字符串空格的函数：strip（）和replace（）1.strip():函数功能描述：Pythonstrip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。格式：str.strip([char])。其中，str为待处理的字符，char指定去除的源字符串首尾的字符。返回结果：去除空格时候的新
基于python+django的家教预约网站-家教信息管理系统源码+运行步骤冷琴1996 Python系统设计 python django 开发语言
该系统是基于python+django开发的家教预约网站。是给师妹做的课程作业。大家在学习过程中，遇到问题可以在github给作者留言。共同学习进步哦效果演示前台地址：http://jiajiao.gitapp.cn后台地址：http://jiajiao.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/geee
python strip函数用法_Python字符串函数strip()原理及用法详解 weixin_39944233 python strip函数用法
strip:用于移除字符串头尾指定的字符（默认为空格）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。语法：str.strip([chars])str="*****thisis**string**example....wow!!!*****"print(str.strip('*'))#指定字符串*输出结果：thisis**string**example....wow!!
python中strip_python中的strip是什么意思 weixin_39613744 python中strip
Python中strip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。它的函数原型：string.strip(s[,chars])，它返回的是字符串的副本，并删除前导和后缀字符。（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。此函数只会删除头和尾的字符，中间的不会删除。）如果strip()
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
LeetCode146.LRU 缓存（哈希表+双向链表） techpupil 缓存散列表链表
请你设计并实现一个满足LRU(最近最少使用)缓存约束的数据结构。实现LRUCache类：LRUCache(intcapacity)以正整数作为容量capacity初始化LRU缓存intget(intkey)如果关键字key存在于缓存中，则返回关键字的值，否则返回-1。voidput(intkey,intvalue)如果关键字key已经存在，则变更其数据值value；如果不存在，则向缓存中插入该组k
python strip()函数牛也唱歌
strip函数原型声明：s为字符串，rm为要删除的字符序列.只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。s.strip(rm)删除s字符串中开头、结尾处，位于rm删除序列的字符s.lstrip(rm)删除s字符串中开头处，位于rm删除序列的字符s.rstrip(rm)删除s字符串中结尾处，位于rm删除序列的字符注意：1.当rm为空时，默认删除空白符（包括'\n','\r',
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
Python中strip()函数详细讲解甯公子_ Python入门程序 python 开发语言算法
strip()是Python中字符串（str）对象的一个内置方法，用于去除字符串开头和结尾的空白字符（包括空格、换行符、制表符等）。它不会修改字符串中间的空白字符。语法str.strip([chars])str：需要处理的字符串。chars（可选）：指定要去除的字符集合。如果未指定，默认去除空白字符（包括空格、换行符\n、制表符\t等）。返回值返回一个新的字符串，去除了开头和结尾的指定字符。常见用
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
Python 自动探索性数据分析库———KLib 若木胡 tools python 数据分析开发语言
Python自动探索性数据分析库——KLib一、引言在当今数据驱动的时代，数据分析师和科学家们面临着海量的数据需要处理和分析。探索性数据分析（EDA）作为数据处理流程中的关键环节，旨在帮助人们快速理解数据的特征、分布、相关性等重要信息，从而为后续的深入分析、建模以及决策提供坚实的基础。Python以其丰富的生态系统和强大的功能在数据分析领域占据着重要地位，而KLib则是其中一款专注于自动探索性数据
源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
[附源码]Python计算机毕业设计SSM基于B-S的心理健康管理系统（程序+LW) Python、JAVA毕设程序源码 java 开发语言
环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：SSM+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境：
数据结构、图论---数组模拟单链表邻接表 wow_awsl_qwq 数据结构数据结构图论链表
数组模拟链表或者所谓的邻接表，实际上都是静态链表，以数组下标模拟模拟内存地址，使得可以一开始就给数组分配好连续的一大片空间，而使用中的“内存分配”实际上就是变成了简单的idx++比赛中使用静态链表代替指针型链可以减少内存分配带来的时间消耗，并且使用方式也比较简单比赛中的单链表或者邻接表也可以用vector实现，达到动态内存分配的效果，其实就是类似于指针链表，不过使用方式也比较简单直观比如图论模型：
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
绕过 reCAPTCHA V2/V3：Python、Selenium 指南 qq_33253945 python selenium javascript 网络爬虫爬虫算法
前言验证码（CAPTCHA）技术已经存在许多年，尽管它的有效性一直备受争议，但许多网站仍然依赖它来保护资源。尤其是Google推出的reCAPTCHA系列，一直是验证码领域的佼佼者。本文将详细介绍如何绕过reCAPTCHAV2和V3，并提供实用的代码示例。详情请见：解决验证码recaptcha、cloudflare、incapsula1.什么是reCAPTCHA？reCAPTCHA是Google推
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb