m0_61463713

python数据分析与挖掘实战(商品零售购物篮分析）

一、引言

购物篮分析是商业领域最前沿、最具挑战性的问题之一，也是许多企业重点研究的问题。购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联，研究顾客的购买行为，从而辅助零售企业制定营销策略的一种数据分析方法。
本篇文章使用 Apriori 关联规则算法实现购物篮分析，发现超市不同商品之间的关联关系，并根据商品之间的关联规则制定销售策略。

二、数据探索分析

2.1 查看数据特征

搜索数据的特征，查看每列属性、最大值、最小值、是了解数据的第一步。

import numpy as np
import pandas as pd

inputfile = './data/GoodsOrder.csv'   # 输入的数据文件
data = pd.read_csv(inputfile,encoding = 'gbk')  # 读取数据
data .info()  # 查看数据属性

data = data['id']
description = [data.count(),data.min(), data.max()]  # 依次计算总数、最小值、最大值
description = pd.DataFrame(description, index = ['Count','Min', 'Max']).T  # 将结果存入数据框
print('描述性统计结果：\n',np.round(description))  # 输出结果

结果如下

可到每列属性共有43367个观测值，并不存在缺失值。“id”属性的最大值和最小值，可得某商品零售企业共收集9835个购物篮数据，其中包含169个不同的商品类别，售出商品总数43367件。

2.2 分析热销商品

热销情况分析可以助力商品优选。计算销量排名前10的商品销量及占比，并绘制条形图显示销量前10的商品销量情况。

# 销量排行前10商品的销量及其占比
import pandas as pd
inputfile = './data/GoodsOrder.csv'  # 输入的数据文件
data = pd.read_csv(inputfile,encoding = 'gbk')  # 读取数据
group = data.groupby(['Goods']).count().reset_index()  # 对商品进行分类汇总
sorted=group.sort_values('id',ascending=False)
print('销量排行前10商品的销量:\n', sorted[:10])  # 排序并查看前10位热销商品

# 画条形图展示出销量排行前10商品的销量
import matplotlib.pyplot as plt
x=sorted[:10]['Goods']
y=sorted[:10]['id']
plt.figure(figsize = (8, 4))  # 设置画布大小 
plt.barh(x,y)
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.xlabel('销量')  # 设置x轴标题
plt.ylabel('商品类别')  # 设置y轴标题
plt.title('商品的销量TOP10(3001)')  # 设置标题
plt.savefig('./data//top10.png')  # 把图片以.png格式保存
plt.show()  # 展示图片

# 销量排行前10商品的销量占比
data_nums = data.shape[0]
for idnex, row in sorted[:10].iterrows():
    print(row['Goods'],row['id'],row['id']/data_nums)

结果如下

通过分析热销商品的结果可知，全脂牛奶的销量最高，为2513件，占比5.795%；其次是其他蔬菜、面包卷和苏打，占比分别为4.388%、4.171%、3.955%。

2.3 分析商品结构

对每一类商品的热销程度进行分析，有利于商品制定商品在货架上的摆放策略和位置。分析归类后各类别商品的销量及其占比后，绘制饼图显示各类商品的销量占比情况

import pandas as pd
inputfile1 = './data/GoodsOrder.csv'
inputfile2 = './data/GoodsTypes.csv'
data = pd.read_csv(inputfile1,encoding = 'gbk')
types = pd.read_csv(inputfile2,encoding = 'gbk')  # 读入数据

group = data.groupby(['Goods']).count().reset_index()
sort = group.sort_values('id',ascending = False).reset_index()
data_nums = data.shape[0]  # 总量
del sort['index']

sort_links = pd.merge(sort,types)  # 合并两个datafreame 根据type
# 根据类别求和，每个商品类别的总量，并排序
sort_link = sort_links.groupby(['Types']).sum().reset_index()
sort_link = sort_link.sort_values('id',ascending = False).reset_index()
del sort_link['index']  # 删除“index”列

# 求百分比，然后更换列名，最后输出到文件
sort_link['count'] = sort_link.apply(lambda line: line['id']/data_nums,axis=1)
sort_link.rename(columns = {'count':'percent'},inplace = True)
print('各类别商品的销量及其占比:\n',sort_link)
outfile1 = './data/percent.csv'
sort_link.to_csv(outfile1,index = False,header = True,encoding='gbk')  # 保存结果

# 画饼图展示每类商品销量占比
import matplotlib.pyplot as plt
data = sort_link['percent']
labels = sort_link['Types']
plt.figure(figsize=(8, 6))  # 设置画布大小   
plt.pie(data,labels=labels,autopct='%1.2f%%')
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.title('每类商品销量占比(3001)')  # 设置标题
plt.savefig('./data/persent.png')  # 把图片以.png格式保存
plt.show()

结果如下

通过分析各类别商品的销量及其占比情况可知，非酒精饮料、西点、果蔬3类商品的销量差距不大，占比总销量的50%左右

进一步查看销量第一的非酒精饮料类商品和销量第二的西点的内部结构，并绘制饼图显示其销量占比情况

# 筛选“非酒精饮料”类型的商品，然后求百分比。
alcohol = sort_links.loc[sort_links['Types'] == '非酒精饮料']  # 挑选商品类别为“非酒精饮料”并排序
child_nums = alcohol['id'].sum()  # 对所有的“非酒精饮料”求和
alcohol['child_percent'] = alcohol.apply(lambda line: line['id']/child_nums,axis = 1)  # 求百分比
alcohol.rename(columns = {'id':'count'},inplace = True)
print('非酒精饮料内部商品的销量及其占比:\n',alcohol)
# 筛选“西点”类型的商品，然后求百分比。
desserts = sort_links.loc[sort_links['Types'] == '西点']  # 挑选商品类别为“西点”并排序
child_nums = desserts['id'].sum()  # 对所有的“西点”求和
desserts['child_percent'] = desserts.apply(lambda line: line['id']/child_nums,axis = 1)  # 求百分比
desserts.rename(columns = {'id':'count'},inplace = True)
print('西点内部商品的销量及其占比:\n',desserts)

# 画饼图展示非酒精饮品内部各商品的销量占比
import matplotlib.pyplot as plt
data = alcohol['child_percent']
labels = alcohol['Goods']
plt.figure(figsize = (8,6))  # 设置画布大小 
explode = (0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.08,0.3,0.1,0.3)  # 设置每一块分割出的间隙大小
plt.pie(data,explode = explode,labels = labels,autopct = '%1.2f%%',
        pctdistance = 1.1,labeldistance = 1.2)
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.title("非酒精饮料内部各商品的销量占比(3001)")  # 设置标题
plt.axis('equal')
plt.show()  # 展示图形
# 画饼图展示西点内部各商品的销量占比
data = desserts['child_percent']
labels = desserts['Goods']
plt.figure(figsize = (8,6))  # 设置画布大小 
plt.pie(data,explode = None ,labels = labels,autopct = '%1.2f%%',
        pctdistance = 1.1,labeldistance = 1.2)
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.title("西点内部各商品的销量占比(3001)")  # 设置标题
plt.axis('equal')
plt.show()  # 展示图形

结果如下

通过分析非酒精饮料内部商品的销量及其情况可知，全脂牛奶的销量在非酒精饮料的总销量中占比超过33%，前3种非酒精饮料的销量在非酒精饮料的总销量中的占比接近70%。

同理分析西点内部商品的销量及其情况可知，面包卷的销量在西点的总销量中占比超过25%，其次是糕点，占比12.17%

三、数据预处理

3.1 数据转换

通过对数据探索分析发现数据完整，并不存在缺失值。建模之前需要转变数据的格式，才能使用Apriori函数进行关联分析

import pandas as pd
inputfile='./data/GoodsOrder.csv'
data = pd.read_csv(inputfile,encoding = 'gbk')

# 根据id对“Goods”列合并，并使用“，”将各商品隔开
data['Goods'] = data['Goods'].apply(lambda x:','+x)
data = data.groupby('id').sum().reset_index()

# 对合并的商品列转换数据格式
data['Goods'] = data['Goods'].apply(lambda x :[x[1:]])
data_list = list(data['Goods'])

# 分割商品名为每个元素
data_translation = []
for i in data_list:
    p = i[0].split(',')
    data_translation.append(p)
print('数据转换结果的前5个元素：\n', data_translation[0:5])

结果如下

四、模型构建

4.1商品购物篮关联规则模型构建

建模流程如图：

模型主要由输入、算法处理、输出3个部分组成。输入部分包括建模样本数据的输入和建模参数的输入。算法处理部分是采用 Apriori 关联规则算法进行处理。输出部分为采用 Apriori 关联规则算法进行处理后的结果。
模型具体实现步骤：首先设置建模参数最小支持度、最小置信度，输入建模样本数据；然后采用 Apriori 关联规则算法对建模的样本数据进行分析，以模型参数设置的最小支持度、最小置信度以及分析目标作为条件，如果所有的规则都不满足条件，则需要重新调整模型参数，否则输出关联规则结果。
目前，如何设置最小支持度与最小置信度并没有统一的标准。大部分都是根据业务经验设置初始值，然后经过多次调整，获取与业务相符的关联规则结果。本案例经过多次调整并结合实际业务分析，选取模型的输入参数为：最小支持度0.02、最小置信度0.35。

from numpy import *
 
def loadDataSet():
    return [['a', 'c', 'e'], ['b', 'd'], ['b', 'c'], ['a', 'b', 'c', 'd'], ['a', 'b'], ['b', 'c'], ['a', 'b'],
            ['a', 'b', 'c', 'e'], ['a', 'b', 'c'], ['a', 'c', 'e']]
 
def createC1(dataSet):
    C1 = []
    for transaction in dataSet:
        for item in transaction:
            if not [item] in C1:
                C1.append([item])
    C1.sort()
    # 映射为frozenset唯一性的，可使用其构造字典
    return list(map(frozenset, C1))     
    
# 从候选K项集到频繁K项集（支持度计算）
def scanD(D, Ck, minSupport):
    ssCnt = {}
    for tid in D:   # 遍历数据集
        for can in Ck:  # 遍历候选项
            if can.issubset(tid):  # 判断候选项中是否含数据集的各项
                if not can in ssCnt:
                    ssCnt[can] = 1  # 不含设为1
                else:
                    ssCnt[can] += 1  # 有则计数加1
    numItems = float(len(D))  # 数据集大小
    retList = []  # L1初始化
    supportData = {}  # 记录候选项中各个数据的支持度
    for key in ssCnt:
        support = ssCnt[key] / numItems  # 计算支持度
        if support >= minSupport:
            retList.insert(0, key)  # 满足条件加入L1中
            supportData[key] = support  
    return retList, supportData
 
def calSupport(D, Ck, min_support):
    dict_sup = {}
    for i in D:
        for j in Ck:
            if j.issubset(i):
                if not j in dict_sup:
                    dict_sup[j] = 1
                else:
                    dict_sup[j] += 1
    sumCount = float(len(D))
    supportData = {}
    relist = []
    for i in dict_sup:
        temp_sup = dict_sup[i] / sumCount
        if temp_sup >= min_support:
            relist.append(i)
# 此处可设置返回全部的支持度数据（或者频繁项集的支持度数据）
            supportData[i] = temp_sup
    return relist, supportData
 
# 改进剪枝算法
def aprioriGen(Lk, k):
    retList = []
    lenLk = len(Lk)
    for i in range(lenLk):
        for j in range(i + 1, lenLk):  # 两两组合遍历
            L1 = list(Lk[i])[:k - 2]
            L2 = list(Lk[j])[:k - 2]
            L1.sort()
            L2.sort()
            if L1 == L2:  # 前k-1项相等，则可相乘，这样可防止重复项出现
                # 进行剪枝（a1为k项集中的一个元素，b为它的所有k-1项子集）
                a = Lk[i] | Lk[j]  # a为frozenset()集合
                a1 = list(a)
                b = []
                # 遍历取出每一个元素，转换为set，依次从a1中剔除该元素，并加入到b中
                for q in range(len(a1)):
                    t = [a1[q]]
                    tt = frozenset(set(a1) - set(t))
                    b.append(tt)
                t = 0
                for w in b:
                    # 当b（即所有k-1项子集）都是Lk（频繁的）的子集，则保留，否则删除。
                    if w in Lk:
                        t += 1
                if t == len(b):
                    retList.append(b[0] | b[1])
    return retList

def apriori(dataSet, minSupport=0.2):
# 前3条语句是对计算查找单个元素中的频繁项集
    C1 = createC1(dataSet)
    D = list(map(set, dataSet))  # 使用list()转换为列表
    L1, supportData = calSupport(D, C1, minSupport)
    L = [L1]  # 加列表框，使得1项集为一个单独元素
    k = 2
    while (len(L[k - 2]) > 0):  # 是否还有候选集
        Ck = aprioriGen(L[k - 2], k)
        Lk, supK = scanD(D, Ck, minSupport)  # scan DB to get Lk
        supportData.update(supK)  # 把supk的键值对添加到supportData里
        L.append(Lk)  # L最后一个值为空集
        k += 1
    del L[-1]  # 删除最后一个空集
    return L, supportData  # L为频繁项集，为一个列表，1，2，3项集分别为一个元素

# 生成集合的所有子集
def getSubset(fromList, toList):
    for i in range(len(fromList)):
        t = [fromList[i]]
        tt = frozenset(set(fromList) - set(t))
        if not tt in toList:
            toList.append(tt)
            tt = list(tt)
            if len(tt) > 1:
                getSubset(tt, toList)
 
def calcConf(freqSet, H, supportData, ruleList, minConf=0.7):
    for conseq in H:  #遍历H中的所有项集并计算它们的可信度值
        conf = supportData[freqSet] / supportData[freqSet - conseq]  # 可信度计算，结合支持度数据
        # 提升度lift计算lift = p(a & b) / p(a)*p(b)
        lift = supportData[freqSet] / (supportData[conseq] * supportData[freqSet - conseq])
 
        if conf >= minConf and lift > 1:
            print(freqSet - conseq, '-->', conseq, '支持度', round(supportData[freqSet], 6), '置信度：', round(conf, 6),
                  'lift值为：', round(lift, 6))
            ruleList.append((freqSet - conseq, conseq, conf))

# 生成规则
def gen_rule(L, supportData, minConf = 0.7):
    bigRuleList = []
    for i in range(1, len(L)):  # 从二项集开始计算
        for freqSet in L[i]:  # freqSet为所有的k项集
            # 求该三项集的所有非空子集，1项集，2项集，直到k-1项集，用H1表示，为list类型,里面为frozenset类型，
            H1 = list(freqSet)
            all_subset = []
            getSubset(H1, all_subset)  # 生成所有的子集
            calcConf(freqSet, all_subset, supportData, bigRuleList, minConf)
    return bigRuleList
 
if __name__ == '__main__':
    dataSet = data_translation
    L, supportData = apriori(dataSet, minSupport = 0.02)
    rule = gen_rule(L, supportData, minConf = 0.35)

结果如下

以 frozenset({'水果/蔬菜汁'}) --> frozenset({'全脂牛奶'}) 支持度为0.02664 置信度：0.368495 life值为：1.44216 为例可得：顾客同时购买水果、蔬菜汁和全脂牛奶这3种商品的概率约为36.85%，而这种情况发生的可能性约为2.66%

综合分析可得顾客同时购买其他蔬菜、根茎类蔬菜和全脂牛奶的概率较高。

python 支持向量机回归_深入浅出python机器学习---支持向量机SVM 笔记0114-2020 weixin_39864387 python 支持向量机回归
题前故事：小D最近也交了一个女朋友，但是这个女孩好像非常情绪化，喜怒无常，让小D捉摸不透，小D女朋友的情绪完全不是“线性可分”的，于是小D想到了SVM算法，也就是大名鼎鼎的一一支持向量机。支持向量机理解引入首先需要知道线性可分和线性不可分的概念我们提取样本特征是“是否有妹子”和“是否有好吃的”这两项的时候，能够很容易用图中的直线把男生的情绪分成“开心”和“不开心”两类，这种情况下我们说样本是线性可
迈向数据科学的第一步：在Python中支持向量回归 weixin_26746401 python 机器学习人工智能深度学习大数据
什么是支持向量回归？(WhatisSupportVectorRegression?)Supportvectorregressionisaspecialkindofregressionthatgivesyousomesortofbufferorflexibilitywiththeerror.Howdoesitdothat?I’mgoingtoexplainittoyouinsimpletermsby
python基础题目练习19 码卡巴卡bug python 算法数据结构
说反话-加强版给定一句英语，要求你编写程序，将句中所有单词的顺序颠倒输出。输入格式：测试输入包含一个测试用例，在一行内给出总长度不超过500000的字符串。字符串由若干单词和若干空格组成，其中单词是由英文字母（大小写有区分）组成的字符串，单词之间用若干个空格分开。输出格式：每个测试用例的输出占一行，输出倒序后的句子，并且保证单词间只有1个空格。输入样例：HelloWorldHereICome输出样
炒股开户资金要求是多少？不同证券公司是否有区别？股票程序化交易接口量化交易股票API接口 Python股票量化交易炒股开户资金要求证券公司股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>开户资金的组成部分炒股开户的资金要求包含多个方面。首先是用于购买股票的资金，这是最直接的部分。投资者需要有一定资金才能买入股票。其次是可能存在的账户管理费等费用的预留资金。有些证券公司会收取一定的账户管理费用，如果没有预留这部分资金，
Python __main__的典型应用大数据张老师 Python程序设计 python java 服务器
__main__的典型应用在Python编程中，if__name__=='__main__'结构常用于控制程序的执行流程，确保某些代码仅在脚本直接运行时执行，而在模块被导入时不执行。这种机制可以让Python代码更加模块化、可复用，并提高程序的可读性。本节将详细讲解if__name__=='__main__'的几种典型应用场景。1.作为独立程序执行主函数在Python中，通常会使用if__name
Python发布自定义模块和包到PyPI 大数据张老师 Python程序设计 python java 服务器
Python拥有一个庞大的第三方库生态系统，其中大部分包都托管在PythonPackageIndex（PyPI）上。PyPI（https://pypi.org/）是Python官方的软件包仓库，开发者可以在这里发布、管理和共享Python模块，使其他人能够直接使用pipinstall命令安装和使用你的代码。本节将详细介绍如何创建并发布一个自定义Python模块到PyPI，包括打包、上传和管理的全过
数据分析面试全攻略：业务分析能力篇代码CC 数据分析（包括各种面试题）面试数据分析面试 python sql
前言：业务分析能力考察重点在数据分析岗位面试中，业务分析能力是区分初级与中高级候选人的核心要素。本篇将从指标设计、异常分析、用户增长三大模块，解析业务分析能力提升路径。一、指标设计：用数据定义业务价值1.1用户留存分析体系留存率计算模型定义公式：次日留存率=第2天活跃用户数/首日新增用户数×100%7日留存率=第8天活跃用户数/首日新增用户数×100%SQL计算模板：WITHfirst_login
Python匿名函数：从入门到精通 - 全面掌握Python函数的高级特性老大白菜 python 开发语言
匿名函数（lambda函数）是Python中一个强大而简洁的特性，它允许我们创建小型的、一次性使用的函数，而无需使用def关键字定义正式的函数。本文将深入探讨lambda函数的使用方法和最佳实践。一、什么是匿名函数？匿名函数是一种可以在一行代码中定义的小型函数，它具有以下特点：使用lambda关键字创建可以接受任意数量的参数只能包含一个表达式自动返回表达式的值没有显式的return语句1.1基本语
Numpy 自学笔记（一） .Queenie. numpy 小白自学笔记
@numpyNumpy自学笔记（一）更加详细的学习资料请见：https://www.numpy.org.cn/user/一.基础知识NumPy的数组类被调用ndarray。它也被别名所知array。请注意，numpy.array这与标准Python库类不同array.array，后者只处理一维数组并提供较少的功能。ndarray对象更重要的属性是：importnumpyasnpa=np.arang
python中format函数 weixin_30646315 python
---恢复内容开始---python中format函数用于字符串的格式化通过关键字1print('{名字}今天{动作}'.format(名字='陈某某',动作='拍视频'))#通过关键字2grade={'name':'陈某某','fenshu':'59'}3print('{name}电工考了{fenshu}'.format(**grade))#通过关键字，可用字典当关键字传入值时，在字典前加**即
Pyhton网络编程_UDP_TCP(IP地址--端口--socket编程) Felix-微信(Felixzfb) 网络编程 TCP UDP
Python高级语法——网络编程——进阶学习笔记项目中案例参考：https://github.com/FangbaiZhang/Python_advanced_learning/tree/master/03_Python_network_programming1网络通信使用网络能够把多方链接在一起，然后可以进行数据传递所谓的网络编程就是，让在不同的电脑上的软件能够进行数据传递，即进程之间的通信1.
AWS WAFv2 自动保护 API Gateway 实现指南 ivwdcwso 安全 aws gateway 云计算
AWSWAFv2（WebApplicationFirewallVersion2）是一项强大的服务，用于保护Web应用程序免受各种网络攻击。本文将重点介绍如何使用AWSWAFv2与Python脚本自动保护APIGateway，确保你的RESTAPI在暴露在互联网上时能够抵御常见的网络威胁。AWSWAFv2概述AWSWAFv2提供了先进的Web应用程序防火墙功能，可帮助你保护Web应用程序免受SQL注
Anaconda在指定路径创建虚拟环境 W起名有点难研人工智能
Anaconda创建虚拟环境1、打开AnacondaPromptcondacreate-n环境名python=3.8anaconda指定路径：condacreate--prefix=指定路径python=3.8python版本依据自己需要。2、创建完虚拟环境之后，要激活环境，进入所创建的环境：condaactivate环境名称退出虚拟环境命令：condadeactivate查看所有虚拟环境：con
python学习，Windows图标一键替换工具开发详解木木黄木木 python 学习 windows
Windows图标一键替换工具开发详解项目概述本项目是一个基于Python开发的Windows图标一键替换工具，提供了简单易用的图形界面，让用户能够轻松地替换Windows系统中的回收站图标、快捷方式图标以及应用程序图标。功能特点支持三种图标替换模式：回收站图标替换桌面快捷方式图标替换系统应用程序图标替换图标预览功能：实时预览选择的图标支持缩放预览支持多种图片格式（ICO、PNG、JPEG等）便捷
Ruff：极速的Python代码检查工具 python二级小助手 python 开发语言
随着开发工具的不断进步，Python社区终于迎来了一个突破性的新工具——Ruff。这是一个由Rust编写的Python代码检查和格式化工具，致力于比现有的工具（如Flake8、Black）快10到100倍，并且集成了更多功能。无论你是Python开发者，还是开源项目的维护者，Ruff都能带给你惊人的提升。Ruff是什么？Ruff是一个极快的Python代码检查器和格式化工具，使用Rust语言编写，
探索Python Web开发的全新范式：从代码生成到自动化部署 inscode_057
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE探索PythonWeb开发的全新范式：从代码生成到自动化部署在当今快速发展的科技领域，Web应用开发的需求与日俱增。Python作为一种简洁、高效的编程语言，凭借其丰富的库和框架，在Web开发中占据了重要地位。然而，对于许多初学者和中小型团队来说，传统的Web开发过程仍然充满了挑战。本文将探讨如何通过智能化工具简化Pyth
python运动统计 2024年9月python二级真题青少年编程电子学会编程等级考试python二级真题解析小兔子编程 Python编程 Python二级真题 Python考级真题 Python二级题目 Python案例 Python运动统计 Python信息素养
目录python字符串输出一、题目要求1、编程实现2、输入输出二、算法分析三、程序代码四、程序说明五、运行结果六、考点分析七、推荐资料1、蓝桥杯比赛2、考级资料3、其它资料python字符串输出2024年9月python编程等级考试二级编程题一、题目要求1、编程实现李想同学是班级的体育委员，他负责统计和督促同学们加强锻炼。因此，他统计了班上几位同学周一和周二的运动步数。周一的步数分别为：4125,
华为OD机试 - 磁盘容量（Python）真题+思路+考点+代码+岗位_磁盘容量华为od python代码 2401_84569514 华为od python 开发语言
磁盘容量题目磁盘的容量单位常用的有M、G、T他们之间的换算关系为1T=1024G，1G=1024M现在给定n块磁盘的容量，请对他们按从小到大的顺序进行稳定排序例如给定5块盘的容量51T20M3G10G6T3M12G9M排序后的结果为20M3G3M12G9M1T10G6T注意单位可以重复出现上述3M12G9M表示的容量即为3M12G9M和12M12G相等做了那么多年开发，自学了很多门编程语言，我很明
SSTI模板注入绕过墨菲斯托888 python 开发语言
SSTI之细说jinja2的常用构造及利用思路-蚁景网安实验室-博客园1.{%%}绕过过滤{{}}想要回显内容在外面加个print{%print("",__class__)%}2.getitem()绕过[]过滤在Python中，__getitem__是一个特殊方法，用于实现对象的索引访问（例如obj[117]）classMyClass:def__init__(self,data):self.dat
【自学笔记】Python的基础知识点总览-持续更新 Long_poem Python python 笔记开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Python基础知识总览1.Python简介2.安装与环境配置3.基本语法3.1变量与数据类型3.2控制结构3.3函数与模块3.4文件操作4.面向对象编程（OOP）5.异常处理6.高级特性7.标准库与第三方库8.实践项目总结Python基础知识总览1.Python简介解释型语言：Python是一种解释型、高级编程、通用型编程语
Python中的format格式化、填充与对齐、数字格式化方式五月天的尾巴 python format格式化填充与对齐
文章目录一、format语法二、format格式化的用法2.1、按照先后顺序替换{}2.2、按照索引进行匹配替换{0}2.3、按关键字索引进行匹配替换2.4、通过列表索引格式化字符串2.5、使用元组2.6、通过字典设置格式化字符串2.7、混合使用三、字符串填充与对齐3.1、左对齐及填充3.2、右对齐及填充3.3、居中对齐及填充四、格式化4.1、格式化数字4.2、格式化日期和时间五、format()
Python计算机二级编程题真题及考点总结【纯干货】 python二级小助手全国python二级考试 python 开发语言 pip 笔记经验分享
Python计算机二级编程题真题及考点总结【纯干货】一、前言相较于各类Python基础教程和二级经验分享类文章，个人认为如果只是想要考取计算机二级证书的话，最快且有效的方法应是在明晰考纲的前提下有针对性的进行学习，达到以最短时间考取证书的目的。因此除真题外，本篇重点在于总结Python二级考试中的编程题(占60分)的考查内容及知识点总结，让Python小白能在一周内掌握绝大多数编程题的解题方法，顺
Pytorch 第九回：卷积神经网络——ResNet模型 Start_Present pytorch cnn python 分类深度学习
Pytorch第九回：卷积神经网络——ResNet模型本次开启深度学习第九回，基于Pytorch的ResNet卷积神经网络模型。这是分享的第四个卷积神经网络模型。该模型是基于解决因网络加深而出现的梯度消失和网络退化而进行设计的。接下来给大家分享具体思路。本次学习，借助的平台是PyCharm2024.1.3，python版本3.11numpy版本是1.26.4，pytorch版本2.0.0+cu11
python爬虫（7）爬虫实例（3）丁叔叔爬虫实例
#-*-coding:utf-8-*-importrequestsimportosfromlxmlimportetree#解析库XPath#在本地建立一个文件夹，命名为pic_truck，用于存放下载的图片folder='pic_truck'ifnotos.path.exists(folder):os.makedirs(folder)#定义下载函数，用于下载图片defdownload(url):r
python启动多个进程_Python多进程运行两次进程? 魔法小药丸 python启动多个进程
运行下面的python3脚本,由于某种原因我无法理解startWebview函数执行了两次,结果打开了两个PyWebView窗口。#ImportModulesHereimportosimporttimeimportwebviewimportos.pathimportmultiprocessingfromdotenvimportload_dotenvfromflask_wtfimportFlaskF
python爬取酷狗音乐的mv地址_爬取酷狗音乐.py HAR.王帅真
importrequestsfromseleniumimportwebdriverfrompyqueryimportPyQueryaspq#获取歌名defAccess_to_the_song(C):doc=pq(C)The_song=doc('.audioName').text()returnThe_song#进入听歌的界面爬取HTMLdefBrowser_access(URL):The_brow
python中横向制表符_python中制表符是什么意思 weixin_39850152 python中横向制表符
Python中的制表符是什么？制表符，也属于“写法是两个字符的组合，但含义上只是一个字符”的情形。它的写法是反斜杠和t字母的组合，即“\t”，t取的是table之意。它的含义是一个字符，叫做制表符。要注意，制表符的写法只有在引号内才起作用（'\t'或"\t",但不可'\t"），才会被视为一个字符。相关推荐：《Python视频教程》运行以下代码，你应该明白何为制表符：#制表符的写法是\t，作用是对齐
python关闭一个子进程_python3关闭子进程的两种方式 weixin_39646695 python关闭一个子进程
用scrapy做爬虫的时候需要开多个爬虫子进程，为了定时开启和关闭爬虫子进程，需要对子进程做控制，而关闭进程有两种方法-----要简单高效，直接看方法2吧-----方法1：通过获取全部windows进程，获取增量进程方式该方法是通过获取所有windows进程，将所有进程名为“python.exe”的获取，最后在杀的时候，除了主进程外，全部杀掉该方法存在的问题在于，如果杀进程的时候刚好有其他人的py
python程序多次运行_python多进程重复加载的解决方式 weixin_39781452 python程序多次运行
flask多进程会引起重复加载，解决方法：把耗资源的加载挪到函数里面或者类里面，就不会重复加载资源了。测试发现，不是flask引起的，是多进程会引起重复加载python文件。把flask注释掉，也会重复加载。#autotrade/__init__.py#__init__.py定义全局的app路由#然后将其他模块由app装饰后的函数导入，flask即可识别所有的请求入口importtimefromf
LeetCode刷题之python解法（持续更新） gong_wanyi Python
1.TwoSum4行classSolution:deftwoSum(self,nums:List[int],target:int)->List[int]:d={}fori,ninenumerate(nums):ifnind:return[d[n],i]d[target-n]=iO(N)时间效率的快速解法，用字典记录｛需要的值:当前索引｝2.AddTwoNumbers5行#Definitionfor
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

python数据分析与挖掘实战(商品零售购物篮分析）

一、引言

二、数据探索分析

2.1 查看数据特征

2.2 分析热销商品

2.3 分析商品结构

三、数据预处理

3.1 数据转换

四、模型构建

4.1商品购物篮关联规则模型构建

你可能感兴趣的:(python数据挖掘,python,数据分析,零售)