数据分析|Python|拼多多优惠券使用预测分析报告

该案例分析项目是在小灶能力派商业数据分析课程上完成的

使用Python和Jupyter Notebook完成，本文是该案例的数据分析报告，详情代码在https://github.com/CLaraRR/xiaozao-data-analysis/tree/master/PDD

1、项目说明

2、项目要求

3、数据认识

4、数据探索

4.1 整体的优惠券使用情况

4.2 不同年龄的使用优惠券情况

4.3 过去6个月优惠券使用情况

4.4 过去1个月优惠券使用情况

4.5 不同职业用户的优惠券使用情况

4.6 不同婚姻状态的用户的优惠券使用情况

4.7 信用卡是否违约的用户的优惠券使用情况

4.8 是否退货的用户的优惠券使用情况

4.9 是否使用信用卡付款的用户的优惠券使用情况

5、模型建立、预测和优化

5.1 数据预处理

5.1.1 数据分箱

5.1.2 哑变量处理

5.1.3 相关系数分析

5.2 模型建立和评估

5.2 模型优化

5.2.1 添加变量

5.2.2 更改损失函数的类别权重

5.2.3 改善数据不平衡

5.2.4 模型解读

6、业务建议

7、项目总结

1、项目说明

拼多多是国内主流的手机购物APP，成立于2015年9月，用户通过发起和朋友、家人、邻居等的拼团，以更低的价格，拼团购买商品。拼多多作为新电商开创者,致力于将娱乐社交的元素融入电商运营中,通过“社交+电商”的模式,让更多的用户带着乐趣分享实惠,享受全新的共享式购物体验。对于各大电商平台，在“双十一”这种大促时间段，优惠券会起到非常大的促销作用。那么，如何找到更容易使用优惠券的用户，对他们精准地推送与营销，从而在双十一期间使销售额大大提升呢？这就是我们需要支持拼多多共同分析与解决的一个问题。

2、项目要求

根据用户的基本信息以及过去的消费行为数据，完成以下事项：

使用Python建立逻辑回归模型
预测用户是否会在活动中使用优惠券
找到对用户使用优惠券影响较大的因素

3、数据认识

数据来源于小灶商业数据分析课程，该数据集一共有25317条数据，将原数据字典按照用户信息、消费行为和预测结果进行不同维度的分类，用思维导图来表示如下：

用户信息包括：记录编码、年龄、职业、婚姻状态
消费行为包括：信用卡是否违约、是否有过退货、是否使用信用卡付款、过去6个月使用的优惠券数量、获取1个月使用的优惠券数量
预测结果：也就是本次项目的任务，预测在本次活动中是否有使用优惠券

4、数据探索

本节的数据探索将分为数值变量和类别变量两种分别进行，主要探索其他变量和是否使用优惠券变量的关系。

4.1 整体的优惠券使用情况

统计数据集中所有用户使用优惠券的数量和不使用优惠券的数量。

由上图发现数据集极度不平衡，不使用优惠券与适用于优惠券的数据比例将近9:1，因此在后续建模的时候要改善数据不平衡这个问题。

4.2 不同年龄的使用优惠券情况

将所有用户的年龄以5岁的间隔进行分箱，以及区分用户是否使用优惠券绘制直方图，如下图。

从图中发现：

使用拼多多APP的用户年龄主要在在20-70之间，小于35岁和大于60岁的用户更倾向于使用优惠券，而在35~60岁间的用户更倾向于不使用优惠券。

分析原因：

小于35岁的用户更倾向于使用优惠券的原因是比较好理解的，因为年轻用户对APP的使用更为熟悉，更容易掌握优惠券的用法，而大于60岁的用户由于数量比较少，是否能直接得出他们更倾向于使用优惠券这一结论是不太靠谱的；
35岁到60岁之间的用户随着年龄增长用户量也随之减少，不倾向于使用优惠券的原因可能是不清楚APP推出的优惠券活动，或者是因为经济能力比较好而无需费心使用优惠券。

4.3 过去6个月优惠券使用情况

将所有用户过去6个月优惠券使用情况绘制直方图，如下图。

从图中发现：

过去6个月各个用户的优惠券使用数情况集中在0-10次之间
大部分用户在过去的6个月使用优惠券的次数为3次
少数用户使用优惠券的次数在10次以上，最多是55次

4.4 过去1个月优惠券使用情况

将所有用户过去1个月优惠券使用情况绘制直方图，如下图。

从图中发现：

过去1个月优惠券使用数量集中在0-2次之间
然而大部分用户在过去一个月没有使用优惠券

4.5 不同职业用户的优惠券使用情况

1、统计各个职业的用户数量，如图1

2、统计各个职业分别使用优惠券和不使用优惠券的用户数量，如图2

3、统计各个职业中使用优惠券的人数比例，如图3

使用APP的用户中，蓝领用户最多，其次是管理人员, 技术人员, 行政人员, 服务行业用户
使用了优惠券的用户中，管理人员最多，其次是技术人员, 蓝领用户, 行政人员, 服务行业用户，出现这样的结果是因为他们这些群体的用户量本来就很多，所以使用优惠券的人相较其他群体也要多
但是在各个职业群体中，优惠券使用率最高的是学生（26.9%）、退休人员（17.9%）、无业（16.2%），可以看出来学生、退休人员、无业游民这类没有收入或工资水平较低的用户更倾向于使用优惠券

4.6 不同婚姻状态的用户的优惠券使用情况

1、统计不同婚姻状态的用户数量，如图1

2、统计不同婚姻状态用户中使用优惠券的人数比例，如图2

在所有用户中，已婚用户数量最多，然后是单身用户、离婚用户
单身用户的优惠券使用率最高（14.6%）

4.7 信用卡是否违约的用户的优惠券使用情况

1、统计不同信用卡违约状态的用户数量，如图1

2、分别统计不同信用卡违约状态用户中使用优惠券的人数比例，如图2

只有少数用户信用卡违约
没有信用卡违约的用户的优惠券使用率为11.4%

4.8 是否退货的用户的优惠券使用情况

1、统计有过退货行为的用户和没有过退货行为的用户的数量，如图1

2、分别统计有过退货行为的用户和没有过退货行为的用户中使用优惠券的人数比例，如图2

退货的用户较多
未退货的用户使用优惠券使用率（16.1%）比退货的用户（7.5%）要高

4.9 是否使用信用卡付款的用户的优惠券使用情况

1、统计使用信用卡付款的用户和没有使用信用卡付款的用户的数量，如图1

2、分别统计使用信用卡付款的用户和没有使用信用卡付款的用户中使用优惠券的人数比例，如图2

大部分用户不使用信用卡付款
不使用信用卡付款的用户的优惠券使用率（12.2%）比使用信用卡付款（6.9%）的高

5、模型建立、预测和优化

这一节将采用逻辑回归模型对前面涉及到的变量进行建模，用来预测用户是否使用优惠券。

5.1 数据预处理

在建模前首先要对数据进行预处理，预处理包括数据清洗（缺失值、异常值）、数据分箱、数据归一化、哑变量处理、相关系数分析等操作。数据清洗在数据探索的时候已经完成了，所以这一节主要是进行数据分箱、哑变量处理和相关系数分析。

5.1.1 数据分箱

分箱的主要目的是为了减少建模中的变量数量，使模型的可解释性更强。

通过前面的数据探索发现年龄其实可以分为小于25岁, 25-45岁之间， 45-65岁之间, 大于65岁这四个区间
由于过去6个月使用优惠券数量和过去1个月使用优惠券数量这两个变量的取值范围比较小，因此也可以进行分箱，使数值型变量转换为类别变量。可以把过去6个月使用优惠券数量划分为0-5次，6-20次，21-41次这三个区间，把过去1个月使用优惠券数量划分为0次， 1次， 2次，大于2次这四个区间
数据集包含的职业类型较多，为了方便后续建模，可以将相似的职业合并成一个类型。根据各个职业的优惠券使用率，初步将student，retired，unemployed合并为低收入群体，management，admin，self-employed，unknown，technician合并为中高收入群体，services，housemaid合并为中等收入群体，entrepreneur，blue-collar合并为高收入群体

分箱完成后数据变为下面的样子：

其中job_clean是将job划分后创建的新变量，c6对应的是coupon_used_in_last6_month，c1对应的是coupon_used_in_last_month，age_clean对应的是age，然后可以把原变量删除掉。

5.1.2 哑变量处理

这一步对类别变量进行哑变量处理，使得使类别变量变成二值变量，从而使得模型能够处理类别变量，数据变为下面的样子：

5.1.3 相关系数分析

这一步将其他变量与是否使用优惠券变量进行相关性分析，取出相关系数绝对值大于0.05的变量进行后续建模。

通过分析，得到以下几个变量：c1_1， job_clean_low， c1_2， age_clean_>65，marital_single， marital_married， loan_yes， returned_yes。

其中变量c1_1, job_clean_low, c1_2, age_clean_>65, marital_single和coupon_ind是强正相关，
变量marital_married, loan_yes, returned_yes和coupon_ind是强负相关。

5.2 模型建立和评估

终于到了最关键的一步也是本项目的最终任务——使用逻辑回归模型对相关变量进行建模来预测用户是否使用优惠券。

这一节先不考虑数据不平衡的问题，之后在模型优化的时候再改善这一问题。

首先将数据集按7:3的比例分为训练集和测试集，使用训练集数据训练逻辑回归模型，再应用到测试集上进行预测。模型的训练准确率、测试准确率、精确率、召回率、F1-Score和AUC如下：

	train_acc	test_acc	precision	recall	f1-score	AUC
Original	0.8864	0.8867	0.2667	0.0047	0.0093	0.5015

模型的ROC曲线如下：

模型的测试准确率虽然很高，但是由于数据极度不平衡，所以以准确率作为模型优劣的评价准则是有失偏颇的，因此用精确率、召回率、F1-Score作为评价标准更好。

可以看到这个模型的精确率、召回率和f1-score都很低，且AUC值为0.5左右，基本上随机猜测也能达到准确率0.88，这个模型是没有应用的价值的。

5.2 模型优化

我通过三种思路来改进模型：添加变量、更改损失函数的类别权重和改善数据不平衡

5.2.1 添加变量

原始模型只使用了相关系数大于0.05的变量进行建模，如果把所有变量都加进去，再来看看模型效果是否提升。

	train_acc	test_acc	precision	recall	f1-score	AUC
AddVariable	0.8860	0.8871	0.4333	0.0154	0.0297	0.5064

ROC曲线如下：

添加所有变量后模型性能并没有明显提升，这种方法不予采用。

5.2.2 更改损失函数的类别权重

更改类别权重就是针对不同类别的数据设置不同的分错代价，即提高少数类分错的代价或降低多数类分错的代价，最终使各类别平衡。常用的机器学习训练方法中，很多都提供了权重设置参数class_weight，可以手动设置该参数，但一般情况下只需要将其设置为balanced即可。

	train_acc	test_acc	precision	recall	f1-score	AUC
Balanced	0.7055	0.7132	0.2052	0.5403	0.2975	0.6377

ROC曲线：

更改类别权重后模型的recall、f1-score和AUC有了较大的提升。

5.2.3 改善数据不平衡

原始模型没有对数据不平衡进行处理，这里我采用了imblearn库的多种重采样方法改善数据不平衡。关于imblearn的使用可以参考链接和官方文档。

需要非常注意的是：必须先划分训练测试集，再在训练集上进行重采样

训练集的作用是为了学得正负样本的分割超平面，但是数据不平衡，会干扰模型的学习，因此，我们才在训练集上使用“重采样”这样的技术手段；而测试集的本质作用是利用历史样本来检验学得的模型的泛化能力，因此测试集必须要代表未来真实的样本分布，不然就丧失了测试集本身应有的作用。所以应该先划分训练测试集，再在训练集上进行重采样，以解决类别不平衡数据怎么"学"的问题。如果先进行重采样再划分训练测试集，那么测试集的分布就不能代表真实的样本分布，而且不同的重采样方法得到的数据不同，在不同的测试集上进行模型对比是不公平的。

随机的采样
- RandomUnderSampler 随机下采样
- RandomOverSampler 随机上采样
改进的采样
- 上采样
  - SMOTE
  - ADASYN
  - BorderlineSMOTE
- 下采样
  - RENN
  - NearMiss
- 组合采样
  - SMOTEENN
  - SMOTETomek

各个方法的效果如下表：

method	train_acc	test_acc	precision	recall	f1-score	AUC
Original	0.886435	0.886684	0.266667	0.004739	0.009313	0.501545
AddVariable	0.886035	0.887084	0.433333	0.015403	0.029748	0.506426
Balanced	0.705473	0.713182	0.205221	0.540284	0.297456	0.637679
RandomUnderSampler	0.636890	0.707457	0.201588	0.541469	0.293796	0.634971
RandomOverSampler	0.636457	0.713182	0.205221	0.540284	0.297456	0.637679
SMOTE	0.626513	0.683755	0.189955	0.555687	0.283127	0.627829
ADASYN	0.594300	0.615712	0.164366	0.592417	0.257334	0.605539
BorderlineSMOTE	0.671022	0.615712	0.164366	0.592417	0.257334	0.605539
RENN	0.893524	0.827563	0.267765	0.308057	0.286501	0.600698
NearMiss	0.639658	0.695872	0.198240	0.560427	0.292879	0.636724
SMOTEENN	0.990801	0.881891	0.361290	0.066351	0.112112	0.525750
SMOTETomek	0.626513	0.683755	0.189955	0.555687	0.283127	0.627829

经过上面多种改善数据不平衡方法的尝试，大部分方法都对原模型在精确率、召回率、f1-score有了不同程度的提升，综合下来，选择各方面都较出色的更改损失函数的类别权重的方法。

5.2.4 模型解读

这一节使用优化后的模型进行模型系数解读。各个变量的模型系数和概率比值如下表：

变量	模型系数	概率比值
c1_1	1.0895	2.9728
job_clean_low	0.2608	1.2979
c1_2	1.1283	3.0903
age_clean_>65	1.0840	2.9566
marital_single	0.2590	1.2956
marital_married	-0.1856	0.8306
loan_yes	-0.5073	0.6021
returned_yes	-0.7893	0.4542

1、c1_2系数解读：

c1_2系数为1.1283，c1_2对应的coupon_ind变量是0和1，那么我们可以做出如下假设：

当c1_1=0时，用户前一个月使用优惠券不是1次，目标用户使用优惠券的概率是1-p
当c1_1=1时，用户前一个月使用优惠券为1次，目标用户使用优惠券的概率是p

我们计算的系数，就是对应到事件发生(p)与不发生(1-p)概率比值的log转换，结合公式，即为ln(p/1-p)就等于1.1283，也就是说p/1-p=exp(1.1283)=3.0905。
所以我们可以说，在前一个月使用了2次优惠券的用户在本次活动中使用优惠券的概率是其他用户3倍。

2、job_clean_low系数解读：

job_clean_low系数为0.2608，job_clean_low对应的coupon_ind变量是0和1，那么我们可以做出如下假设：

当job_clean_low=0时，用户不是低收入群体，目标用户使用优惠券的概率是1-p
当job_clean_low=1时，用户是低收入群体，目标用户使用优惠券的概率是p

我们计算的系数，就是对应到事件发生(p)与不发生(1-p)概率比值的log转换，结合公式，即为ln(p/1-p)就等于0.2608，也就是说p/1-p=exp(0.2608)=1.2979。
所以我们可以说，低收入用户的优惠券使用概率是非低收入用户的1.3倍。

同理，其他变量的系数解读也是类似的：

年龄大于65岁的用户使用优惠券的概率是其他用户的3倍
单身用户使用优惠券概率是其他用户的1.3倍
已婚用户使用优惠券的概率是其他用户的0.83倍
使用信用卡付款的用户使用优惠券的概率是不使用信用卡用户的0.6倍
有退货行为的用户使用优惠券的概率是没有过退货行为用户的0.5倍

6、业务建议

整理前面数据探索和建模中得到的结论，可以给出以下业务建议以供参考：

持续关注年轻人（小于35岁）和老年人（大于60岁）用户的使用优惠券情况，保持这部分群体的优惠券使用率
低收入群体，包括学生、老人、无业人员往往更倾向于使用优惠券，可以向这部分人投放更多优惠券
老年人、单身用户、不使用信用卡付款、没有过退货行为的用户比他们相反群体的用户的优惠券使用概率要高，可以向这部分人投放更多优惠券
中高收入群体是APP的主要使用群体，要想办法提高他们的优惠券使用率

7、项目总结

这个项目让我体验到了从数据清洗-->数据探索-->建模预测-->模型优化-->得出业务结论的完整流程，受益匪浅。其中让我感触最深的是数据探索和模型优化这两个环节，如何从各个变量中发掘他们之间的关系，使用哪种可视化图表展示这种关系，这都是一个需要大量练习才能熟练掌握的过程，而模型优化则涉及到机器学习领域甚至是更高深的数学知识，这也促使我去了解各种机器学习模型的应用场景，以及更新的模型方法。但这次项目也有不足的地方，比如业务建议这一块，由于我对业务这块了解不多，因此给出的建议可能会比较笼统而不具体，今后还要在这方面多多积累。

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

数据分析|Python|拼多多优惠券使用预测分析报告

1、项目说明

2、项目要求

3、数据认识

4、数据探索

4.1 整体的优惠券使用情况

4.2 不同年龄的使用优惠券情况

4.3 过去6个月优惠券使用情况

4.4 过去1个月优惠券使用情况

4.5 不同职业用户的优惠券使用情况

4.6 不同婚姻状态的用户的优惠券使用情况

4.7 信用卡是否违约的用户的优惠券使用情况

4.8 是否退货的用户的优惠券使用情况

4.9 是否使用信用卡付款的用户的优惠券使用情况

5、模型建立、预测和优化

5.1 数据预处理

5.1.1 数据分箱

5.1.2 哑变量处理

5.1.3 相关系数分析

5.2 模型建立和评估

5.2 模型优化

5.2.1 添加变量

5.2.2 更改损失函数的类别权重

5.2.3 改善数据不平衡

5.2.4 模型解读

6、业务建议

7、项目总结

你可能感兴趣的:(python,数据分析,数据分析,python)