share16

Python项目实战 —— 04. 淘宝用户行为分析

Python项目实战

Python项目实战 —— 04. 淘宝用户行为分析
- 一、背景
- 二、解题思路
- 三、数据分析
- - 3.1 数据清洗
  - 3.2 数据分析
  - - 3.2.1 用户整体行为分析
    - 3.2.2 用户每日行为分析
    - 3.2.3 用户每时行为分析
    - 3.2.4 用户对商品品类的挑选分析
    - 3.2.5 漏斗分析
    - 3.2.6 用户分类(RFM分析)
- 四、建议
- 五、代码
- - 5.1 代码-用户整体行为
  - 5.2 代码-用户每日行为
  - 5.3 代码-用户每时行为
  - 5.4 代码-用户对商品品类的挑选
  - 5.5 代码-用户分类(RFM分析)

Python项目实战 —— 04. 淘宝用户行为分析

一、背景

本数据集共有大约1200万条数据，数据为淘宝APP2014年11月18日至2014年12月18日的用户行为数据，字段分别是：user_id用户身份(已脱敏)、item_id商品ID(已脱敏)、behavior_type用户行为类型(包含点击、收藏、加购物车、支付四种行为，分别用数字1、2、3、4表示)、user_geohash地理位置、item_category品类ID(商品所属的品类)、time用户行为发生的时间。

点此下载数据集

二、解题思路

本文从以下几个角度，对淘宝用户进行行为分析：
① 不同维度用户行为数据；
② 用户感兴趣的商品品类；
③ 漏斗分析；
④ RFM分析；

三、数据分析

3.1 数据清洗

查重 ➜ 缺失值处理 ➜ 数据加工(如时间字段的处理、astype等)

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('/xxx/recommend_user.csv',parse_dates=['time'])
df['date'] = df.time.dt.date
df['hour'] = df.time.dt.hour

print('文件中有{}行重复数据,已删除.'.format(len(df[df.duplicated()])))
df.drop_duplicates(inplace=True,ignore_index=True)
df.drop(['user_geohash','time'],axis=1,inplace=True)

3.2 数据分析

3.2.1 用户整体行为分析

在此期间，用户的行为如下：访问次数是748w，访问人数是1w，人均访问次数是747.9次，数据详情如图所示…

3.2.2 用户每日行为分析

自进入12月开始，访问次数和人数逐渐上升，且在双十二当天达到峰值，访问次数约43w次、人数约7.7k人，购买量1.4w件；此外，在双十二的前后一周内，每日的数据基本大于等于均值。
付费率=付费人数/总人数，当日点击且购买的付费率均值是23.8%，当月点击且购买的付费率均值是77% (11月是72.4%，12月是81.8%)。

3.2.3 用户每时行为分析

05-10点：人们逐渐醒来开始上班，利用路程时间访问app，访问人数和次数都在持续上升；
10-17点：人们工作时间，利用空闲时间访问app，访问人数和次数都处于平稳状态；
17-22点：人们下班有大量空余时间，可访问app购买自己所需商品，访问人数缓慢上升，但访问次数上升明显的，且在21&22点达到峰值；在此时间段购买量和人均购买次数都高于均值且上升明显；
22-05点：因开始休息了，故访问人数和次数都在持续下降；

3.2.4 用户对商品品类的挑选分析

在点击量和购买量前20的品类中，相同的品类共计有14种(已标星)；
在点击量top20中，有7种商品的购买率低于均值；
在购买量top20中，有12种商品的购买率低于均值；

3.2.5 漏斗分析

点击→收藏的转化率:3.22%
点击→加入购物车的转化率:4.46%
点击→支付的转化率:1.48%
建议：增加跨店满减、收藏加购送商品赠品、送福利等活动，引导用户收藏加购行为，从而提高用户购买转化率。

3.2.6 用户分类(RFM分析)

RFM分析步骤：①计算R/F/M值；②根据打分规则，分别计算Score_R/F/M；③根据平均值，分别计算Result_R/F/M(得分大于均值标记为2，反之为1)；④计算RFM得分,并给客户分类；

占比最多的是重要发展客户，这类客户消费频次低，我们需要提升他们的消费频率，可通过优惠券叠加等活动来刺激消费；
其次是重要挽留客户，这类客户消费时间间隔较远，且消费频次低，需要主动联系客户(如短信、邮件、APP推送等)，调查清楚哪里出现了问题；
重要价值用户是优质客户，可以有针对性地给这类客户提供VIP服务，如淘宝VIP会员卡等等；
重要保持客户，这类客户消费时间间隔较远，但是消费频次高，有可能就是需要买东西的时候，就高频购买，不需要就不再购物，对于这类客户，需要主动联系，了解客户的需求，及时满足这类用户的需求(提供优惠券促使消费)；

四、建议

综上，我的建议是：
① 在大促前，制定回报率高的活动(如淘宝的猫猫升级活动，可分为个人战和团队战，不同战队制定不同方案等)；在大促后，给用户推荐购买量/点击量高且优惠的产品，达到刺激用户登陆app，从而提高访问量和访问次数的目的；
② 一天内用户最活跃的时间段是21-22点，可把握该黄金时段，集中进行营销活动提高用户购买转化率，如平台带货直播、分会场促销、限时抢购等。此外，可进行进一步分析，不同时间段进行不同推荐；
③ 关于热搜和热销商品，可加大优惠力度、精准匹配用户、针对点击量高而购买转化率低的商品可改善商品页、详情页以及评论区管理等，促使用户购买；
④ 针对不用客户实行不同运营策略，详见3.2.6 用户分类(RFM分析)；

五、代码

5.1 代码-用户整体行为

s = '{}～{}期间，用户行为分析：'.format(df.date.min(),df.date.max())
s1 = '访问次数\n{}'.format(df[df.behavior_type==1].user_id.count())
s2 = '访问人数\n{}'.format(df[df.behavior_type==1].user_id.nunique())
s3 = '购买量\n'+str(df[df.behavior_type==4].item_id.count())
s4 = '购买人数\n{}'.format(df[df.behavior_type==4].user_id.nunique())
s5 = '人均访问次数：{}'.format(round(df[df.behavior_type==1].user_id.count()/df[df.behavior_type==1]\
                               .user_id.nunique(),1))
s6 = '人均购买次数：'+str(round(df[df.behavior_type==4].item_id.count()/df[df.behavior_type==1].user_id.nunique(),1))
s7 = '付费用户人均购买次数：'+str(round(df[df.behavior_type==4].item_id.count()/df[df.behavior_type==4]\
                             .user_id.nunique(),1))
s8 = '付费率：{}%'.format(round(df[df.behavior_type==4].user_id.nunique()/df.user_id.nunique()*100,2))

plt.text(0,1,s,bbox=dict(facecolor='yellow',alpha=0.8),size=28)
plt.text(0.1,0.7,s1,size=28)
plt.text(0.6,0.7,s2,size=28)
plt.text(1.1,0.7,s3,size=28)
plt.text(1.6,0.7,s4,size=28)
plt.text(0.1,0.4,s5,size=28)
plt.text(1.1,0.4,s7,size=28)
plt.text(0.1,0.1,s6,size=28)
plt.text(1.1,0.1,s8,size=28)
plt.axis('off')
#plt.savefig('1.png',dpi=150,bbox_inches='tight')

5.2 代码-用户每日行为

d1_1 = df[df.behavior_type==1].groupby('date').agg({'user_id':['count','nunique']})
d1_2 = df[df.behavior_type==4].groupby('date').agg({'user_id':['count','nunique']})
d1 = pd.concat([d1_1,d1_2],axis=1)
d1.columns = ['pv','uv','buy_count','buy_uv']
d1['人均访问次数'] = round(d1.pv/d1.uv,2)
d1['人均购买次数'] = round(d1.buy_count/d1.uv,2)
d1['付费率'] = round(d1.buy_uv/d1.uv*100,2)

plt.figure(figsize=(24,12))  # 全局标题用plt.suptitle 每个子图的标题用plt.title
plt.suptitle('淘宝用户每日访问情况',fontsize=20,color='r',backgroundcolor='yellow')
plt.subplot(2,2,1)
plt.xticks(rotation=90)
plt.plot(d1.index.astype(str),d1.pv,'.-',label='pv')
plt.axhline(d1.pv.mean(),linestyle='--',label='pv均值')
plt.text(0,d1.pv.mean(),str(round(d1.pv.mean(),1)),fontsize=16)
plt.legend()
plt.subplot(2,2,2)
plt.xticks(rotation=90)
plt.plot(d1.index.astype(str),d1.uv,'.-',label='uv')
plt.axhline(d1.uv.mean(),linestyle='--',label='uv均值')
plt.text(0,d1.uv.mean(),str(round(d1.uv.mean(),1)),fontsize=16)
plt.plot(d1.index.astype(str),d1.buy_uv,'.-',label='buy_uv')
plt.axhline(d1.buy_uv.mean(),color='orange',linestyle='--',label='buy_uv均值')
plt.text(0,d1.buy_uv.mean(),str(round(d1.buy_uv.mean(),1)),fontsize=16)
plt.legend()
plt.subplot(2,2,3)
plt.xticks(rotation=90)
plt.plot(d1.index.astype(str),d1.人均访问次数,'.-',label='人均访问次数')
plt.axhline(d1.人均访问次数.mean(),linestyle='--',label='人均访问次数均值')
plt.text(0,d1.人均访问次数.mean(),str(round(d1.人均访问次数.mean(),1)),fontsize=16)
plt.plot(d1.index.astype(str),d1.付费率,'.-',label='付费率')
plt.axhline(d1.付费率.mean(),color='orange',linestyle='--',label='付费率均值')
plt.text(0,d1.付费率.mean(),str(round(d1.付费率.mean(),1)),fontsize=16)
plt.legend()
plt.subplot(2,2,4)
plt.xticks(rotation=90)
plt.plot(d1.index.astype(str),d1.buy_count,'.-',label='buy_count')
plt.axhline(d1.buy_count.mean(),linestyle='--',label='buy_count均值')
plt.text(0,d1.buy_count.mean(),str(round(d1.buy_count.mean(),1)),fontsize=16)
plt.legend(loc='upper left')
plt.twinx()
plt.plot(d1.index.astype(str),d1.人均购买次数,'.-',color='orange',label='人均购买次数')
plt.axhline(d1.人均购买次数.mean(),color='orange',linestyle='--',label='人均购买次数均值')
plt.text(0,d1.人均购买次数.mean(),str(round(d1.人均购买次数.mean(),1)),fontsize=16)
plt.ylim([0,2])
plt.legend()
#plt.savefig('2.png',dpi=150,bbox_inches='tight')

# 当日点击&购买的付费率
df1 = df[df.behavior_type==1][['user_id','item_id','date']].drop_duplicates()
df2 = df[df.behavior_type==4][['user_id','item_id','date']].drop_duplicates()
df1['合并'] = df1.user_id.astype(str)+'&'+df1.item_id.astype(str)+'&'+df1.date.astype(str)
df2['合并'] = df2.user_id.astype(str)+'&'+df2.item_id.astype(str)+'&'+df2.date.astype(str)
df3 = pd.merge(df1,df2,how='left',on='合并')
df4 = pd.concat([df1.groupby('date').agg({'user_id':'nunique'}),
           df3[df3.user_id_y.notna()].groupby('date_x').agg({'user_id_x':'nunique'})],axis=1)
df4['rate'] = round(df4.user_id_x/df4.user_id*100,2)
df4.columns = ['uv','buy_uv','rate']
df4.plot(kind='line',secondary_y=['rate'],figsize=(16,4))

5.3 代码-用户每时行为

d2_1 = df[df.behavior_type==1].groupby('hour').agg({'user_id':['count','nunique']})
d2_2 = df[df.behavior_type==4].groupby('hour').agg({'user_id':['count','nunique']})
d2 = pd.concat([d2_1,d2_2],axis=1)
d2.columns = ['pv','uv','buy_count','buy_uv']
d2['人均访问次数'] = round(d2.pv/d2.uv,2)
d2['人均购买次数'] = round(d2.buy_count/d2.uv,2)
d2['付费率'] = round(d2.buy_uv/d2.uv*100,2)

plt.figure(figsize=(24,12))  # 全局标题用plt.suptitle 每个子图的标题用plt.title
plt.suptitle('淘宝用户每时访问情况',fontsize=20,color='r',backgroundcolor='yellow')
plt.subplot(2,2,1)
plt.plot(d2.index.astype(str),d2.pv,'.-',label='pv')
plt.axhline(d2.pv.mean(),linestyle='--',label='pv均值')
plt.text(0,d2.pv.mean(),str(round(d2.pv.mean(),1)),fontsize=16)
plt.legend()
plt.subplot(2,2,2)
plt.plot(d2.index.astype(str),d2.uv,'.-',label='uv')
plt.axhline(d2.uv.mean(),linestyle='--',label='uv均值')
plt.text(0,d2.uv.mean(),str(round(d2.uv.mean(),1)),fontsize=16)
plt.plot(d2.index.astype(str),d2.buy_uv,'.-',label='buy_uv')
plt.axhline(d2.buy_uv.mean(),color='orange',linestyle='--',label='buy_uv均值')
plt.text(0,d2.buy_uv.mean(),str(round(d2.buy_uv.mean(),1)),fontsize=16)
plt.legend()
plt.subplot(2,2,3)
plt.plot(d2.index.astype(str),d2.人均访问次数,'.-',label='人均访问次数')
plt.axhline(d2.人均访问次数.mean(),linestyle='--',label='人均访问次数均值')
plt.text(0,d2.人均访问次数.mean(),str(round(d2.人均访问次数.mean(),1)),fontsize=16)
plt.plot(d2.index.astype(str),d2.付费率,'.-',label='付费率')
plt.axhline(d2.付费率.mean(),color='orange',linestyle='--',label='付费率均值')
plt.text(0,d2.付费率.mean(),str(round(d2.付费率.mean(),1)),fontsize=16)
plt.legend()
plt.subplot(2,2,4)
plt.plot(d2.index.astype(str),d2.buy_count,'.-',label='buy_count')
plt.axhline(d2.buy_count.mean(),linestyle='--',label='buy_count均值')
plt.text(0,d2.buy_count.mean(),str(round(d2.buy_count.mean(),1)),fontsize=16)
plt.legend(loc='upper center')
plt.twinx()
plt.plot(d2.index.astype(str),d2.人均购买次数,'.-',color='orange',label='人均购买次数')
plt.axhline(d2.人均购买次数.mean(),color='orange',linestyle='--',label='人均购买次数均值')
plt.text(0,d2.人均购买次数.mean(),str(round(d2.人均购买次数.mean(),1)),fontsize=16)
plt.legend()
plt.ylim([0,1])
#plt.savefig('3.png',dpi=150,bbox_inches='tight')

5.4 代码-用户对商品品类的挑选

d3_1 = df[df.behavior_type==1].groupby('item_category').user_id.count().rename('click')
d3_2 = df[df.behavior_type==4].groupby('item_category').user_id.count().rename('buy')
d3 = pd.merge(d3_1,d3_2,how='left',left_index=True,right_index=True).fillna(0)
d3['rate'] = round(d3.buy/d3.click*100,2)
m = d3.sort_values('click',ascending=False).head(20)
n = d3.sort_values('buy',ascending=False).head(20)
mn_i = list(set(m.index.astype(str))&set(n.index.astype(str)))
mn_v = list(m.loc[eval(i),'click'] for i in mn_i)

plt.figure(figsize=(16,10))
plt.suptitle('商品品类Top20(标星的是在点击&购买中都出现的品类)',fontsize=20,color='r',backgroundcolor='yellow')
plt.subplot(2,1,1)
plt.title('点击量Top20的品类\n')
plt.bar(m.index.astype(str),m.click,alpha=0.5,label='点击量')
plt.bar(m.index.astype(str),m.buy,label='购买量')
plt.scatter(mn_i,mn_v,c='r',marker='*',label='标星') #必须放后面，若放前面：前14个柱子都标星，出现错误
plt.legend()
plt.twinx()
plt.plot(m.index.astype(str),m.rate,'g',label='购买率%')
plt.axhline(m.rate.mean(),linestyle='--',label='购买率均值')
plt.legend()
plt.subplot(2,1,2)
plt.title('\n购买量Top20的品类\n')
plt.bar(n.index.astype(str),n.click,alpha=0.5)
plt.bar(n.index.astype(str),n.buy)
plt.scatter(mn_i,mn_v,c='r',marker='*')
plt.twinx()
plt.plot(n.index.astype(str),n.rate,'g',)
plt.axhline(n.rate.mean(),linestyle='--')
#plt.savefig('4.png',dpi=150,bbox_inches='tight')

5.5 代码-用户分类(RFM分析)

print('\033[5;30;43mRFM分析:\033[0m')
print('\033[30;43m1.计算R/F/M值;\n2.根据打分规则,分别计算Score_R/F/M;\033[0m')
print('\033[30;43m3.根据平均值,分别计算Result_R/F/M(得分大于均值标记为2，反之为1);\n4.计算RFM得分,并给客户分类;\033[0m')
Score_dict = {222:'重要价值客户',122:'重要保持客户',212:'重要发展客户',112:'重要挽留客户',\
              221:'一般价值客户',121:'一般保持客户',211:'一般发展客户',111:'一般挽留客户'}

d5_1 = df[df.behavior_type==4].groupby('user_id').agg({'date':'max','item_id':'count'})
d5_1.columns = ['buydate_max','F']
d5_1['R'] = (pd.to_datetime('2014-12-31')-pd.to_datetime(d5_1.buydate_max)).dt.days

d5 = d5_1[['R','F']].reset_index()
#可根据 plt.hist(d5.R,bins=5)和实际意义，来确定labels(也可看看pd.cut/pd.qcut)
d5['Score_R'] = pd.cut(d5.R,bins=15,labels=sorted(list(range(1,16)),reverse=True)).astype(float)
d5['Score_F'] = pd.cut(d5.F,bins=15,labels=list(range(1,16))).astype(float)
d5['Result_R'] = d5.Score_R.apply(lambda x:2 if x>d5.Score_R.mean() else 1)
d5['Result_F'] = d5.Score_F.apply(lambda x:2 if x>d5.Score_F.mean() else 1)
d5['Result_M'] = 2 #原数据没有金额，此处人工标记为2
d5['Score_RFM'] = d5.Result_R*100+d5.Result_F*10+d5.Result_M
d5['客户类型'] = d5.Score_RFM.map(lambda x:Score_dict[x])


print('\033[5;30;43m\n按客户类型汇总:\033[0m')
d6 = d5.groupby('客户类型').agg({'user_id':'count','R':'mean','F':'mean'}).round(2)
d6.columns = ['人数','间隔天数','购买次数']
d6

大家可以关注我的知乎或微信公众号的share16，我们也会同步更新此文章。
谢谢大家

【新人系列】Python 入门（二十七）：Python 库 Pandaconda #Python 新人系列 python 开发语言后端笔记面试 python库库
✍个人博客：https://blog.csdn.net/Newin2020?type=blog专栏地址：https://blog.csdn.net/newin2020/category_12801353.html专栏定位：为0基础刚入门Python的小伙伴提供详细的讲解，也欢迎大佬们一起交流~专栏简介：在这个专栏，我将带着大家从0开始入门Python的学习。在这个Python的新人系列专栏下，将会
python爬取高德地图道路交通状态数据代码 weixin_17839606517 可视化 python 开发语言
"""author:17839606517"""importdatetimeimportdatetimeimportosimportcsvfromcodecsimportStreamReaderWriterimportnumpyasnpimportrequestsimportpandasaspdimportjsonimportcodecsimporttimedefaaa():#初始API的URL#
python雪人_python实现滑雪者小游戏 weixin_39692761 python雪人
引言这是一个用pygame写的滑雪者的游戏。skier从上向下滑，途中会遇到树和旗子，捡起一个旗子得10分，碰到一颗树扣100分，可以用左右箭头控制skier方向。安装pygamepipinstallpygame用pip或设置界面安装，可自行百度以下是主界面代码，每一个类都是一个py文件，需要导包importpygameimportrandomfromsettingsimportSettingsf
华为云开天 aPaaS 平台的流使用体验
Python中的class体内定义方法时，如果没有显式地包含self参数，有时候依然可以被调用。这是一个非常有趣的话题，因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用，我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
逆袭之路（11）——python网络爬虫：原理、应用、风险与应对策略凋零的蓝色玫瑰逆袭之路 php 开发语言 python
困厄铸剑心，逆袭展锋芒。寒苦凝壮志，腾跃绘华章。我要逆袭。目录一、引言二、网络爬虫的基本原理（一）网络请求与响应（二）网页解析（三）爬行策略三、网络爬虫的应用领域（一）搜索引擎（二）数据挖掘与分析（三）金融领域（四）学术研究（五）社交媒体监测四、网络爬虫带来的风险（一）法律风险（二）隐私风险（三）安全风险五、网络爬虫风险的应对策略（一）遵守法律法规（二）加强技术防护（三）提高道德意识六、结论一、引
Python小游戏28——水果忍者虞书欣的C 游戏 pycharm 人工智能小程序开发语言
首先，你需要安装Pygame库。如果你还没有安装，可以使用以下命令进行安装：【bash】pipinstallpygame《水果忍者》游戏代码：【python】importpygameimportrandomimportsys#初始化Pygamepygame.init()#设置屏幕尺寸screen_width=800screen_height=600screen=pygame.display.set
如何用Python爬取网站数据：基础教程与实战大梦百万秋知识学爆 python 开发语言
数据爬取（WebScraping）是从网站中自动获取信息的过程。借助Python强大的库和工具，数据爬取变得非常简单且高效。本文将介绍Python爬取网站数据的基础知识、常用工具，以及一个简单的实战示例，帮助你快速上手网站数据爬取。1.什么是网站数据爬取？网站数据爬取是通过编写程序自动抓取网页内容的技术，通常用于从公开网站中提取特定数据。数据爬取的应用场景非常广泛，包括：收集商品价格和评论数据新闻
python实现滑雪游戏是叶子耶 pygame python 开发语言
游戏逻辑说明初始化：设置游戏窗口、颜色、滑雪者和障碍物的基本属性。绘制窗口：在每一帧中绘制滑雪者、障碍物和当前得分。用户输入：通过键盘的左右箭头控制滑雪者的移动。障碍物生成和移动：随机生成障碍物，并使其向下移动。碰撞检测：检查滑雪者是否与任何障碍物碰撞，若碰撞则结束游戏。得分系统：每一帧增加得分。importpygameimportrandom#初始化pygamepygame.init()#游戏窗
如何抓取社交媒体上的公开用户信息：完整的Python爬虫教程与实战 Python爬虫项目媒体 python 爬虫 selenium 开发语言 ajax
引言社交媒体平台如Twitter、Instagram、Facebook和LinkedIn等，成为了现代社会中获取信息、表达观点、社交互动的主要场所。通过社交媒体，用户分享个人信息、兴趣、活动以及与他人的互动数据，极大地丰富了网络世界的内容。在数据分析、市场研究、舆情监控等领域，抓取社交媒体上的公开用户信息是非常重要的任务。对于很多数据科学家、市场分析师、爬虫开发者来说，如何高效地抓取社交媒体平台的
基于Python的股市数据爬取与分析：从实时行情到历史数据的完整教程 Python爬虫项目 2025年爬虫实战项目 python 数据挖掘开发语言爬虫 oracle 人工智能
引言股市投资是一项具有高度风险和回报的活动，实时行情和历史数据的获取是股市分析和决策的基础。随着数据科学和爬虫技术的迅速发展，许多投资者和分析师通过编写Python爬虫来获取股市数据，进行数据分析、技术分析和预测。无论是获取实时股市行情，还是分析股票的历史数据，Python都能为我们提供强大的工具支持。本篇博客将为你提供一个完整的股市数据爬取与分析教程，介绍如何利用Python爬虫获取实时股市行情
Python爬虫教程：抓取区块链交易信息及加密货币市场数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫区块链开发语言人工智能网络爬虫
前言随着区块链技术和加密货币的迅猛发展，区块链交易和加密货币市场的数据逐渐成为金融、技术、经济研究等领域的热点。对于开发者和研究者而言，实时获取区块链交易数据和加密货币市场行情，对于投资分析、市场预测、技术研究等具有重要的参考价值。本文将通过Python爬虫技术，介绍如何抓取区块链交易信息及加密货币市场数据，详细阐述数据获取的原理、技术方案、实现方法以及抓取到的数据的存储与分析。我们将依托最新的爬
Python 爬虫：商品价格监控与波动分析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 ide 网络爬虫
随着电子商务的迅猛发展，商品价格的监控和波动分析在各类应用中具有重要价值。通过爬取电商平台的商品价格数据，我们不仅可以分析商品的价格趋势，还可以预测未来的价格波动，并为定价、促销策略提供数据支持。本文将详细介绍如何利用Python编写爬虫，抓取商品价格数据，并进行价格波动分析。目录1.爬虫概述与技术选型2.环境配置与依赖库安装3.目标平台与数据抓取3.1获取商品价格示例：抓取京东商品价格3.2抓取
python爬虫短视频平台数据抓取：抓取视频和评论 Python爬虫项目 2025年爬虫实战项目 python 爬虫音视频网络爬虫开发语言
随着短视频平台如抖音、快手、TikTok等的兴起，越来越多的内容创作者和观众通过短视频平台分享和观看视频内容。短视频平台包含了丰富的数据，如视频内容、评论、点赞数、分享数等，这些数据对市场分析、用户行为分析、视频推荐算法等方面具有重要意义。抓取这些数据可以帮助我们获取平台的动态信息，为数据分析提供基础。本文将详细介绍如何使用Python编写爬虫抓取短视频平台上的视频和评论数据，包括技术栈选择、爬虫
Python 常用基础模块（三）：os.path模块 Amo Xiang Python3高级核心技术 python 开发语言
目录一、os.path模块介绍二、常用方法2.1exists()方法——判断路径是否存在(准确)2.2isdir()方法——判断是否为目录2.3isabs()方法——判断是否为绝对路径2.4isf ile()方法——判断是否为普通文件2.5join()方法——拼接路径2.6abspath()方法——获取绝对路径2.7basename()方法——从一个路径中提取文件名2.8dirname()方法——
Python字典实战：打造高效学生成绩管理系统清水白石008 python Python题库 python 开发语言
Python字典实战：打造高效学生成绩管理系统在日常学习和工作中，我们经常需要管理和查询数据。Python的字典（Dictionary）是一种非常强大的数据结构，它以键值对（key-valuepairs）的形式存储数据，能够实现高效的数据检索。本文将以创建一个学生成绩管理系统为例，深入讲解如何使用Python字典存储学生姓名和成绩信息，并实现根据姓名查找成绩的功能。本文旨在提供实用性强、内容丰富、
python系列：Python删除文件夹以及文件夹下所有文件坦笑&&life #python python java linux
Python删除文件夹以及文件夹下所有文件Python删除文件夹下所有文件python删除文件夹下的文件Python删除文件夹下的文件方法一：使用os模块方法二：使用shutil模块总结Python删除文件夹下所有文件在Python中，您可以使用os模块来删除文件夹下的所有文件，但保留文件夹本身。以下是一个简单的例子：importosdefdelete_files_in_folder(folder
python使用Flask框架创建一个简单的动态日历镜花照无眠 #Python python flask 开发语言
0.运行效果运行代码，然后在浏览器中访问http://127.0.0.1:5000/，将看到一个动态日历，能够通过点击按钮切换月份。1.安装Flask首先，确保你已经安装了Flask。如果没有，可以使用以下命令安装：pipinstallFlask测试：fromflaskimportFlask#fromflaskimportFlask,render_template,requestapp=Flask
材料力学仿真软件：MSC Nastran_（15）.案例研究与实践 kkchenjj 材料力学仿真服务器运维开发语言材料力学仿真模拟性能优化
案例研究与实践在这一节中，我们将通过具体的案例研究和实践来深入理解如何在材料力学仿真软件中进行二次开发。我们将探讨如何使用Python脚本与MSCNastran进行交互，如何优化仿真模型，以及如何处理仿真结果。每个案例都将提供详细的操作步骤和代码示例，以帮助读者更好地掌握这些技术。1.使用Python脚本自动化模型生成1.1.案例背景在实际工程中，往往需要生成大量的仿真模型。手动创建这些模型不仅耗
python 将doc转换docx 代码李姝瑶 python 开发语言
使用Python将.doc文件转换为.docx文件，可以使用python-docx库。代码如下：#安装python-docx库!pipinstallpython-docx#导入库importosimportdocx#获取文件路径file_path="/path/to/file.doc"#打开.doc文件doc=docx.opendocx(file_path)#将.doc文件保存为.docx文件do
pythonsvm模型优化_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39878698 pythonsvm模型优化
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。(用遗传算法也可以，下面会给出效果比较)首先简单回顾一下Python高性能实用型遗传和进化算
python 删除文件-python实现删除文件与目录的方法 weixin_39876282
本文实例讲述了python实现删除文件与目录的方法。分享给大家供大家参考。具体实现方法如下：os.remove(path)删除文件path.如果path是一个目录，抛出OSError错误。如果要删除目录，请使用rmdir().remove()同unlink()的功能是一样的在Windows系统中，删除一个正在使用的文件，将抛出异常。在Unix中，目录表中的记录被删除，但文件的存储还在。os.rem
python 删除文件、目录_python删除文件和删除目录的方法 weixin_39778214 python 删除文件目录
下面来看一下python里面是如何删除一个文件及文件夹的~~首先引入OS模块importos删除文件：os.remove()删除空目录：os.rmdir()递归删除空目录：os.removedirs()递归删除目录和文件（类似DOS命令DeleteTree）：方法1：#Deleteeverythingreachablefromthedirectorynamedin'top',#assumingth
差分进化算法_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39747075 差分进化算法
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。（用遗传算法也可以，下面会给出效果比较）首先简单回顾一下Python高性能实用型遗传和进化算
高可用架构-CAP理论 weixin_33939843
2019独角兽企业重金招聘Python工程师标准>>>整理自:《从零开始学架构》李运华著转载于:https://my.oschina.net/grace233/blog/2236736
如何使用 Python 和 Selenium WebDriver 获取 localStorage 潮易 python selenium 开发语言
如何使用Python和SeleniumWebDriver获取localStorage要使用Python和SeleniumWebDriver获取localStorage，您可以遵循以下步骤：###1.安装必要的库首先，您需要安装selenium库。可以通过pip进行安装：```bashpipinstallselenium```###2.下载WebDriver根据您的浏览器类型（如Chrome、Fir
如何在BlogSpot中一次上传多篇博客文章？潮易 python
如何在BlogSpot中一次上传多篇博客文章？在BlogSpot中一次性上传多篇博客文章的方法是使用API来批量上传文章。以下是详细的步骤和代码示例：1.首先，你需要从GoogleDevelopersConsole创建一个项目并启用BloggerAPI。2.然后，你需要在你的项目中添加BloggerAPI的客户端库，例如使用Python的`google-api-python-client`库。3.
使用迭代工具返回连续负数的最长列表。groupby 潮易 python
使用迭代工具返回连续负数的最长列表。groupby要使用Python编程解决这个问题，我们可以采用迭代和条件判断的方法。以下是一个简单的实现方法：```pythondeflongest_negatives(nums):max_length=0current_length=0start=-1foriinrange(len(nums)):ifnums[i]<0:ifcurrent_length==0:
Python服务器“通常只允许每个套接字地址使用一次“ 潮易 python 服务器开发语言
Python服务器“通常只允许每个套接字地址使用一次"在Python中，如果你遇到“通常只允许每个套接字地址使用一次”的错误，通常是因为你尝试在同一端口上启动了多个服务器实例。这可能会导致一个端口被占用了，而另一个进程无法再使用该端口监听新的连接请求。解决这个问题，你可以采取以下步骤：1.确认你的服务器是否已经正确关闭，或者如果可能的话，尝试将端口强制释放。2.如果你是在本地开发环境中遇到了这个错
将十六进制转换为浮点数潮易 mongodb
将十六进制转换为浮点数的Python程序可以从以下几种方法实现：1.使用内置函数`float()`直接转换：```python#将十六进制字符串转换为浮点数hex_str='1.23e-03'#这是一个十六进制形式的浮点数，需要先转换为十进制形式decimal_str=hex_str.replace('p','E')#将科学计数法中的'p'替换为'E'，以便于转换为十进制float_number=
Python批量转换doc为docx格式测试开发K 日常工作 python 开发语言
札记：对于IT从业人员会经常接触到各种文件，其中Word文档是最常见之一，它分为.doc和.docx两种格式。通过Python操作Word文档的第三方库有python-docx和pywin32，python-docx只能处理.docx格式的文件，至于.doc格式文件，可调用pywin32库直接操作，但效果不好，可能出现莫名的报错或读写缺失等情况。一．解决思路翻阅网上各种解决办法，其中最为简单的处理
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

Python项目实战 —— 04. 淘宝用户行为分析

Python项目实战

Python项目实战 —— 04. 淘宝用户行为分析

一、背景

二、解题思路

三、数据分析

3.1 数据清洗

3.2 数据分析

3.2.1 用户整体行为分析

3.2.2 用户每日行为分析

3.2.3 用户每时行为分析

3.2.4 用户对商品品类的挑选分析

3.2.5 漏斗分析

3.2.6 用户分类(RFM分析)

四、建议

五、代码

5.1 代码-用户整体行为

5.2 代码-用户每日行为

5.3 代码-用户每时行为

5.4 代码-用户对商品品类的挑选

5.5 代码-用户分类(RFM分析)

你可能感兴趣的:(项目实战,python)