Yph_Jerry

实战3-淘宝用户行为分析及可视化

淘宝用户行为分析及可视化

淘宝用户行为分析及可视化
- 分析背景
- 明确问题
- 读取和理解数据
- 数据预处理
- 数据分析与可视化
- - 用户行为分析
  - - 日PV和日UV
    - PV与UV相关性
    - 可视化
  - 时PV和时UV
  - - 相关性
    - 可视化
  - 不同行为类型用户PV分析
  - 操作行为分析
  - - 操作行为情况
    - 操作行为可视化
  - 用户消费行为分析
  - - 日ARPU和日ARPPU
  - 用户购买次数情况分析
  - 每天平均消费次数
  - 付费率
  - 同一时间段用户消费次数分布
  - 复购行为分析
  - - 月复购率
  - 留存率
  - 漏斗流失分析
  - 二八理论分析淘宝商品
  - 用户细分（RFM）
  - 计算R
  - 计算F
  - 给予指标
  - 用户分类
  - 统计不同类型用户结果及可视化
- 结论与建议

分析背景

对淘宝2014年11月18至12月18日用户行为进行分析,该数据集包含了1200+万行，数据字段详解：
- user_id: 用户ID
- item_id: 商品ID
- behavior_type: 用户操作行为。1-点击，2-收藏，3-加入购物车，4-支付
- user_geohash: 用户地理位置（经过脱敏处理）
- item_category: 品类ID，商品所属种类
- time: 操作时间
数据来源：https://tianchi.aliyun.com/dataset/dataDetail?dataId=46
旨在针对电商用户行为进行分析

明确问题

了解淘宝的日浏览量和日独立用户数
淘宝用户的消费及复购行为
淘宝平台各种用户行为之间的转化率
留存率分析
利用二八理论分析淘宝主要商品的价值
建立RFM模型对用户进行分类

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pyecharts.charts import Bar, Funnel
from pyecharts import options as opts

# 解决suptitle报警问题
# import matplotlib
# matplotlib.use("TkAgg")

# 设置主题
plt.style.use('ggplot')

# 解决中文字符显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

读取和理解数据

data = pd.read_csv('tianchi_mobile_recommend_train_user.csv', dtype=str, encoding='utf-8')

data.info()


RangeIndex: 12256906 entries, 0 to 12256905
Data columns (total 6 columns):
 #   Column         Dtype 
---  ------         ----- 
 0   user_id        object
 1   item_id        object
 2   behavior_type  object
 3   user_geohash   object
 4   item_category  object
 5   time           object
dtypes: object(6)
memory usage: 561.1+ MB

data.head()

	user_id	item_id	behavior_type	user_geohash	item_category	time
0	98047837	232431562	1	NaN	4245	2014-12-06 02
1	97726136	383583590	1	NaN	5894	2014-12-09 20
2	98607707	64749712	1	NaN	2883	2014-12-18 11
3	98662432	320593836	1	96nn52n	6562	2014-12-06 10
4	98145908	290208520	1	NaN	13926	2014-12-16 21

数据预处理

# 统计缺失值
data.apply(lambda x: sum(x.isnull()))

user_id                0
item_id                0
behavior_type          0
user_geohash     8334824
item_category          0
time                   0
dtype: int64

# 统计缺失率
data.apply(lambda x: sum(x.isnull()) / len(x))

user_id          0.00000
item_id          0.00000
behavior_type    0.00000
user_geohash     0.68001
item_category    0.00000
time             0.00000
dtype: float64

# 分割日期,转换形式
data['date'] = data['time'].str[:-3]
data['hour'] = data['time'].str[-2:].astype(int)
data['date'] = pd.to_datetime(data['date'])
data['time'] = pd.to_datetime(data['time'])

data.head()

	user_id	item_id	behavior_type	user_geohash	item_category	time	date	hour
0	98047837	232431562	1	NaN	4245	2014-12-06 02:00:00	2014-12-06	2
1	97726136	383583590	1	NaN	5894	2014-12-09 20:00:00	2014-12-09	20
2	98607707	64749712	1	NaN	2883	2014-12-18 11:00:00	2014-12-18	11
3	98662432	320593836	1	96nn52n	6562	2014-12-06 10:00:00	2014-12-06	10
4	98145908	290208520	1	NaN	13926	2014-12-16 21:00:00	2014-12-16	21

data.dtypes

user_id                  object
item_id                  object
behavior_type            object
user_geohash             object
item_category            object
time             datetime64[ns]
date             datetime64[ns]
hour                      int32
dtype: object

data.sort_values(by='time', ascending=True, inplace=True)
data.reset_index(drop=True, inplace=True)

data.head()

	user_id	item_id	behavior_type	user_geohash	item_category	time	date
0	73462715	378485233	1	NaN	9130	2014-11-18	2014-11-18
1	36090137	236748115	1	NaN	10523	2014-11-18	2014-11-18
2	40459733	155218177	1	NaN	8561	2014-11-18	2014-11-18
3	814199	149808524	1	NaN	9053	2014-11-18	2014-11-18
4	113309982	5730861	1	NaN	3783	2014-11-18	2014-11-18

# 对字符型数据进行统计，describe()理解include参数
data.describe(include=['object'])

	user_id	item_id	behavior_type	user_geohash	item_category
count	12256906	12256906	12256906	3922082	12256906
unique	10000	2876947	4	575458	8916
top	36233277	112921337	1	94ek6ke	1863
freq	31030	1445	11550581	1052	393247

数据分析与可视化

用户行为分析

日PV和日UV

pv_daily = data.groupby('date').count()[['user_id']].rename(columns={'user_id':'pv'})
pv_daily.head()

	pv
date
2014-11-18	366701
2014-11-19	358823
2014-11-20	353429
2014-11-21	333104
2014-11-22	361355

# 每日独立访客量
uv_daily = data.groupby('date')[['user_id']].apply(lambda x: x.drop_duplicates().count()).rename(columns={'user_id':'uv'})
uv_daily.head()

	uv
date
2014-11-18	6343
2014-11-19	6420
2014-11-20	6333
2014-11-21	6276
2014-11-22	6187

# 合并
pv_uv_daily = pd.concat([pv_daily, uv_daily], axis=1)
pv_uv_daily.head()

	pv	uv
date
2014-11-18	366701	6343
2014-11-19	358823	6420
2014-11-20	353429	6333
2014-11-21	333104	6276
2014-11-22	361355	6187

PV与UV相关性

# pv与uv的相关性，method可以是相关性{spearman、pearson（默认）} 非相关性{kendall}
pv_uv_daily.corr(method='pearson')

	pv	uv
pv	1.000000	0.920602
uv	0.920602	1.000000

可视化

plt.figure(figsize=(9, 9), dpi=70)
plt.subplot(211)
plt.plot(pv_daily, color='red')
plt.title('每日访问量', pad=10)
plt.xticks(rotation=45)
plt.grid(b=False)
plt.subplot(212)
plt.plot(uv_daily, color='green')
plt.title('每日访问用户数', pad=10)
plt.xticks(rotation=45)
plt.suptitle('PV和UV变化趋势', fontsize=20)
plt.subplots_adjust(hspace=0.5)
plt.grid(b=False)
plt.show()

时PV和时UV

pv_hour = data.groupby('hour').count()[['user_id']].rename(columns={'user_id':'pv'})
uv_hour = data.groupby('hour')[['user_id']].apply(lambda x: x.drop_duplicates().count()).rename(columns={'user_id':'uv'})
pv_uv_hour = pd.concat([pv_hour, uv_hour], axis=1)
pv_uv_hour.head()

	pv	uv
hour
0	517404	5786
1	267682	3780
2	147090	2532
3	98516	1937
4	80487	1765

	pv	uv
pv	1.000000	0.903478
uv	0.903478	1.000000

可视化

fig = plt.figure(figsize=(9, 7), dpi=70)
fig.suptitle('PV和UV变化趋势', y=0.93, fontsize=18)
ax1 = fig.add_subplot(111)
ax1.plot(pv_hour, color='blue', label='每小时访问量')
ax1.set_xticks(list(np.arange(0,24)))
ax1.legend(loc='upper center', fontsize=12)
ax1.set_ylabel('访问量')
ax1.set_xlabel('小时')
ax1.grid(False)
ax2 = ax1.twinx()
ax2.plot(uv_hour, color='red', label='每小时访问用户数')
ax2.legend(loc='upper left', fontsize=12)
ax2.set_ylabel('访问用户数')
ax2.grid(False)
fig.show()

D:\ProgramData\Anaconda3\lib\site-packages\ipykernel_launcher.py:15: UserWarning: Matplotlib is currently using module://ipykernel.pylab.backend_inline, which is a non-GUI backend, so cannot show the figure.
  from ipykernel import kernelapp as app

不同行为类型用户PV分析

# data.groupby(['date', 'behavior_type'])[['user_id']].count().reset_index().rename(columns={'user_id':'pv'})
diff_behavior_pv = data.pivot_table(columns='behavior_type', index='date', values='user_id', aggfunc='count').rename(columns={'1':'click', '2':'collect', '3':'addToCart', '4':'pay'}).reset_index()

diff_behavior_pv.describe()

behavior_type	click	collect	addToCart	pay
count	31.000000	31.000000	31.000000	31.000000
mean	372599.387097	7824.387097	11082.709677	3877.580645
std	56714.877753	805.827222	2773.952718	2121.877671
min	314572.000000	6484.000000	8679.000000	3021.000000
25%	344991.000000	7285.500000	10058.500000	3333.000000
50%	364097.000000	7702.000000	10256.000000	3483.000000
75%	378031.500000	8279.500000	11277.500000	3678.000000
max	641507.000000	10446.000000	24508.000000	15251.000000

diff_behavior_pv.head()

behavior_type	date	click	collect	addToCart	pay
0	2014-11-18	345855	6904	10212	3730
1	2014-11-19	337870	7152	10115	3686
2	2014-11-20	332792	7167	10008	3462
3	2014-11-21	314572	6832	8679	3021
4	2014-11-22	340563	7252	9970	3570

bar_width=0.2
xticklabels = ['7-%d' % i for i in list(np.arange(18,31))] + ['8-%d' % i for i in list(np.arange(1, 24))]

plt.figure(figsize=(20, 9))
plt.bar(diff_behavior_pv.index-2*bar_width, diff_behavior_pv.click, width=bar_width, label='click')
plt.bar(diff_behavior_pv.index-bar_width, diff_behavior_pv.collect, bottom=0, width=bar_width, color='', alpha=0.5, label='collect')
plt.bar(diff_behavior_pv.index, diff_behavior_pv.addToCart, bottom=0, width=bar_width, color='black', label='toCart')
plt.bar(diff_behavior_pv.index+bar_width, diff_behavior_pv.pay, bottom=0, width=bar_width, color='blue',  label='pay')
plt.yscale('log')
plt.yticks(fontsize=20)
plt.xticks(ticks=list(np.arange(0, 37, 3)), labels=xticklabels[::3], rotation=45, fontsize=20)
plt.xlabel('日期', fontsize=22)
plt.ylabel('浏览量', fontsize=22)
plt.title('每天不同行为类型用户PV情况', fontsize=36)
plt.legend(loc='best', fontsize=18)
plt.grid(False)
plt.savefig('每天不同行为类型用户PV情况.png', quality=95, dpi=70)
plt.show()

结论：

操作行为分析

操作行为情况

pv_detatil = data.pivot_table(columns='behavior_type', index='hour', values='user_id', aggfunc=np.size)
pv_detatil.rename(columns={'1':'click', '2':'collect', '3':'addToCart', '4':'pay'}, inplace=True)
pv_detatil.head()

behavior_type	click	collect	addToCart	pay
hour
0	487341	11062	14156	4845
1	252991	6276	6712	1703
2	139139	3311	3834	806
3	93250	2282	2480	504
4	75832	2010	2248	397

操作行为可视化

for i in pv_detatil.columns.tolist()[1:]:
    plt.plot(pv_detatil[i], label=i)
plt.legend(loc='best', fontsize=12)
plt.title('访问行为情况', fontsize=18)
plt.xticks(list(np.arange(0, 24)))
plt.xlabel('小时')
plt.ylabel('数量')
plt.grid()
plt.show()

data_user_buy = data[data.behavior_type == '4'].groupby('user_id').size()
data_user_buy.head()

user_id
100001878    36
100011562     3
100012968    15
100014060    24
100024529    26
dtype: int64

click_times = data[data.behavior_type == '1'].groupby('user_id').size()
collect_times = data[data.behavior_type == '2'].groupby('user_id').size()
addToCart_times = data[data.behavior_type == '3'].groupby('user_id').size()
pay_times = data[data.behavior_type == '4'].groupby('user_id').size()
user_behavior = pd.concat([click_times, collect_times, addToCart_times, pay_times], axis=1)
user_behavior.columns= ['click', 'collect', 'addToCart','pay']
user_behavior.fillna(0, inplace=True)
user_behavior['pay_per_click'] = round(user_behavior['click'] / user_behavior['pay'], 1)
user_behavior.head()

	click	collect	addToCart	pay	pay_per_click
100001878	2532	0.0	200.0	36.0	70.3
100011562	423	2.0	9.0	3.0	141.0
100012968	367	0.0	6.0	15.0	24.5
100014060	979	2.0	50.0	24.0	40.8
100024529	1121	1.0	81.0	26.0	43.1

user_behavior.describe()

	click	collect	addToCart	pay	pay_per_click
count	10000.000000	10000.000000	10000.000000	10000.000000	10000.000
mean	1155.058100	24.255600	34.356400	12.020500	inf
std	1430.052774	73.900635	63.889429	19.050621	NaN
min	1.000000	0.000000	0.000000	0.000000	2.000
25%	297.000000	0.000000	2.000000	2.000000	51.200
50%	703.000000	2.000000	12.000000	7.000000	101.800
75%	1461.000000	18.000000	39.000000	15.000000	247.125
max	27720.000000	2935.000000	1810.000000	809.000000	inf

plt.hist(user_behavior[(user_behavior.pay_per_click < 800) & (user_behavior.pay_per_click >=0)].pay_per_click, bins=30)
plt.show()

# 相关性
user_behavior.corr(method='spearman').iloc[3:4, :3]

	click	collect	addToCart
pay	0.624926	0.347776	0.659073

用户消费行为分析

日ARPU和日ARPPU

# 每日活跃用户数
active_user_daily = data.groupby('date')[['user_id']].apply(lambda x: x.drop_duplicates().count())
active_user_daily.head()

	user_id
date
2014-11-18	6343
2014-11-19	6420
2014-11-20	6333
2014-11-21	6276
2014-11-22	6187

# 每日付费用户数
pay_user_daily = data[data.behavior_type == '4'].groupby('date')[['user_id']].apply(lambda x: x.drop_duplicates().count())
pay_user_daily.head()

	user_id
date
2014-11-18	1539
2014-11-19	1511
2014-11-20	1492
2014-11-21	1330
2014-11-22	1411

# 合并
consume_daily = pd.concat([active_user_daily, pay_user_daily], axis=1)
# 重新命名字段
consume_daily.columns= ['activeUserDaily', 'payUserDaily']
# 由于数据中没有给用户消费金额，设每日每位用户消费为500
consume_daily['totalIncome'] = 500
# 计算ARPU
consume_daily['ARPU'] = round(consume_daily['totalIncome'] * consume_daily['payUserDaily'] / consume_daily['activeUserDaily'], 3)
# 计算ARPPU
consume_daily['ARPPU'] = round(consume_daily['totalIncome'] * consume_daily['payUserDaily'] / consume_daily['payUserDaily'])
consume_daily.head()

	activeUserDaily	payUserDaily	totalIncome	ARPU	ARPPU
date
2014-11-18	6343	1539	500	121.315	500.0
2014-11-19	6420	1511	500	117.679	500.0
2014-11-20	6333	1492	500	117.796	500.0
2014-11-21	6276	1330	500	105.959	500.0
2014-11-22	6187	1411	500	114.029	500.0

fig=plt.figure(figsize=(12, 8), dpi=100)
fig.suptitle('日用户消费行为', fontsize=20)
ax1 = fig.add_subplot(111)
ax1.plot(consume_daily['ARPU'],'ro-', label='日ARPU')
ax1.grid()
ax1.set_yticklabels(labels=list(np.arange(100, 300, 20)), fontsize=14)
ax1.set_ylabel('ARPU',fontsize=16)
ax1.legend(fontsize=14)
ax1.set_xlabel('日期', fontsize=16)
ax2 = ax1.twinx()
ax2.plot(consume_daily['ARPPU'], 'b-', label='日ARPPU')
ax2.legend(loc='upper left', fontsize=14)
ax2.set_yticklabels(labels=list(np.arange(470, 600, 10)), fontsize=14)
ax2.set_ylabel('ARPPU',fontsize=16)
fig.savefig('用户日消费行为.png', dpi=70, quality=95)
fig.show()

D:\ProgramData\Anaconda3\lib\site-packages\ipykernel_launcher.py:16: UserWarning: Matplotlib is currently using module://ipykernel.pylab.backend_inline, which is a non-GUI backend, so cannot show the figure.
  app.launch_new_instance()

用户购买次数情况分析

data['operation'] = 1
customer_operation = data.groupby(['date', 'user_id', 'behavior_type'])[['operation']].count()
customer_operation.reset_index(level=['date', 'user_id', 'behavior_type'], inplace=True)

customer_operation.head()

	date	user_id	behavior_type	operation
0	2014-11-18	100001878	1	127
1	2014-11-18	100001878	3	8
2	2014-11-18	100001878	4	1
3	2014-11-18	100014060	1	23
4	2014-11-18	100014060	3	2

customer_operation[customer_operation.behavior_type == '4']['operation'].describe()

count    49201.000000
mean         2.443141
std          3.307288
min          1.000000
25%          1.000000
50%          1.000000
75%          3.000000
max        185.000000
Name: operation, dtype: float64

# 购买次数超过50次的用户数
customer_operation[(customer_operation.behavior_type == '4') & (customer_operation.operation > 50)].count()['user_id']

plt.hist(customer_operation[(customer_operation.behavior_type == '4') & (customer_operation.operation < 50)].operation, bins=10)
plt.show()

每天平均消费次数

customer_operation.groupby('date').apply(lambda x: x[x.behavior_type == '4'].operation.sum() / len(x.user_id.unique())).plot()

付费率

公式

$\frac{UV(独立用户数)}{APA(活跃付费账号)}$

customer_operation.groupby('date').apply(lambda x: x[x.behavior_type == '4'].operation.count() / len(x.user_id.unique())).plot()

同一时间段用户消费次数分布

customer_hour_operation  = data[data.behavior_type == '4'].groupby(['user_id', 'date', 'hour',])[['operation']].sum()
customer_hour_operation.reset_index(level=['user_id', 'date', 'hour'], inplace=True)
customer_hour_operation.head()

	user_id	date	hour	operation
0	100001878	2014-11-18	20	1
1	100001878	2014-11-24	20	3
2	100001878	2014-11-25	13	2
3	100001878	2014-11-26	16	2
4	100001878	2014-11-26	21	1

customer_hour_operation.operation.max()

plt.scatter(customer_hour_operation.hour, customer_hour_operation.operation)
plt.xlabel('hour', fontsize=14)
plt.ylabel('buy times', fontsize=14)
plt.show()

复购行为分析

月复购率

按笔数（同一天超过一次）
按周期（同一天购买多次算一次）

# 按周期
data_rebuy = data[data.behavior_type == '4'].groupby('user_id')['date'].apply(lambda x: len(x.unique()))

data_rebuy[:5]

user_id
100001878    15
100011562     3
100012968    11
100014060    12
100024529     9
Name: date, dtype: int64

# 复购率
data_rebuy[data_rebuy >= 2].count() / data_rebuy.count()

0.8717083051991897

data_day_buy = data[data.behavior_type == '4'].groupby(['user_id']).date.apply(lambda x: x.sort_values()).diff(1).dropna().map(lambda x: x.days)

data_day_buy.head()

user_id           
100001878  2439076    6
           2439090    0
           2440428    0
           2660355    1
           2672617    0
Name: date, dtype: int64

留存率

from datetime import datetime 
day_user = {}
for dt in set(data.date.dt.strftime('%Y%m%d').values.tolist()):
    user = list(set(data[data.date == datetime(int(dt[:4]),int(dt[4:6]),int(dt[6:]))]['user_id'].values.tolist()))
    day_user.update({dt:user})

# 由于字典是无序的，需按日期排序
day_user = sorted(day_user.items(), key=lambda x:x[0], reverse=False)

# 计算每日新增用户
a = {}
t = set(day_user[0][1])
a.update({'20141118':t})
for i in day_user[1:]:
    j = (set(i[1]) - t)
    a.update({i[0]:j})
    t = t | set(i[1])

# 目的是为了和day_user类型一样
a = sorted(a.items(), key=lambda x:x[0], reverse=False)

# 计算留存
retention = {}
ls = []
for i, k in enumerate(a):
    ls.append(len(k[1]))
    for j in day_user[i+1:]:
        li = len(set(k[1]) & set(j[1]))
        ls.append(li)
    retention.update({k[0]: ls})
    ls = []

# 目的是为了和day_user类型一样
retention = sorted(retention.items(), key=lambda x:x[0], reverse=False)

re = {}
for i in retention[:16]:    
    re.update({i[0]: i[1][:15]})

retention = pd.DataFrame(re)

retention =  retention.T
retention.drop([8,9,11,12,13], axis=1, inplace=True)
retention.columns = ['新增用户', '次日留存', '2日留存','3日留存', '4日留存','5日留存', '6日留存', '7日留存', '10日留存','14日留存']

div = retention.columns.tolist()[:-1]
for i, dived in enumerate(retention.columns.tolist()[1:]):
    retention['{}率'.format(dived)] = round(retention[dived] / retention['新增用户'], 3)

cols=['新增用户','次日留存','次日留存率','2日留存','2日留存率','3日留存','3日留存率','4日留存','4日留存率','5日留存','5日留存率','6日留存','6日留存率','7日留存','7日留存率','10日留存','10日留存率','14日留存','14日留存率']
retention = retention[cols]
retention.sort_index(inplace=True)

retention.head()

	新增用户	次日留存	次日留存率	2日留存	2日留存率	3日留存	3日留存率	4日留存	4日留存率	5日留存	5日留存率	6日留存	6日留存率	7日留存	7日留存率	10日留存	10日留存率	14日留存	14日留存率
20141118	6343	5137	0.810	5000	0.788	4861	0.766	4763	0.751	4810	0.758	4916	0.775	4792	0.755	4627	0.729	4806	0.758
20141119	1283	783	0.610	770	0.600	736	0.574	769	0.599	777	0.606	758	0.591	746	0.581	709	0.553	757	0.590
20141120	550	305	0.555	274	0.498	298	0.542	295	0.536	286	0.520	299	0.544	306	0.556	310	0.564	290	0.527
20141121	340	164	0.482	176	0.518	178	0.524	158	0.465	172	0.506	174	0.512	160	0.471	182	0.535	170	0.500
20141122	250	122	0.488	110	0.440	95	0.380	93	0.372	105	0.420	105	0.420	106	0.424	113	0.452	123	0.492

retention.index.str[-4:]

Index(['1118', '1119', '1120', '1121', '1122', '1123', '1124', '1125', '1126',
       '1127', '1128', '1129', '1130', '1201', '1202', '1203'],
      dtype='object')

plt.figure(figsize=(16, 9), dpi=90)
x = [i[:2] + '-' + i[2:] for i in retention.index.str[-4:].tolist()]
y1 = retention['次日留存率']
y2 = retention['3日留存率']
y3 = retention['7日留存率']
y4 = retention['10日留存率']
y5 = retention['14日留存率']

plt.plot(x, y1, 'ro-', label='次日留存率')
plt.plot(x, y2, 'bo-', label='3日留存率')
plt.plot(x, y3, 'yo--', label='5日留存率')
plt.plot(x, y4, 'gd-', label='7日留存率')
plt.plot(x, y1, 'rd-', label='10日留存率')
plt.plot(x, y5, 'cd--', label='14日留存率')

plt.legend(loc='best')
plt.title('14天内用户留存率情况', fontsize=30)
plt.xlabel('日期', fontsize=20)
plt.ylabel('留存率', fontsize=20)
plt.show()

漏斗流失分析

data_user_count = data.groupby('behavior_type').size()
data_user_count

behavior_type
1    11550581
2      242556
3      343564
4      120205
dtype: int64

pv_all = data.user_id.count()
pv_all

12256906

pv_click = (pv_all - data_user_count[0]) / pv_all
click_cart = 1 - (data_user_count[0] - data_user_count[2]) / data_user_count[0]
cart_collect = 1 - (data_user_count[2] - data_user_count[1]) / data_user_count[2]
collect_pay = 1 - (data_user_count[1] - data_user_count[3]) / data_user_count[1]
cart_pay = 1 - (data_user_count[2] - data_user_count[3]) / data_user_count[2]

change_rate = pd.DataFrame({'计数': [pv_all, data_user_count[0], data_user_count[2], data_user_count[3]],\
                            '单一转化率':[1, pv_click, click_cart, cart_pay]}, index=['浏览', '点击', '加入购物车', '支付'])
change_rate['总体转化率'] = change_rate['计数'] / pv_all
change_rate

	计数	单一转化率	总体转化率
浏览	12256906	1.000000	1.000000
点击	11550581	0.057627	0.942373
加入购物车	343564	0.029744	0.028030
支付	120205	0.349877	0.009807

二八理论分析淘宝商品

goods_category = data[data.behavior_type == '4'].groupby('item_category')[['user_id']].count().rename(columns={'user_id':'购买量'}).sort_values(by='购买量', ascending=False)
goods_category['累计购买量'] = goods_category.cumsum()
goods_category['占比'] = goods_category['累计购买量'] / goods_category['购买量'].sum()
goods_category['分类'] = np.where(goods_category['占比'] <= 0.80, '产值前80%', '产值后20%') 
goods_pareto = goods_category.groupby('分类')[['购买量']].count().rename(columns={'购买量':'商品数'})
goods_pareto['商品数占比'] = round(goods_pareto['商品数'] / goods_pareto['商品数'].sum(), 3)
goods_pareto

	商品数	商品数占比
分类
产值前80%	726	0.156
产值后20%	3939	0.844

用户细分（RFM）

计算R

from datetime import datetime
recent_user_buy = data[data.behavior_type == '4'].groupby('user_id')['date'].apply(lambda x: datetime(2014, 12, 20)-x.sort_values().iloc[-1])
recent_user_buy = recent_user_buy.reset_index()
recent_user_buy.columns = ['user_id', 'recent']
recent_user_buy.recent = recent_user_buy.recent.map(lambda x: x.days)

recent_user_buy.head()

	user_id	recent
0	100001878	2
1	100011562	4
2	100012968	2
3	100014060	2
4	100024529	4

计算F

buy_freq = data[data.behavior_type == '4'].groupby('user_id').date.count()
buy_freq = buy_freq.reset_index().rename(columns={'date': 'freq'})
buy_freq.head()

	user_id	freq
0	100001878	36
1	100011562	3
2	100012968	15
3	100014060	24
4	100024529	26

rfm = pd.merge(recent_user_buy, buy_freq, right_on='user_id', left_on='user_id')
rfm.head()

	user_id	recent	freq
0	100001878	2	36
1	100011562	4	3
2	100012968	2	15
3	100014060	2	24
4	100024529	4	26

给予指标

rfm['R_value'] = pd.qcut(rfm.recent, 2, labels=['高', '低'])
rfm['F_value'] = pd.qcut(rfm.freq, 2, labels=['低', '高'])
rfm['rf'] = rfm['R_value'].str.cat(rfm.F_value)

rfm.head()

	user_id	recent	freq	R_value	F_value	rf
0	100001878	2	36	高	高	高高
1	100011562	4	3	高	低	高低
2	100012968	2	15	高	高	高高
3	100014060	2	24	高	高	高高
4	100024529	4	26	高	高	高高

用户分类

def trans_value(x):
    if x == '高高': return '价值用户'
    elif x == '高低': return '发展用户'
    elif x == '低高': return '挽留客户'
    else: return '潜在客户'

rfm['rank'] = rfm.rf.apply(trans_value)

rfm.head()

	user_id	recent	freq	R_value	F_value	rf	rank
0	100001878	2	36	高	高	高高	价值用户
1	100011562	4	3	高	低	高低	发展用户
2	100012968	2	15	高	高	高高	价值用户
3	100014060	2	24	高	高	高高	价值用户
4	100024529	4	26	高	高	高高	价值用户

统计不同类型用户结果及可视化

rfm.groupby('rank')[['user_id']].count()

	user_id
rank
价值用户	3179
发展用户	1721
挽留客户	1219
潜在客户	2767

plt.pie(rfm.groupby('rank')[['user_id']].count().values.tolist(), labels=rfm.groupby('rank')[['user_id']].count().index.tolist(), shadow=True, autopct='%.1f%%', radius=1.5, textprops=dict(fontsize=12))
plt.title('用户分类情况', fontsize=30, pad=45, color='blue')
plt.show()

D:\ProgramData\Anaconda3\lib\site-packages\ipykernel_launcher.py:1: MatplotlibDeprecationWarning: Non-1D inputs to pie() are currently squeeze()d, but this behavior is deprecated since 3.1 and will be removed in 3.3; pass a 1D array instead.
  """Entry point for launching an IPython kernel.

结论与建议

这一月内的日访问量和日访问用户数呈现相同趋势，日访问量大都在35万-40万之间波动，日访客数大都在6200-6600波动，
在双十二购物狂欢节期间出现了剧增。
根据每小时用户访问行为可以看出用户主要访问淘宝的时间段是在白天10点以后，晚上9点左右达到访客人数的峰值
由于没有用户消费金额，无法得出日ARPU与日ARPPU具体情况，但是可以肯定的是日ARPPU是高于日ARPU的。
用户日平均消费次数在0.5次左右波动。
付费率是在20%-25%之间波动，在双十二期间达到50%
淘宝用户一天中每小时的消费次数主要在30次以内。
用户复购率为87%
可以看出，在点击商品到加入购物车的转化率大约为3%，而从购物车到支付大约35%，因此淘宝应该优化商品界面以及对商品相关的优化，使点击商品到加入购物车的转化率提高。
可以看出16%的商品占了80%的商品购买量，84%的商品仅提供了20%的商品购买量，因此应对后84%的商品进行优化、撤销等操作来提高后80%商品的购买量。
淘宝留存率虽然会在短期内从80%下滑到40%，但最终会在40%左右波动，留存率较好。3/5/7/10日留存率差异不大，14日留存率均高于40%。

你可能感兴趣的:(数据分析实战,数据分析,python,可视化)

python中strip_python中的strip是什么意思 weixin_39613744 python中strip
Python中strip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。它的函数原型：string.strip(s[,chars])，它返回的是字符串的副本，并删除前导和后缀字符。（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。此函数只会删除头和尾的字符，中间的不会删除。）如果strip()
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
python strip()函数牛也唱歌
strip函数原型声明：s为字符串，rm为要删除的字符序列.只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。s.strip(rm)删除s字符串中开头、结尾处，位于rm删除序列的字符s.lstrip(rm)删除s字符串中开头处，位于rm删除序列的字符s.rstrip(rm)删除s字符串中结尾处，位于rm删除序列的字符注意：1.当rm为空时，默认删除空白符（包括'\n','\r',
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
Python中strip()函数详细讲解甯公子_ Python入门程序 python 开发语言算法
strip()是Python中字符串（str）对象的一个内置方法，用于去除字符串开头和结尾的空白字符（包括空格、换行符、制表符等）。它不会修改字符串中间的空白字符。语法str.strip([chars])str：需要处理的字符串。chars（可选）：指定要去除的字符集合。如果未指定，默认去除空白字符（包括空格、换行符\n、制表符\t等）。返回值返回一个新的字符串，去除了开头和结尾的指定字符。常见用
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
Python 自动探索性数据分析库———KLib 若木胡 tools python 数据分析开发语言
Python自动探索性数据分析库——KLib一、引言在当今数据驱动的时代，数据分析师和科学家们面临着海量的数据需要处理和分析。探索性数据分析（EDA）作为数据处理流程中的关键环节，旨在帮助人们快速理解数据的特征、分布、相关性等重要信息，从而为后续的深入分析、建模以及决策提供坚实的基础。Python以其丰富的生态系统和强大的功能在数据分析领域占据着重要地位，而KLib则是其中一款专注于自动探索性数据
源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
[附源码]Python计算机毕业设计SSM基于B-S的心理健康管理系统（程序+LW) Python、JAVA毕设程序源码 java 开发语言
环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：SSM+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境：
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
绕过 reCAPTCHA V2/V3：Python、Selenium 指南 qq_33253945 python selenium javascript 网络爬虫爬虫算法
前言验证码（CAPTCHA）技术已经存在许多年，尽管它的有效性一直备受争议，但许多网站仍然依赖它来保护资源。尤其是Google推出的reCAPTCHA系列，一直是验证码领域的佼佼者。本文将详细介绍如何绕过reCAPTCHAV2和V3，并提供实用的代码示例。详情请见：解决验证码recaptcha、cloudflare、incapsula1.什么是reCAPTCHA？reCAPTCHA是Google推
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
【Q&A】Qt中直接渲染和离屏渲染效率哪个高？浅慕Antonio Q&A qt 信息可视化开发语言
直接渲染和离屏渲染的效率取决于具体场景和实现方式，以下是详细对比分析：一、直接渲染（On-screenRendering）原理直接将图形数据绘制到屏幕缓冲区（BackBuffer），完成后通过交换缓冲区显示到屏幕。通常在paintEvent等事件中通过QPainter直接绘制。优势减少数据复制：无需额外的缓冲区传输，直接写入屏幕缓冲区。实时性高：适合需要快速更新的场景（如动画、实时数据可视化）。简
python数据可视化绘制图表（直方图，饼图圆环图，散点或气泡图，误差棒图） 2224070304 信息可视化 python 数据分析
一，直方图#先导入模块importnumpyasnp importmatplotlib.pyplotasplt#准备50个随机的数据scores=np.random.randint(0,100,50)#绘制直方图plt.hist(scores,bins=8,histtype='stepfilled')plt.show()其中，scores为数组（可为单个或多个的数列)bins=8,表示矩形的条数为
数据分析面临的三大挑战该如何解决銨靜菂等芐紶数据挖掘大数据数据分析
转载自品略图书馆http://www.pinlue.com/article/2020/09/0712/2611202048648.html有效的分析已成为决定性因素，很明显，掌握它的人会蓬勃发展。但是，实现这一目标的过程并非没有障碍。最常见的数据分析挑战是什么？公司如何自信地应对它们？下面就来介绍一下。1、浏览预算限制数据分析领导者需要在当下采取行动，但同时也需要考虑未来。平衡这些需求要求他们在制
数据分析过程中，发现数值缺失，怎么办？学掌门大数据数据分析 IT 数据分析数据挖掘
按照数据缺失机制，数据分析过程中，我们可以将其分为以下几类：（1）完全随机缺失（MCAR）：所缺失的数据发生的概率既与已观察到的数据无关，也与未观察到的数据无关。（2）随机缺失（MAR）：假设缺失数据发生的概率与所观察到的变量是有关的，而与未观察到的数据的特征是无关的。MCAR与MAR均被称为是可忽略的缺失形式。（3）不可忽略的缺失（NIM）：亦称为非随机缺失，即如果不完全变量中，数据的缺失既依赖
用Python实现SFM 薄辉 python opencv 计算机视觉人工智能图像处理
SFM(结构化光流法)是一种用于解决三维重建问题的方法，它可以根据许多二维图像和它们之间的相对位置，估计出三维场景的深度和摄像机的姿态。在Python中，你可以使用OpenCV库来实现SFM。下面是一个简单的例子，展示了如何使用OpenCV库的cv2.sfm_create函数来实现SFM：importcv2#读入图像，存入列表images中images=[]foriinrange(1,11):im
使用Python轻松拆分PDF，每页独立成文件 AI航海家(Ethan) python python pdf
使用Python轻松拆分PDF，每页独立成文件嗨，各位PDF爱好者！如果你曾经有想要拆分一个大PDF文件的想法，让每一页都成为独立的文件，那么这篇博客就是为你准备的！我们将使用Python中的一个非常强大的库–PyPDF2，把这些需求变得简单易行。PyPDF2登场首先，我们需要安装PyPDF2库。如果你还没有安装，别担心，只需要在终端运行以下命令：pipinstallPyPDF2安装好了吗？下面我
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
Python Textract库：文本提取程序员喵哥 python 开发语言
更多Python学习内容：ipengtao.comTextract是一个强大的Python库，用于从各种文件格式中提取文本。无论是PDF、Word文档、Excel电子表格、HTML页面还是图像，Textract都能有效地提取其中的文本内容。Textract通过集成多种开源工具和库，实现了对多种文件格式的支持，使得文本提取变得简单而高效。本文将详细介绍Textract库的安装、主要功能、基本操作、高
【小白深度教程 1.32】手把手教你从多视角图像进行 3D 重建（SfM 算法）小寒学姐学AI 3d 算法计算机视觉人工智能深度学习 python 三维重建
【小白深度教程1.32】手把手教你从多视角图像进行3D重建（SfM算法）1.SfM三维重建算法简介2.SfM方法和原理3.安装依赖库4.构建数据集5.可视化结果6.完整代码1.SfM三维重建算法简介从多张照片中开发三维模型被称为多视图3D重建。数码相机的进步以及图像分辨率和清晰度的提高，使得利用仅有的相机而非昂贵的特殊传感器来重建3D图像成为可能。重建的目标是从一组照片中推导场景的几何结构，假设摄
python学智能算法（八）|决策树西猫雷婶人工智能 python学习笔记机器学习 python 决策树开发语言
【1】引言前序学习进程中，已经对KNN邻近算法有了探索，相关文章链接为：python学智能算法（七）|KNN邻近算法-CSDN博客但KNN邻近算法有一个特点是：它在分类的时候，不能知晓每个类别内事物的具体面貌，只能获得类别，停留在事物的表面。为了进一步探索事物的内在特征，就需要学习新的算法。本篇文章就是在KNN的基础上学习新算法：决策树。【2】原理分析在学习决策树执之前，需要先了解香农熵。本科学控
freecad嵌入工作台黄河里的小鲤鱼软件开发建模 python
1Introduction导言FreeCADcanbeimportedasaPythonmoduleinotherprogramsorinastandalonePythonconsole,togetherwithallitsmodulesandcomponents.It’sevenpossibletoimporttheFreeCADuserinterfaceasapythonmodulebutwi
家用笔记本换装centos7当服务器全流程吕域服务器 windows 电脑 centos
目录1、安装centos7系统硬件准备软件和镜像准备制作启动盘2、网络连接和ssh远程登陆centos7连接网络ssh远程登陆3、笔记本闭盖不休眠（7*24小时可用）4、定时开关机（省电、保护电脑）5、配置开发环境（此处以python为例，非必要项，示需求安装）1、安装centos7系统硬件准备老旧淘汰笔记本一台（新笔记本不合算，舍不得）一个大于8G的U盘网线一根（后续联网用）软件和镜像准备软件U
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
python 函数—文档、类型注释和内省想知道哇 python python 开发语言
Python文档、类型注释和内省目录引言函数文档docstring的使用help()函数类型注释基本类型注释复杂类型注释内省技术基本内省方法inspect模块的高级内省综合示例建议引言Python提供了丰富的文档和内省机制，使开发者能够编写自解释的代码并在运行时检查对象属性。本教程详细介绍了函数文档、类型注释和内省技术。函数文档docstring的使用Python使用三引号字符串（'''或"""）
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

实战3-淘宝用户行为分析及可视化

淘宝用户行为分析及可视化

目录

分析背景

明确问题

读取和理解数据

数据预处理

数据分析与可视化

用户行为分析

日PV和日UV

PV与UV相关性

可视化

时PV和时UV

相关性

可视化

不同行为类型用户PV分析

操作行为分析

操作行为情况

操作行为可视化

用户消费行为分析

日ARPU和日ARPPU

用户购买次数情况分析

每天平均消费次数

付费率

同一时间段用户消费次数分布

复购行为分析

月复购率

留存率

漏斗流失分析

二八理论分析淘宝商品

用户细分（RFM）

计算R

计算F

给予指标

用户分类

统计不同类型用户结果及可视化

结论与建议

你可能感兴趣的:(数据分析实战,数据分析,python,可视化)