报告，今天也有好好学习

最经典的一门数据分析案例【CDNow】入门推荐

今天跟大家分享的是我之前跟着做过的一门项目，非常的经典，也非常的详细，适合作为数据分析入门的项目。以下是有关的介绍。

数据来源于CDNow网站的用户购买明细。一共有用户ID，购买日期，购买数量，购买金额四个字段。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('ggplot')

加载数据：首先需要的是加载数据，同时由于数据中缺乏表头，所以需要赋予。且读取时注意更改默认分隔符（数据由多个空格分隔）

columns = ['user_id', 'order_dt', 'order_products', 'order_amount']
df = pd.read_csv('CDNow_master.txt', names=columns, sep='\s+')

观察数据：其中需要注意的是，order_dr为日期，格式为int64，并非我们需要的日期格式，所以后续要进行更改。同时一个用户也可以在一天内进行多次购买，如user_id为2的用户就在19970112那天买了两次。

df.head()

	user_id	order_dt	order_products	order_amount
0	1	19970101	1	11.77
1	2	19970112	1	12.00
2	2	19970112	5	77.00
3	3	19970102	2	20.76
4	3	19970330	2	20.76

df.info()


RangeIndex: 69659 entries, 0 to 69658
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   user_id         69659 non-null  int64  
 1   order_dt        69659 non-null  int64  
 2   order_products  69659 non-null  int64  
 3   order_amount    69659 non-null  float64
dtypes: float64(1), int64(3)
memory usage: 2.1 MB

数据处理：没有空值，很干净的数据。现在需要将时间的数据类型进行转换。

df['order_date'] = pd.to_datetime(df.order_dt, format='%Y%m%d')
df['month'] = df.order_date.values.astype('datetime64[M]')

%h是小时，%M是分钟，注意和月的大小写不一致，秒是%s。

另外之所以还将数据转换成月份格式，是因为我们将月份作为消费行为的主要事件窗口，选择哪种时间窗口取决于消费频率。
（也可以是以天或者年来划分）

df.head()

	user_id	order_dt	order_products	order_amount	order_date	month
0	1	19970101	1	11.77	1997-01-01	1997-01-01
1	2	19970112	1	12.00	1997-01-12	1997-01-01
2	2	19970112	5	77.00	1997-01-12	1997-01-01
3	3	19970102	2	20.76	1997-01-02	1997-01-01
4	3	19970330	2	20.76	1997-03-30	1997-03-01

df.info()


RangeIndex: 69659 entries, 0 to 69658
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   user_id         69659 non-null  int64         
 1   order_dt        69659 non-null  int64         
 2   order_products  69659 non-null  int64         
 3   order_amount    69659 non-null  float64       
 4   order_date      69659 non-null  datetime64[ns]
 5   month           69659 non-null  datetime64[ns]
dtypes: datetime64[ns](2), float64(1), int64(3)
memory usage: 3.2 MB

pandas中有专门的时间序列方法tseries，它可以用来进行时间偏移，也是处理时间类型的好方法。时间格式也能作为索引，在金融、财务等领域使用较多。

# df.date - pd.tseries.offsets.MonthBegin(1)

按每笔订单来统计分布由上述可得，用户平均每单购买2.4个商品，标准差为2.3，略有波动。中位数在2.0,75分位数为3，说明绝大多部分订单的购买力都不多，最大值为99个，数字较高。而购买金额则同购买数量差不多情况，大部分订单都集中在小额。一般而言，消费类的数据分布，都是长尾形态。大部分用户都是小额，然而小部分用户贡献了收入的大头，俗称二八法则。

df.describe()

	user_id	order_dt	order_products	order_amount
count	69659.000000	6.965900e+04	69659.000000	69659.000000
mean	11470.854592	1.997228e+07	2.410040	35.893648
std	6819.904848	3.837735e+03	2.333924	36.281942
min	1.000000	1.997010e+07	1.000000	0.000000
25%	5506.000000	1.997022e+07	1.000000	14.490000
50%	11410.000000	1.997042e+07	2.000000	25.980000
75%	17273.000000	1.997111e+07	3.000000	43.700000
max	23570.000000	1.998063e+07	99.000000	1286.010000

上面的消费行为数据粒度是每笔订单，我们转换成每位用户看一下。

user_grouped = df.groupby('user_id').sum()
user_grouped.head()

	order_dt	order_products	order_amount
user_id
1	19970101	1	11.77
2	39940224	6	89.00
3	119833602	16	156.46
4	79882233	7	100.50
5	219686137	29	385.61

用group_by创建一个新对象。

user_grouped.describe()

	order_dt	order_products	order_amount
count	2.357000e+04	23570.000000	23570.000000
mean	5.902627e+07	7.122656	106.080426
std	9.460684e+07	16.983531	240.925195
min	1.997010e+07	1.000000	0.000000
25%	1.997021e+07	1.000000	19.970000
50%	1.997032e+07	3.000000	43.395000
75%	5.992125e+07	7.000000	106.475000
max	4.334408e+09	1033.000000	13990.930000

从用户角度来看，每位用户平均购买7张CD，最多的用户购买了1033张CD（太疯狂了）。用户平均的消费金额（客单价）为100，标准差为240，结合分位数和最大值看，平均值才和75分位接近，说明存在小部分的高额消费用户。

接下来按月的维度来分析。

df.groupby('month').order_products.sum().plot()

按月统计每个月的CD销量。从图中可以看出，前三个月销量非常的高，但后期下降较大，并趋于平稳（平稳中也略有下降）

df.groupby('month').order_amount.sum().plot()

情况同销量相同，也是前期非常多，后期平稳下降。

至于为什么会出现这种情况？我们假设是用户身上出了问题，早期时间段的用户中有异常值，第二假设是早期有各类促销营销，但这里只有消费数据，所以无法判断。
分析是否存在异常值

8.1 绘制每笔订单的散点图。从图中观察，订单消费金额和订单商品量呈规律性，每个商品十元左右。订单的极值极少，超过1000的较少，显然不是异常波动的罪魁祸首。

df.plot.scatter(x = 'order_amount', y = 'order_products')

8.2 绘制用户的散点图，用户也比较健康，而且规律性比订单更强。因为这是CD网站的销售数据，商品比较单一，金额和商品量的关系也因此呈线性，没几个离群点。

df.groupby('user_id').sum().plot.scatter(x = 'order_amount', y = 'order_products')

8.3 消费能力特别强的用户有，但是数量不多。为了更好的观察，用直方图。

plt.figure(figsize=(12, 4))
plt.subplot(121)
df.order_amount.hist(bins = 30)

plt.subplot(122)
df.groupby('user_id').order_amount.sum().hist(bins = 30)

plt.subplot用于绘制子图，子图用数字参数表示。121表示分成1*2个图片区域，占用第一个，即第一行第一列，122表示占用第二个。figure是尺寸函数，为了容纳两张子图，宽设置的大一点即可。

从直方图看，大部分用户的消费能力确实不高，高消费用户在图上几乎看不到。这也确实符合消费行为的行业规律。

8.4 观察完用户消费的金额和购买量，接下来看消费的时间节点。

df.groupby('user_id').month.min().value_counts()

1997-02-01    8476
1997-01-01    7846
1997-03-01    7248
Name: month, dtype: int64

从中不难发现，所有用户的第一次消费都集中在前三个月。我们可以这样认为，案例中的订单数据，只是选择了某个时间段消费的用户在18个月内的消费行为。

df.groupby('user_id').month.max().value_counts()

1997-02-01    4912
1997-03-01    4478
1997-01-01    4192
1998-06-01    1506
1998-05-01    1042
1998-03-01     993
1998-04-01     769
1997-04-01     677
1997-12-01     620
1997-11-01     609
1998-02-01     550
1998-01-01     514
1997-06-01     499
1997-07-01     493
1997-05-01     480
1997-10-01     455
1997-09-01     397
1997-08-01     384
Name: month, dtype: int64

所有用户的最后一次消费也主要是集中在前三个月，后续时间段内，依然有用户在消费，但是缓慢减少。

异常趋势的原因获得了解释，现在针对消费数据进一步细分。我们要明确，这只是部分用户的订单数据，所以有一定局限性。在这里，我们统一将数据上消费的用户定义为新客。

接下来分析消费中的复购率和回购率。首先将用户消费数据进行数据透视。

pivoted_counts = df.pivot_table(index='user_id', columns='month', values='order_dt', aggfunc='count').fillna(0)
columns_month = df.month.sort_values().astype('str').unique()

pivoted_counts.columns = columns_month
pivoted_counts.head()

	1997-01-01	1997-02-01	1997-03-01	1997-04-01	1997-05-01	1997-06-01	1997-07-01	1997-08-01	1997-09-01	1997-10-01	1997-11-01	1997-12-01	1998-01-01	1998-02-01	1998-03-01	1998-04-01	1998-05-01	1998-06-01
user_id
1	1.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
2	2.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
3	1.0	0.0	1.0	1.0	0.0	0.0	0.0	0.0	0.0	0.0	2.0	0.0	0.0	0.0	0.0	0.0	1.0	0.0
4	2.0	0.0	0.0	0.0	0.0	0.0	0.0	1.0	0.0	0.0	0.0	1.0	0.0	0.0	0.0	0.0	0.0	0.0
5	2.0	1.0	0.0	1.0	1.0	1.0	1.0	0.0	1.0	0.0	0.0	2.0	1.0	0.0	0.0	0.0	0.0	0.0

在pandas中，数据透视有专门的函数pivot_table，功能非常强大。

使用数据透视表，需要明确获得什么结果。有些用户在某月没有进行过消费，会用NaN表示，这里用fillna填充。

生成的数据透视，月份是1997-01-01 00:00:00表示，比较丑，所以优化成标准格式。

首先求复购率，复购率的定义是在某时间窗口消费两次及以上的用户在总消费用户中占比。这里的时间窗口是月，如果一个用户在同一天内下了两笔订单，这里也将他算作复购用户。

将数据转换一下，消费两次及以上记为1，消费一次记为0，没有消费记为NaN。

pivoted_counts_trans = pivoted_counts.applymap(lambda x:1 if x>1 else np.NaN if x==0 else 0)
pivoted_counts_trans.head()

	1997-01-01	1997-02-01	1997-03-01	1997-04-01	1997-05-01	1997-06-01	1997-07-01	1997-08-01	1997-09-01	1997-10-01	1997-11-01	1997-12-01	1998-01-01	1998-02-01	1998-03-01	1998-04-01	1998-05-01	1998-06-01
user_id
1	0.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	1.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	0.0	NaN	0.0	0.0	NaN	NaN	NaN	NaN	NaN	NaN	1.0	NaN	NaN	NaN	NaN	NaN	0.0	NaN
4	1.0	NaN	NaN	NaN	NaN	NaN	NaN	0.0	NaN	NaN	NaN	0.0	NaN	NaN	NaN	NaN	NaN	NaN
5	1.0	0.0	NaN	0.0	0.0	0.0	0.0	NaN	0.0	NaN	NaN	1.0	0.0	NaN	NaN	NaN	NaN	NaN

applymap针对DataFrame里的所有数据。用lambda进行判断，因为这里涉及了多个结果，所以要两个if else，记住，lambda没有elif的用法。

(pivoted_counts_trans.sum() / pivoted_counts_trans.count()).plot(figsize = (10, 4))

用sum和count相除即可计算出复购率。因为这两个函数都会忽略NaN，而NaN是没有消费的用户，count不论是0还是1都会统计，所以是总的消费用户数，而sum求和计算了两次以上的消费用户这里用了比较巧妙的替代法计算复购率，SQL中也可以用。

图中可以看出复购率在早期，因为大量新用户加入的关系，新客的复购率并不高，譬如1月新客们的复购率只有6%左右。而在后期，这时的用户都是大浪淘沙剩下的老客，复购率比较稳定，在20%左右。

单看新客和老客，复购率有三倍左右的差距。

接下来计算回购率。回购率是某一个时间窗口内消费的用户，在下一个时间窗口仍旧消费的占比。比方说我1月消费用户为1000,他们中有300个人在2月份依然消费，回购率是30%。

回购率的计算比较难，因为它设计了时间窗口的对比。

pivoted_amount = df.pivot_table(index='user_id', columns='month', values='order_amount', aggfunc='mean').fillna(0)
columns_month = df.month.sort_values().astype('str').unique()

pivoted_amount.columns = columns_month
pivoted_amount.head()

	1997-01-01	1997-02-01	1997-03-01	1997-04-01	1997-05-01	1997-06-01	1997-07-01	1997-08-01	1997-09-01	1997-10-01	1997-11-01	1997-12-01	1998-01-01	1998-02-01	1998-03-01	1998-04-01	1998-05-01	1998-06-01
user_id
1	11.77	0.0	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.0	0.000	0.000	0.00	0.0	0.0	0.0	0.00	0.0
2	44.50	0.0	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.0	0.000	0.000	0.00	0.0	0.0	0.0	0.00	0.0
3	20.76	0.0	20.76	19.54	0.00	0.00	0.00	0.00	0.00	0.0	39.205	0.000	0.00	0.0	0.0	0.0	16.99	0.0
4	29.53	0.0	0.00	0.00	0.00	0.00	0.00	14.96	0.00	0.0	0.000	26.480	0.00	0.0	0.0	0.0	0.00	0.0
5	21.65	38.9	0.00	45.55	38.71	26.14	28.14	0.00	40.47	0.0	0.000	43.465	37.47	0.0	0.0	0.0	0.00	0.0

将消费金额进行数据透视，这里作为练习，使用了平均值。

pivoted_purchase = pivoted_amount.applymap(lambda x:1 if x>0 else 0)
pivoted_purchase.head()

	1997-01-01	1997-02-01	1997-03-01	1997-04-01	1997-05-01	1997-06-01	1997-07-01	1997-08-01	1997-09-01	1997-10-01	1997-11-01	1997-12-01	1998-01-01	1998-02-01	1998-03-01	1998-04-01	1998-05-01	1998-06-01
user_id
1	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
2	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
3	1	0	1	1	0	0	0	0	0	0	1	0	0	0	0	0	1	0
4	1	0	0	0	0	0	0	1	0	0	0	1	0	0	0	0	0	0
5	1	1	0	1	1	1	1	0	1	0	0	1	1	0	0	0	0	0

再次用applymap+lambda转换数据，只要有购买过，记为1，否则为0。

def purchase_return(data):
    status = []
    for i in range(17):
        if data[i] == 1:
            if data[i+1]==1:
                status.append(1)
            if data[i+1]==0:
                status.append(0)
        else:
            status.append(np.NaN)
    status.append(np.NaN)
    return status
pivoted_purchase_return = pivoted_purchase.apply(purchase_return, axis=1, result_type='expand')
pivoted_purchase_return.columns = columns_month
pivoted_purchase_return.head()

	1997-01-01	1997-02-01	1997-03-01	1997-04-01	1997-05-01	1997-06-01	1997-07-01	1997-08-01	1997-09-01	1997-10-01	1997-11-01	1997-12-01	1998-01-01	1998-02-01	1998-03-01	1998-04-01	1998-05-01	1998-06-01
user_id
1	0.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	0.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	0.0	NaN	1.0	0.0	NaN	NaN	NaN	NaN	NaN	NaN	0.0	NaN	NaN	NaN	NaN	NaN	0.0	NaN
4	0.0	NaN	NaN	NaN	NaN	NaN	NaN	0.0	NaN	NaN	NaN	0.0	NaN	NaN	NaN	NaN	NaN	NaN
5	1.0	0.0	NaN	1.0	1.0	1.0	0.0	NaN	0.0	NaN	NaN	1.0	0.0	NaN	NaN	NaN	NaN	NaN

新建一个判断函数。data是输入的数据，即用户在18个月内是否消费的记录，status是空列表，后续用来保存用户是否回购的字段。

因为有18个月，所以每个月都要济宁一次判断，需要用到循环。判断的主要逻辑是：如果用户本月进行过消费，且下月也有消费，记为1，没有记为0。如果本月没有进行过消费，为NaN，后续的统计中进行消除。

用apply函数应用在所有行上，获得想要的结果。

(pivoted_purchase_return.sum()/pivoted_purchase_return.count()).plot(figsize = (10, 4))

最后的计算和复购率大同小异，用count和sum求出。从图中可以看出，用户的回购率高于复购率，约在30%左右，波动性也比较强。新用户的回购率在15%左右，和老客差异不大。

将回购率和复购率综合分析，可以得出，新客整体质量低于老客，老客的忠诚度（回购率）表现较好，消费频次稍次，这是CDNow网站的用户消费特征。

接下来进行用户分层，我们按照用户的消费行为，简单划分几个维度：新用户、活跃用户、不活跃用户和回流用户。

新用户的定义是第一次消费。活跃用户即为老客，在某一个时间窗口内有过消费。不活跃用户则是时间窗口内没有消费过的老客。回流用户是在上一个窗口没有消费，而在当前时间窗口有过消费。以上时间窗口都是按月统计。

比如某用户在1月第一次消费，那么他在1月份的分层就是新用户；他在2月份消费过，则是活跃用户；3月份没有消费，此时是不活跃用户；4月份再次消费，此时是回流用户，5月份还是消费，是活跃用户。

分层会涉及到比较多的逻辑判断。

def state_return(data):
    status = []
    for i in range(18):
        if data[i] == 0:
            if len(status) == 0:
                status.append('unreg')
            else:
                if status[i-1] == 'unreg':
                    status.append('unreg')
                else:
                    status.append('unact')
        else:
            if len(status) == 0:
                status.append('new')
            else:
                if status[i-1] == 'unreg':
                    status.append('new')
                elif status[i-1] == 'unact':
                    status.append('return')
                else:
                    status.append('act')
    return status

函数写得比较复杂，主要分为两部分来判断。如果本月没有消费，那么先判断这个月是不是第一个月，如果是的话必然还没有购买过（用unreg来表示），如果不是第一个月，那么判断上个月是不是也还没购买过，如果是就还是unreg，如果不是这个月就是不活跃用户unact；如果本月有消费，也是先判断这个月是不是第一个月，如果是那么说明他是新用户new，如果不是判断上个月注册过没，没有就是new，如果上个月是unact说明购买过那么就是回流用户，否则就是act。

pivoted_purchase_status = pivoted_purchase.apply(state_return, axis = 1, result_type='expand')
pivoted_purchase_status.columns = columns_month
pivoted_purchase_status.head()

	1997-01-01	1997-02-01	1997-03-01	1997-04-01	1997-05-01	1997-06-01	1997-07-01	1997-08-01	1997-09-01	1997-10-01	1997-11-01	1997-12-01	1998-01-01	1998-02-01	1998-03-01	1998-04-01	1998-05-01	1998-06-01
user_id
1	new	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact
2	new	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact	unact
3	new	unact	return	act	unact	unact	unact	unact	unact	unact	return	unact	unact	unact	unact	unact	return	unact
4	new	unact	unact	unact	unact	unact	unact	return	unact	unact	unact	return	unact	unact	unact	unact	unact	unact
5	new	act	unact	return	act	act	act	unact	return	unact	unact	return	act	unact	unact	unact	unact	unact

从结果看，用户每个月的分层状态以及变化已经被我们计算出来，这个方法是根据透视过的宽表计算，其实还有另一种写法，只提取时间窗口内的数据和上个窗口对比判断，封装成函数做循环，封装成函数做循环，这种方法更适合ETL的增量更新。

pivoted_status_counts = pivoted_purchase_status.replace('unreg', np.NaN).apply(lambda x:pd.value_counts(x))
pivoted_status_counts.head()

	1997-01-01	1997-02-01	1997-03-01	1997-04-01	1997-05-01	1997-06-01	1997-07-01	1997-08-01	1997-09-01	1997-10-01	1997-11-01	1997-12-01	1998-01-01	1998-02-01	1998-03-01	1998-04-01	1998-05-01	1998-06-01
act	NaN	1155.0	1680	1773.0	852.0	747.0	746.0	604.0	528.0	532.0	624	632.0	512.0	472.0	569.0	517.0	458.0	446.0
new	7814.0	8455.0	7231	NaN	NaN	NaN	NaN	NaN	NaN	NaN	2	NaN	NaN	NaN	NaN	NaN	NaN	NaN
return	NaN	NaN	595	1049.0	1362.0	1592.0	1434.0	1168.0	1211.0	1307.0	1402	1232.0	1025.0	1079.0	1489.0	919.0	1030.0	1060.0
unact	NaN	6659.0	13994	20678.0	21286.0	21161.0	21320.0	21728.0	21761.0	21661.0	21474	21638.0	21965.0	21951.0	21444.0	22066.0	22014.0	21996.0

将unreg更改为NaN是为了避免被计入总数。此时已换成按月的统计量。

pivoted_status_counts.fillna(0).T.plot.area(figsize = (12, 6))

生成面积图。因为它还是某时间段消费过的用户的后续行为。所以蓝色和灰色的区域都可以不看。只看紫色回流和红色活跃这两个分层，用户数比较稳定。这两个分层相加，就是消费用户占比（后期没新客）。

return_rata = pivoted_status_counts.apply(lambda x:x / x.sum(), axis = 1)
return_rata.loc['return'].plot(figsize = (12, 6))

用户回流占比在5%-8%，有下降趋势。所谓回流占比，就是回流用户在总用户中的占比。另外一种指标叫回流率，指上个月多少不消费（活跃）用户在本月消费（活跃）用户的占比。

return_rata.loc['act'].plot(figsize = (12, 6))

活跃用户的下降趋势更明显，占比在3%~5%之间。这里的活跃用户可以看作是连续消费用户，质量上在一定程度上高于回流用户。

结合回流用户和活跃用户来看，在后期的消费用户中，60%是回流用户，40%是活跃用户（连续消费用户），整体质量还不错，但是针对这两个分层依旧有改进的空间，可以继续细化数据。

接下来分析用户质量，因为消费行为有明显的二八倾向，我们需要知道高质量用户为消费贡献了多少份额。

user_amount = df.groupby('user_id').order_amount.sum().sort_values().reset_index()
user_amount['amount_cumsum'] = user_amount.order_amount.cumsum()
user_amount.tail()

	user_id	order_amount	amount_cumsum
23565	7931	6497.18	2463822.60
23566	19339	6552.70	2470375.30
23567	7983	6973.07	2477348.37
23568	14048	8976.33	2486324.70
23569	7592	13990.93	2500315.63

新建一个对象，按用户的消费金额升序，使用cumsum函数，即累加函数，用于逐行计算累计的金额，最后的2500315便是总金额。

total_amount = user_amount.amount_cumsum.max()
user_amount['prop'] = user_amount.amount_cumsum.apply(lambda x:x / total_amount)
user_amount.tail()

	user_id	order_amount	amount_cumsum	prop
23565	7931	6497.18	2463822.60	0.985405
23566	19339	6552.70	2470375.30	0.988025
23567	7983	6973.07	2477348.37	0.990814
23568	14048	8976.33	2486324.70	0.994404
23569	7592	13990.93	2500315.63	1.000000

转换成百分比。

user_amount.prop.plot()

如上图所示，横坐标是按贡献金额大小排序而成，纵坐标则是用户累计贡献。可以很清楚的看到，前20000个用户贡献了40%的消费。后面3000多位用户则贡献了60%，确实呈现二八倾向。

user_counts = df.groupby('user_id').order_dt.count().sort_values().reset_index()
user_counts['counts_cumsum'] = user_counts.order_dt.cumsum()

total_counts = user_counts.counts_cumsum.max()
user_counts['prop'] = user_counts.counts_cumsum.apply(lambda x:x / total_counts)
user_counts.prop.plot()

此时统计销量，前20000位用户贡献了45%的销量，剩下的高消费用户则贡献了55%的销量。在消费领域中，狼抓高质量用户是万古不变的道理。

接下来计算用户的生命周期，这里定义第一次消费至最后一次消费为整个用户生命。

user_purchase = df[['user_id', 'order_products', 'order_amount', 'order_date']]
order_date_min = user_purchase.groupby('user_id').order_date.min()
order_date_max = user_purchase.groupby('user_id').order_date.max()
(order_date_max - order_date_min).head(10)

user_id
1      0 days
2      0 days
3    511 days
4    345 days
5    367 days
6      0 days
7    445 days
8    452 days
9    523 days
10     0 days
Name: order_date, dtype: timedelta64[ns]

先统计出了用户的第一次消费和最后一次消费，然后相减即可。因为数据中的用户都是前三月第一次消费，所以这里的生命周期代表的是1月~3月用户的生命周期。因为用户会持续消费，所以理论上，随着后续的消费，用户的平均生命周期会增大。

(order_date_max - order_date_min).describe()

count                          23570
mean     134 days 20:55:36.987696224
std      180 days 13:46:43.039788104
min                  0 days 00:00:00
25%                  0 days 00:00:00
50%                  0 days 00:00:00
75%                294 days 00:00:00
max                544 days 00:00:00
Name: order_date, dtype: object

求一下平均，所有用户的平均生命周期是134天，比预想的高，但是中位数是0，说明了由很多用户第一次购买和最后一次购买都是在同一天。

为了更清楚地查看用户的生命周期，我们需要看一下分布。

((order_date_max - order_date_min) / np.timedelta64(1, 'D')).hist(bins = 15)

因为这里的数据类型是timedelta时间，它无法直接作出直方图，所以先换算成数值。划算的方式直接除timedelta函数即可，这里的np.timedelta64(1, ‘D’)即可。

从图中可以看出，大部分用户只消费了一次，所有生命周期的大头都集中在了0天。但这不是我们想要的答案，不妨将只消费了一次的新客排除，来计算所有消费过两次以上的老客的生命周期。

life_time = (order_date_max - order_date_min).reset_index() # 转为dataframe
life_time.head()

	user_id	order_date
0	1	0 days
1	2	0 days
2	3	511 days
3	4	345 days
4	5	367 days

life_time['life_time'] = life_time.order_date / np.timedelta64(1, 'D')
life_time[life_time.life_time > 0].life_time.hist(bins=100, figsize=(12, 6))

筛选出lifetime>0，即排除了仅消费了一次的那些人。做直方图。

这个图的价值明显高于上图，虽然仍旧有不少用户生命周期靠拢0天。这是双峰趋势图，部分质量差的用户，虽然消费了两次，但是仍旧无法持续，在用户首次消费30天内应该尽量引导。少部分用户集中在50天~300天，属于普通型的生命周期，高质量用户的生命周期，集中在400天以后，这已经属于忠诚用户了。

life_time[life_time.life_time > 400].life_time.count() / life_time[life_time.life_time > 0].life_time.count()

0.31703716568252865

生命周期在400天以上的用户占老客的比例为31.7%，挺高的数值了。

life_time[life_time.life_time > 0].life_time.mean()

276.0448072247308

消费两次以上的用户生命周期为276天，远高于总体。从策略上看，用户首次消费后应该花费更多时间精力去引导其进行多次消费，延长生命周期，这会带来2.5倍的增量。

再来计算留存率，留存率也是消费分析领域的经典应用。它指用户在第一次消费后，有多少比率进行第二次消费。和回流率的区别是留存率倾向于计算第一次消费，并且有多个时间窗口。

user_purchase_retention = pd.merge(left=user_purchase, right=order_date_min.reset_index(), how='inner', on='user_id',suffixes=('', '_min'))
user_purchase_retention.head()

	user_id	order_products	order_amount	order_date	order_date_min
0	1	1	11.77	1997-01-01	1997-01-01
1	2	1	12.00	1997-01-12	1997-01-12
2	2	5	77.00	1997-01-12	1997-01-12
3	3	2	20.76	1997-01-02	1997-01-02
4	3	2	20.76	1997-03-30	1997-01-02

这里用到merge函数，它和SQL中的join差不多，用来将两个dataframe进行合并。我们选择了inner的方式，对标SQL中的inner join。

这里merge的目的是将用户消费行为和第一次消费时间对应上，形成一个新的dataframe。

user_purchase_retention['order_date_diff'] = user_purchase_retention.order_date - user_purchase_retention.order_date_min
user_purchase_retention.head()

	user_id	order_products	order_amount	order_date	order_date_min	order_date_diff
0	1	1	11.77	1997-01-01	1997-01-01	0 days
1	2	1	12.00	1997-01-12	1997-01-12	0 days
2	2	5	77.00	1997-01-12	1997-01-12	0 days
3	3	2	20.76	1997-01-02	1997-01-02	0 days
4	3	2	20.76	1997-03-30	1997-01-02	87 days

这里将order_date和order_date_min想减，获得一个新的列，为用户每一次消费距第一次消费的时间差值。

date_trans = lambda x: x/np.timedelta64(1, 'D')

user_purchase_retention['date_diff'] = user_purchase_retention.order_date_diff.apply(date_trans)
user_purchase_retention.head(10)

	user_id	order_products	order_amount	order_date	order_date_min	order_date_diff	date_diff
0	1	1	11.77	1997-01-01	1997-01-01	0 days	0.0
1	2	1	12.00	1997-01-12	1997-01-12	0 days	0.0
2	2	5	77.00	1997-01-12	1997-01-12	0 days	0.0
3	3	2	20.76	1997-01-02	1997-01-02	0 days	0.0
4	3	2	20.76	1997-03-30	1997-01-02	87 days	87.0
5	3	2	19.54	1997-04-02	1997-01-02	90 days	90.0
6	3	5	57.45	1997-11-15	1997-01-02	317 days	317.0
7	3	4	20.96	1997-11-25	1997-01-02	327 days	327.0
8	3	1	16.99	1998-05-28	1997-01-02	511 days	511.0
9	4	2	29.33	1997-01-01	1997-01-01	0 days	0.0

bin = [0,3,7,15,30,60,90,180,365]
user_purchase_retention['date_diff_bin'] = pd.cut(user_purchase_retention.date_diff, bins = bin)
user_purchase_retention.head(15)

	user_id	order_products	order_amount	order_date	order_date_min	order_date_diff	date_diff	date_diff_bin
0	1	1	11.77	1997-01-01	1997-01-01	0 days	0.0	NaN
1	2	1	12.00	1997-01-12	1997-01-12	0 days	0.0	NaN
2	2	5	77.00	1997-01-12	1997-01-12	0 days	0.0	NaN
3	3	2	20.76	1997-01-02	1997-01-02	0 days	0.0	NaN
4	3	2	20.76	1997-03-30	1997-01-02	87 days	87.0	(60.0, 90.0]
5	3	2	19.54	1997-04-02	1997-01-02	90 days	90.0	(60.0, 90.0]
6	3	5	57.45	1997-11-15	1997-01-02	317 days	317.0	(180.0, 365.0]
7	3	4	20.96	1997-11-25	1997-01-02	327 days	327.0	(180.0, 365.0]
8	3	1	16.99	1998-05-28	1997-01-02	511 days	511.0	NaN
9	4	2	29.33	1997-01-01	1997-01-01	0 days	0.0	NaN
10	4	2	29.73	1997-01-18	1997-01-01	17 days	17.0	(15.0, 30.0]
11	4	1	14.96	1997-08-02	1997-01-01	213 days	213.0	(180.0, 365.0]
12	4	2	26.48	1997-12-12	1997-01-01	345 days	345.0	(180.0, 365.0]
13	5	2	29.33	1997-01-01	1997-01-01	0 days	0.0	NaN
14	5	1	13.97	1997-01-14	1997-01-01	13 days	13.0	(7.0, 15.0]

pivoted_retention = user_purchase_retention.pivot_table(index='user_id', columns='date_diff_bin', values='order_amount', aggfunc=sum)
pivoted_retention.head(10)

date_diff_bin	(0, 3]	(3, 7]	(7, 15]	(15, 30]	(30, 60]	(60, 90]	(90, 180]	(180, 365]
user_id
1	0.0	0.0	0.00	0.00	0.00	0.0	0.00	0.00
2	0.0	0.0	0.00	0.00	0.00	0.0	0.00	0.00
3	0.0	0.0	0.00	0.00	0.00	40.3	0.00	78.41
4	0.0	0.0	0.00	29.73	0.00	0.0	0.00	41.44
5	0.0	0.0	13.97	0.00	38.90	0.0	110.40	155.54
6	0.0	0.0	0.00	0.00	0.00	0.0	0.00	0.00
7	0.0	0.0	0.00	0.00	0.00	0.0	0.00	97.43
8	0.0	0.0	0.00	0.00	13.97	0.0	45.29	104.17
9	0.0	0.0	0.00	0.00	0.00	0.0	30.33	0.00
10	0.0	0.0	0.00	0.00	0.00	0.0	0.00	0.00

用pivot_table数据透视，获得的结果是用户在第一次消费之后，在后续各时间段内的消费总额。

这里不难发现如果没有消费的话就是0，但为方便后续我们只统计有消费的用户，将0更改为nan。

pivoted_retention.replace(0,np.nan).mean()

date_diff_bin
(0, 3]        35.905798
(3, 7]        36.385121
(7, 15]       42.669895
(15, 30]      45.986198
(30, 60]      50.215070
(60, 90]      48.975277
(90, 180]     67.223297
(180, 365]    91.960059
dtype: float64

此时计算用户在后续时间段的平均消费额，这里只统计有消费的平均值。虽然后面时间段的金额高，但是它的时间范围也宽广。从平均效果来看，用户第一次消费后的0-3天内，更可能消费更多。

但消费更多是一个相对的概念，我们还要看整体中有多少用户在0-3天消费。

pivoted_retention_trans = pivoted_retention.applymap(lambda x: 1 if x>0 else 0)
pivoted_retention_trans.head()

date_diff_bin	(0, 3]	(3, 7]	(7, 15]	(15, 30]	(30, 60]	(60, 90]	(90, 180]	(180, 365]
user_id
1	0	0	0	0	0	0	0	0
2	0	0	0	0	0	0	0	0
3	0	0	0	0	0	1	0	1
4	0	0	0	1	0	0	0	1
5	0	0	1	0	1	0	1	1

如果有消费就记为1，没有就是0.

(pivoted_retention_trans.sum() / pivoted_retention_trans.count()).plot.bar()

只有2.5%的用户在第一次消费后的三天内有过消费，3%的用户在3-7天内有过消费。数字并不好看，不过CD购买确实不是高频消费行为。时间范围放宽后数字好看了不少，有20%的用户在第一次消费后的三个月到半年之间有过购买，27%的用户在半年后到一年内有过购买。从运营角度看，CD机营销在教育新用户的同时，应该注重用户忠诚度的培养，放长线钓大鱼，在一定时间内召回用户购买。

怎么算放长线钓大鱼呢？我们计算出用户的平均购买周期。

def diff(group):
    d = group.date_diff.shift(-1) - group.date_diff
    return d

last_diff = user_purchase_retention.groupby('user_id').apply(diff)
last_diff.head(10)

user_id   
1        0      NaN
2        1      0.0
         2      NaN
3        3     87.0
         4      3.0
         5    227.0
         6     10.0
         7    184.0
         8      NaN
4        9     17.0
Name: date_diff, dtype: float64

此时已经求出了用户的每次购买距离上次购买的时间差。

last_diff.mean()

68.97376814424265

此时求出了用户的平均消费间隔是68天。所以想要召回用户，在60天左右的消费间隔是比较好的。

last_diff.hist(bins = 20)

看一下直方图，典型的长尾分布，大部分的用户的消费间隔确实比较短。不妨将时间召回点设为消费后立即赠送优惠券，消费10天询问用户CD怎么样，消费30天后提醒优惠券到期，消费60天后短信推送。这便是数据的应用了。

推荐关注的专栏

‍‍‍ 机器学习：分享机器学习实战项目和常用模型讲解
‍‍‍ 数据分析：分享数据分析实战项目和常用技能整理

往期内容回顾

学习Python全套代码【超详细】Python入门、核心语法、数据结构、Python进阶【致那个想学好Python的你】
❤️ 学习pandas全套代码【超详细】数据查看、输入输出、选取、集成、清洗、转换、重塑、数学和统计方法、排序
学习pandas全套代码【超详细】分箱操作、分组聚合、时间序列、数据可视化
学习NumPy全套代码【超详细】基本操作、数据类型、数组运算、复制和试图、索引、切片和迭代、形状操作、通用函数、线性代数

关注我，了解更多相关知识！

CSDN@报告，今天也有好好学习

你可能感兴趣的:(数据分析,数据分析,数据挖掘,python,pandas,numpy)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出