Luara_lyy

python数据分析实战---秦璐

讲解： 一份数据分析报告 #既包含代码又包含数据分析结果的PDF形式

Markdown写法：说明
code import pandas as pd
快捷切换 esc+m 变为Markdown/esc+m 变为code
图形化呈现：结果

练习1 这是一份用户消费行为的分析报告(数据来源于网络，用户在一家CD网站上的消费)

import pandas as pd
import numpy as np
#加载数据可视化包
import matplotlib.pyplot as plt
#可视化显示页面#%内置的符号，为jupyter专用，做好图之后可以直接在html页面显示
%matplotlib inline
#更改设计
plt.style.use('ggplot')#r语言风格

columns = ['user_id','order_dt','order_products','order_amount']
df = pd.read_table('CDNOW_master.txt',names = columns,sep = '\s+',parse_dates= True)

user_id 用户名
order_dt 购买日期
order_products 购买产品数
order_amount 购买金额

df.head()#显示字段

	user_id	order_dt	order_products	order_amount
0	1	19970101	1	11.77
1	2	19970112	1	12.00
2	2	19970112	5	77.00
3	3	19970102	2	20.76
4	3	19970330	2	20.76

df.info()


RangeIndex: 69659 entries, 0 to 69658
Data columns (total 4 columns):
user_id           69659 non-null int64
order_dt          69659 non-null int64
order_products    69659 non-null int64
order_amount      69659 non-null float64
dtypes: float64(1), int64(3)
memory usage: 2.1 MB

需要对order_dt进行清理

df.describe()

	user_id	order_dt	order_products	order_amount
count	69659.000000	6.965900e+04	69659.000000	69659.000000
mean	11470.854592	1.997228e+07	2.410040	35.893648
std	6819.904848	3.837735e+03	2.333924	36.281942
min	1.000000	1.997010e+07	1.000000	0.000000
25%	5506.000000	1.997022e+07	1.000000	14.490000
50%	11410.000000	1.997042e+07	2.000000	25.980000
75%	17273.000000	1.997111e+07	3.000000	43.700000
max	23570.000000	1.998063e+07	99.000000	1286.010000

大部分订单只消费了少量商品（平均2.4），有一定极值干扰
用户的消费金额比较稳定，平均消费35元，中位数在35，有一定极值干扰

df['order_dt'] = pd.to_datetime(df.order_dt,format = "%Y%m%d") #解析函数，转换某个字段的格式
df['month'] = df.order_dt.values.astype('datetime64[M]')

df

	user_id	order_dt	order_products	order_amount	month
0	1	1997-01-01	1	11.77	1997-01-01
1	2	1997-01-12	1	12.00	1997-01-01
2	2	1997-01-12	5	77.00	1997-01-01
3	3	1997-01-02	2	20.76	1997-01-01
4	3	1997-03-30	2	20.76	1997-03-01
5	3	1997-04-02	2	19.54	1997-04-01
6	3	1997-11-15	5	57.45	1997-11-01
7	3	1997-11-25	4	20.96	1997-11-01
8	3	1998-05-28	1	16.99	1998-05-01
9	4	1997-01-01	2	29.33	1997-01-01
10	4	1997-01-18	2	29.73	1997-01-01
11	4	1997-08-02	1	14.96	1997-08-01
12	4	1997-12-12	2	26.48	1997-12-01
13	5	1997-01-01	2	29.33	1997-01-01
14	5	1997-01-14	1	13.97	1997-01-01
15	5	1997-02-04	3	38.90	1997-02-01
16	5	1997-04-11	3	45.55	1997-04-01
17	5	1997-05-31	3	38.71	1997-05-01
18	5	1997-06-16	2	26.14	1997-06-01
19	5	1997-07-22	2	28.14	1997-07-01
20	5	1997-09-15	3	40.47	1997-09-01
21	5	1997-12-08	4	46.46	1997-12-01
22	5	1997-12-12	3	40.47	1997-12-01
23	5	1998-01-03	3	37.47	1998-01-01
24	6	1997-01-01	1	20.99	1997-01-01
25	7	1997-01-01	2	28.74	1997-01-01
26	7	1997-10-11	7	97.43	1997-10-01
27	7	1998-03-22	9	138.50	1998-03-01
28	8	1997-01-01	1	9.77	1997-01-01
29	8	1997-02-13	1	13.97	1997-02-01
...	...	...	...	...	...
69629	23556	1997-09-27	3	31.47	1997-09-01
69630	23556	1998-01-03	2	28.98	1998-01-01
69631	23556	1998-06-07	2	28.98	1998-06-01
69632	23557	1997-03-25	1	14.37	1997-03-01
69633	23558	1997-03-25	2	28.13	1997-03-01
69634	23558	1997-05-18	3	45.51	1997-05-01
69635	23558	1997-06-24	2	23.74	1997-06-01
69636	23558	1998-02-25	4	48.22	1998-02-01
69637	23559	1997-03-25	2	23.54	1997-03-01
69638	23559	1997-05-18	3	35.31	1997-05-01
69639	23559	1997-06-27	3	52.80	1997-06-01
69640	23560	1997-03-25	1	18.36	1997-03-01
69641	23561	1997-03-25	2	30.92	1997-03-01
69642	23561	1998-01-28	1	15.49	1998-01-01
69643	23561	1998-05-29	3	37.05	1998-05-01
69644	23562	1997-03-25	2	29.33	1997-03-01
69645	23563	1997-03-25	1	10.77	1997-03-01
69646	23563	1997-10-04	2	47.98	1997-10-01
69647	23564	1997-03-25	1	11.77	1997-03-01
69648	23564	1997-05-21	1	11.77	1997-05-01
69649	23564	1997-11-30	3	46.47	1997-11-01
69650	23565	1997-03-25	1	11.77	1997-03-01
69651	23566	1997-03-25	2	36.00	1997-03-01
69652	23567	1997-03-25	1	20.97	1997-03-01
69653	23568	1997-03-25	1	22.97	1997-03-01
69654	23568	1997-04-05	4	83.74	1997-04-01
69655	23568	1997-04-22	1	14.99	1997-04-01
69656	23569	1997-03-25	2	25.74	1997-03-01
69657	23570	1997-03-25	3	51.12	1997-03-01
69658	23570	1997-03-26	2	42.96	1997-03-01

69659 rows × 5 columns

1.进行用户消费趋势的分析(按月)

每月的消费总金额
每月的消费次数
每月的产品购买量
每月的消费人数

grouped_month = df.groupby('month')#数据的聚合
order_month_amount = grouped_month.order_amount.sum()#将order_amount按照grouped_month进行切片，求和
order_month_amount.head()#读取前5行

month
1997-01-01    299060.17
1997-02-01    379590.03
1997-03-01    393155.27
1997-04-01    142824.49
1997-05-01    107933.30
Name: order_amount, dtype: float64

#加载数据可视化包
import matplotlib.pyplot as plt
#可视化显示页面
%matplotlib inline 
#更改设计
plt.style.use('ggplot')#r语言风格
order_month_amount.plot()

由上图可知，消费金额在前三个月达到高峰，后续消费较为稳定，有轻微下降趋势

grouped_month.user_id.count().plot()#求出每月里的订单数

[外链图片转存失败(img-jCtrxOWZ-1567614745665)(output_16_1.png)]

前三个月消费订单数在10000笔左右，后续月份的平均消费人数则在2500人

grouped_month.order_products.sum().plot()#产品数需要使用sum,一单不只一个产品

df.groupby('month').user_id.apply(lambda x :len(x.drop_duplicates())).plot() #apply去重的操作,数组uesr_id作为输入，去重，len求个数

df.groupby(['month','user_id']).count().reset_index()  #第二种,通过groupby去重,重置索引
df.groupby('month').user_id.count().plot()

每月的消费人数低于每月的消费次数，但差异不大；
前三个月每月的消费人数在8000-10000之间，后续月份，平均消费人数在2000人不到

#数据透视
df.pivot_table(index = 'month',
              values = ['order_products','order_amount','user_id'],
              aggfunc = {'order_products':'sum',
                         'order_amount':'sum',
                         'user_id':'count'}).head()#透视去重比较麻烦，不建议

	order_amount	order_products	user_id
month
1997-01-01	299060.17	19416	8928
1997-02-01	379590.03	24921	11272
1997-03-01	393155.27	26159	11598
1997-04-01	142824.49	9729	3781
1997-05-01	107933.30	7275	2895

问题：

每月用户的平均消费金额趋势
每月用户平均消费次数的趋势

df.groupby('month').order_amount.mean().plot()#可能还要考虑用户相同的情况

2.用户个体消费分析

用户消费金额，消费次数的描述统计
用户消费金额和消费次数的散点图
用户消费金额的分布图
用户消费次数的分布图（二八分布）
用户累计消费金额占比（百分之多少的用户占百分之多少的消费额），头部用户的多寡，实现运营策略，制定方向

grouped_user = df.groupby('user_id')

grouped_user.sum().describe()

	order_products	order_amount
count	23570.000000	23570.000000
mean	7.122656	106.080426
std	16.983531	240.925195
min	1.000000	0.000000
25%	1.000000	19.970000
50%	3.000000	43.395000
75%	7.000000	106.475000
max	1033.000000	13990.930000

用户平均购买了7张CD，但是中位值只有3，说明小部分用户购买了大量的CD
用户平均消费106元，中位数有43，判断同上，有极值干扰（一个人买了很多）
基本上符合一个2-8分布

#使用用户的散点图观察#sum求出每个用户的明细数据，plot函数方法
grouped_user.sum().plot.scatter(x = 'order_amount',y = 'order_products')
grouped_user.sum().query('order_amount <4000').plot.scatter(x = 'order_amount',y = 'order_products')

散点图对极值比较敏感，在开始时可以进行过滤,query(‘order_amount <4000’)
函数时有顺序的，plot.scatter
CD 数量和客单价有近似正比的关系，可以说明95%的CD的客单价都是差不多的，单一的产品，可能存在极少的珍藏版CD；
如果店家里有多种品类，如CD机，音乐唱片等，可能呈现扇形的扩散状态
散点图揭示的是一种规律

#分布关系
grouped_user.sum().order_amount.plot.hist(bins = 100)

从直方图中，用户的消费金额，绝大多数呈现集中趋势，小部分异常值干扰判断，可以用**过滤操作**排除异常

grouped_user.sum().query('order_products<100').order_products.plot.hist(bins = 40)

使用切比雪夫过滤掉异常值，计算95%的数据分布情况，去掉5个均值以外的结果

#升序排列，滚动求和
user_cumsum = grouped_user.sum().sort_values('order_amount').apply(lambda x:x.cumsum()/x.sum())#滚动求和
#user_cumsum.order_amount.cumsum()/user_cumsum.order_amount.sum() 
user_cumsum
user_cumsum.reset_index().order_amount.plot()

按用户消费金额进行升序排列，有图可知50%的用户仅贡献了15%的消费额度，而排名前5000的用户就贡献了60%的消费额（如果运营这60%的用户就可能是效益更高）

3.用户的消费行为

用户第一次消费（收购）–和渠道相关，客单价比较高，用户留存率比较低行业，首购的用户从渠道来，可以拓展运营方式和业务
用户最后一次消费–与用户的流失息息相关
新老客消费比
- 多少用户仅消费了一次？
- 每月新客占比？
用户分层
- RFM
- 新、老、活跃、回流、流失
用户购买周期（按订单）
- 用户消费周期描述
- 用户消费周期分布
用户生命周期(按第一次&最后一次消费)
- 用户生命周期描述
- 用户生命周期分布

(1) 用户第一次消费

grouped_user.min().order_dt.value_counts().plot()#最小的时间，第一次购买

用户第一次购买分布，集中在前三个月
其中，在2月11日至2月15日有一次剧烈的波动（渠道或奖励机制发生了变化）

(2) 用户最后一次消费

grouped_user.max().order_dt.value_counts().plot()#最近一次消费

用户最后一次购买的分布比第一次分布广
大部分最后一次购买，集中在前三个月，说明有很多用户购买了一次就不再进行购买（在真实的场景中，可能是逐渐的缓慢累加）
随着时间递增，最后一次购买数也在递增，消费呈现流失上升的状况（运营的用户忠诚度下降）

(3）新老客消费比

user_life = grouped_user.order_dt.agg(['min','max'])#第一次消费时间，最后一次消费时间
user_life.head()

	min	max
user_id
1	1997-01-01	1997-01-01
2	1997-01-12	1997-01-12
3	1997-01-02	1998-05-28
4	1997-01-01	1997-12-12
5	1997-01-01	1998-01-03

(user_life['min'] == user_life['max']).value_counts()
#判断新老客户的对比（理性角度多少用户消费消费一次会逐渐降低，流失得越来越多）--多少用户消费一次的时间占比

True     12054
False    11516
dtype: int64

有一半用户，就消费了一次

（4）用户分层 -RFM(用户消费额，用户消费次数，用户最近一次消费)-象限法

①RFM模型分析

rfm = df.pivot_table(index = 'user_id',
              values = ['order_products','order_amount','order_dt'],
              aggfunc = {'order_dt':'max',
                         'order_amount':'sum',
                         'order_products':'sum'})
rfm.head()

	order_amount	order_dt	order_products
user_id
1	11.77	1997-01-01	1
2	89.00	1997-01-12	6
3	156.46	1998-05-28	16
4	100.50	1997-12-12	7
5	385.61	1998-01-03	29

rfm['R'] = - (rfm.order_dt-rfm.order_dt.max())/np.timedelta64(1,'D')
rfm.rename(columns = {'order_products':'F','order_amount':'M'},inplace = True)
rfm.head()

	M	order_dt	F	R
user_id
1	11.77	1997-01-01	1	545.0
2	89.00	1997-01-12	6	534.0
3	156.46	1998-05-28	16	33.0
4	100.50	1997-12-12	7	200.0
5	385.61	1998-01-03	29	178.0

def rfm_func(x):
    level = x.apply(lambda x:'1'if x>= 0 else '0')
    label = level.R +level.F + level.M 
    d = {'111':'重要价值客户',
         '011':'重要保持客户',
         '101':'重要挽留客户',
         '001':'重要发展客户',
         '110':'一般价值客户',
         '010':'一般保持客户',
         '100':'一般挽留客户',
         '000':'一般发展客户',
    }
    result = d[label]
    return result

rfm['label'] = rfm[['R','F','M']].apply(lambda x:x-x.mean()).apply(rfm_func,axis =1)
rfm.head()#由于极值得影响，这里得平均值偏高，使结果不太准确，改成中位数等，
#5等分等，人工排除（切比雪夫）

#有价值需发展
#有一段时间没消费，比平均消费频次低，金额高
#最近消费过
#+字符串连接

	M	order_dt	F	R	label
user_id
1	11.77	1997-01-01	1	545.0	一般挽留客户
2	89.00	1997-01-12	6	534.0	一般挽留客户
3	156.46	1998-05-28	16	33.0	重要保持客户
4	100.50	1997-12-12	7	200.0	一般发展客户
5	385.61	1998-01-03	29	178.0	重要保持客户

rfm.groupby('label').sum()

	M	F	R
label
一般价值客户	7181.28	650	36295.0
一般保持客户	19937.45	1712	29448.0
一般发展客户	196971.23	13977	591108.0
一般挽留客户	438291.81	29346	6951815.0
重要价值客户	167080.83	11121	358363.0
重要保持客户	1592039.62	107789	517267.0
重要发展客户	45785.01	2023	56636.0
重要挽留客户	33028.40	1263	114482.0

从RFM分层可知，大部分用户为重要保持用户，这是由于极值的影响，所有RFM的划分标准应该为业务为准

尽量用小部分的用户覆盖大部分的额度
不要为了数据好看划分等级

rfm.loc[rfm.label == '重要价值客户','color'] = 'k'
rfm.loc[rfm.label == '重要保持客户','color'] = 'r'
rfm.loc[rfm.label == '重要发展客户','color'] = 'gold'
rfm.loc[rfm.label == '重要挽留客户','color'] = 'y'
rfm.loc[rfm.label == '一般保持客户','color'] = 'g'
rfm.loc[rfm.label == '一般价值客户','color'] = 'b'
rfm.loc[rfm.label == '一般发展客户','color'] = 'c'
rfm.loc[rfm.label == '一般挽留客户','color'] = 'm'
rfm.plot.scatter('F','R',c = rfm.color)

rfm.head()

	M	order_dt	F	R	label	color
user_id
1	11.77	1997-01-01	1	545.0	一般挽留客户	m
2	89.00	1997-01-12	6	534.0	一般挽留客户	m
3	156.46	1998-05-28	16	33.0	重要保持客户	r
4	100.50	1997-12-12	7	200.0	一般发展客户	c
5	385.61	1998-01-03	29	178.0	重要保持客户	r

② 用户分层 -用户生命周期相关（新客/老客…）

新用户：第一次消费
活跃用户：一直持续消费
回流：之前没有消费，有一段时间没消费，现在又消费了（时间间隔不定）
流失/不活跃：有一短时间没消费，或者上月消费这月不消费

#数据透视
pivoted_counts = df.pivot_table(index = 'user_id',
               columns = 'month',
               values = 'order_dt',
              aggfunc = 'count').fillna(0)
pivoted_counts.head()

month	1997-01-01 00:00:00	1997-02-01 00:00:00	1997-03-01 00:00:00	1997-04-01 00:00:00	1997-05-01 00:00:00	1997-06-01 00:00:00	1997-07-01 00:00:00	1997-08-01 00:00:00	1997-09-01 00:00:00	1997-10-01 00:00:00	1997-11-01 00:00:00	1997-12-01 00:00:00	1998-01-01 00:00:00	1998-02-01 00:00:00	1998-03-01 00:00:00	1998-04-01 00:00:00	1998-05-01 00:00:00	1998-06-01 00:00:00
user_id
1	1.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
2	2.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
3	1.0	0.0	1.0	1.0	0.0	0.0	0.0	0.0	0.0	0.0	2.0	0.0	0.0	0.0	0.0	0.0	1.0	0.0
4	2.0	0.0	0.0	0.0	0.0	0.0	0.0	1.0	0.0	0.0	0.0	1.0	0.0	0.0	0.0	0.0	0.0	0.0
5	2.0	1.0	0.0	1.0	1.0	1.0	1.0	0.0	1.0	0.0	0.0	2.0	1.0	0.0	0.0	0.0	0.0	0.0

df_purchase = pivoted_counts.applymap(lambda x: 1 if x >0 else 0)
df_purchase.tail()
#简化，在一月内有消费为1，没消费为0
#透视会补上1，2月份的消费情况，为0，实质从3月份开始才生命周期开始，多重判断

month	1997-01-01 00:00:00	1997-02-01 00:00:00	1997-03-01 00:00:00	1997-04-01 00:00:00	1997-05-01 00:00:00	1997-06-01 00:00:00	1997-07-01 00:00:00	1997-08-01 00:00:00	1997-09-01 00:00:00	1997-10-01 00:00:00	1997-11-01 00:00:00	1997-12-01 00:00:00	1998-01-01 00:00:00	1998-02-01 00:00:00	1998-03-01 00:00:00	1998-04-01 00:00:00	1998-05-01 00:00:00	1998-06-01 00:00:00
user_id
23566	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
23567	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
23568	0	0	1	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0
23569	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
23570	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0

def active_status(data):
    status = []
    for i in range(18):
        
        #若本月没有消费,输入输出的判断，18个月作为一个输入，每个月的状态都判断
        if data[i] == 0:
            if len(status) > 0 :
                if status[i-1] == 'unreg':
                    status.append('unreg')
                else:
                    status.append('unactive')
            else:
                #针对第一次没消费的进行判断
                status.append('unreg')
            #之前没有注册，当前没有消费，就是未注册用户，如果之前注册，当前未消费，就是不活跃 #若本月消费
    else:
        if len(status) == 0:
            status.append('new')
            #之前的状态是0，为首购用户
        else:
            #上个月是不活跃，本月有状态，是回流
            if status[i-1] == 'unactive':
                status.append('return')
            #上月未注册，就是新用户
            elif status[i-1] == 'unreg':
                status.append('new')
            #上月活跃，活跃用户
            else:
                status.append('active')
    return status

代码逻辑
① 若本月没有消费

若之前是未注册，则依旧未未注册
若之前有消费，则为流失/补活跃
其他情况，为未注册

② 若本月有消费

若是第一次消费，则为新用户
如果之前有过消费，则上个月为不活跃，则为回流
如果上个月为未注册，则为新用户
除此之外，为活跃

#表应用
#上个月的状态left join 当前状态，逻辑加减法（业界主流）
purchase_stats = df_purchase.apply(active_status,axis=1)
purchase_stats.head(5)

purchase_stats_ct = purchase_stats.replace('unreg',np.NaN).apply(lambda x:pd.value_counts(x))
#NaN在之后的计算中不被计算，不希望参与处理
#是默认按照列来计数的吗
#数据的流通和变化，不活跃的用户越来越多，新用户少，回流稳定，得到模型，运营不利等

purchase_stats_ct.fillna(0).T.head()
#对NaN填充，T专列
purchase_stats_ct.fillna(0).T.plot.area()
#填充，转列，面积图，得到每类用户的状态

purchase_stats_ct.fillna(0).T.apply(lambda x:x/x.sum(),axis =1)
#每个月份消费用户的构成（active + new + return）
#回流多：促销好；新增多：市场部门/渠道部门给了
#return/unactive

由表可知，每月的用户消费状态变化

活跃用户，持续消费的用户，对应消费运营的质量
回流用户，之前不消费本月才消费，对应的使唤回运营
不活跃用户，对应流失

（5）用户购买周期（按订单）

order_diff = grouped_user.apply(lambda x:x.order_dt -x.order_dt.shift())#shift，将所有的数据错位,偏移相减
order_diff

user_id       
1        0            NaT
2        1            NaT
         2         0 days
3        3            NaT
         4        87 days
         5         3 days
         6       227 days
         7        10 days
         8       184 days
4        9            NaT
         10       17 days
         11      196 days
         12      132 days
5        13           NaT
         14       13 days
         15       21 days
         16       66 days
         17       50 days
         18       16 days
         19       36 days
         20       55 days
         21       84 days
         22        4 days
         23       22 days
6        24           NaT
7        25           NaT
         26      283 days
         27      162 days
8        28           NaT
         29       43 days
                   ...   
23556    69629    63 days
         69630    98 days
         69631   155 days
23557    69632        NaT
23558    69633        NaT
         69634    54 days
         69635    37 days
         69636   246 days
23559    69637        NaT
         69638    54 days
         69639    40 days
23560    69640        NaT
23561    69641        NaT
         69642   309 days
         69643   121 days
23562    69644        NaT
23563    69645        NaT
         69646   193 days
23564    69647        NaT
         69648    57 days
         69649   193 days
23565    69650        NaT
23566    69651        NaT
23567    69652        NaT
23568    69653        NaT
         69654    11 days
         69655    17 days
23569    69656        NaT
23570    69657        NaT
         69658     1 days
Name: order_dt, Length: 69659, dtype: timedelta64[ns]

df.order_dt.shift().head()#错位函数

0          NaT
1   1997-01-01
2   1997-01-12
3   1997-01-12
4   1997-01-02
Name: order_dt, dtype: datetime64[ns]

df.order_dt.head()#显示前五行

0   1997-01-01
1   1997-01-12
2   1997-01-12
3   1997-01-02
4   1997-03-30
Name: order_dt, dtype: datetime64[ns]

order_diff.describe()#描述错位相减结果

count                      46089
mean     68 days 23:22:13.567662
std      91 days 00:47:33.924168
min              0 days 00:00:00
25%             10 days 00:00:00
50%             31 days 00:00:00
75%             89 days 00:00:00
max            533 days 00:00:00
Name: order_dt, dtype: object

(order_diff/np.timedelta64(1,'D')).hist(bins =20)#去掉单位，排除空值

user_life = grouped_user.order_dt.agg(['min','max'])#第一次消费时间，最后一次消费时间
(user_life['max'] - user_life['min']).describe()

count                       23570
mean     134 days 20:55:36.987696
std      180 days 13:46:43.039788
min               0 days 00:00:00
25%               0 days 00:00:00
50%               0 days 00:00:00
75%             294 days 00:00:00
max             544 days 00:00:00
dtype: object

((user_life['max'] - user_life['min'])/np.timedelta64(1,'D')).hist(bins =20)#去掉单位，排除空值

用户的生命周期受只购买一次的用户影响比较厉害(可以排除)
用户均消费134天，中位数仅0天

#提取出一次以上的用户
u_1 = ((user_life['max'] - user_life['min']).reset_index()[0]/np.timedelta64(1,'D'))
u_1[u_1>0].hist(bins = 20)

（6）复购率和回购率(核心电商相关指标)

复购率
- 自然月内，购买多次的用户占比
回购率
- 曾经购买的用户在某一时期内再次购买的占比

pivoted_counts.head()#用户在每个月的消费次数

month	1997-01-01 00:00:00	1997-02-01 00:00:00	1997-03-01 00:00:00	1997-04-01 00:00:00	1997-05-01 00:00:00	1997-06-01 00:00:00	1997-07-01 00:00:00	1997-08-01 00:00:00	1997-09-01 00:00:00	1997-10-01 00:00:00	1997-11-01 00:00:00	1997-12-01 00:00:00	1998-01-01 00:00:00	1998-02-01 00:00:00	1998-03-01 00:00:00	1998-04-01 00:00:00	1998-05-01 00:00:00	1998-06-01 00:00:00
user_id
1	1.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
2	2.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
3	1.0	0.0	1.0	1.0	0.0	0.0	0.0	0.0	0.0	0.0	2.0	0.0	0.0	0.0	0.0	0.0	1.0	0.0
4	2.0	0.0	0.0	0.0	0.0	0.0	0.0	1.0	0.0	0.0	0.0	1.0	0.0	0.0	0.0	0.0	0.0	0.0
5	2.0	1.0	0.0	1.0	1.0	1.0	1.0	0.0	1.0	0.0	0.0	2.0	1.0	0.0	0.0	0.0	0.0	0.0

purchase_r = pivoted_counts.applymap(lambda x: 1 if x>1 else np.NaN if x==0 else 0)
purchase_r.head()

month	1997-01-01 00:00:00	1997-02-01 00:00:00	1997-03-01 00:00:00	1997-04-01 00:00:00	1997-05-01 00:00:00	1997-06-01 00:00:00	1997-07-01 00:00:00	1997-08-01 00:00:00	1997-09-01 00:00:00	1997-10-01 00:00:00	1997-11-01 00:00:00	1997-12-01 00:00:00	1998-01-01 00:00:00	1998-02-01 00:00:00	1998-03-01 00:00:00	1998-04-01 00:00:00	1998-05-01 00:00:00	1998-06-01 00:00:00
user_id
1	0.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	1.0	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	0.0	NaN	0.0	0.0	NaN	NaN	NaN	NaN	NaN	NaN	1.0	NaN	NaN	NaN	NaN	NaN	0.0	NaN
4	1.0	NaN	NaN	NaN	NaN	NaN	NaN	0.0	NaN	NaN	NaN	0.0	NaN	NaN	NaN	NaN	NaN	NaN
5	1.0	0.0	NaN	0.0	0.0	0.0	0.0	NaN	0.0	NaN	NaN	1.0	0.0	NaN	NaN	NaN	NaN	NaN

applymap和apply的差别：

apply 用在dataframe上，用于对row或者column进行计算；
applymap 用于dataframe上，是元素级别的操作；
map （其实是python自带的）用于series上，是元素级别的操作。
链接： https://www.cnblogs.com/cymwill/p/7577369.html
这个地方是由于使用if条件语句而使用applymap?

(purchase_r.sum()/purchase_r.count()).plot(figsize =(10,4))#复购的用户/总人数，10,4分别为宽和高

复购率稳定在20%左右，前三个月因为有大量新用户涌入，而这批用户只购买了一次，所有导致复购率降低

df_purchase.head()#1表示本月消费过，0表示本月未消费过

month	1997-01-01 00:00:00	1997-02-01 00:00:00	1997-03-01 00:00:00	1997-04-01 00:00:00	1997-05-01 00:00:00	1997-06-01 00:00:00	1997-07-01 00:00:00	1997-08-01 00:00:00	1997-09-01 00:00:00	1997-10-01 00:00:00	1997-11-01 00:00:00	1997-12-01 00:00:00	1998-01-01 00:00:00	1998-02-01 00:00:00	1998-03-01 00:00:00	1998-04-01 00:00:00	1998-05-01 00:00:00	1998-06-01 00:00:00
user_id
1	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
2	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0
3	1	0	1	1	0	0	0	0	0	0	1	0	0	0	0	0	1	0
4	1	0	0	0	0	0	0	1	0	0	0	1	0	0	0	0	0	0
5	1	1	0	1	1	1	1	0	1	0	0	1	1	0	0	0	0	0

def purchase_back(data):
    status = []
    for i in range(17):
        if data[i] == 1:
            if data[i+1] ==1:
                status.append(1)
            if data[i+1] ==0:
                status.append(0)
        else:
            status.append(np.NaN)
    status.append(np.NaN)
    return status
    #填充最后一个月，

import pandas as pd
import numpy as np
purchase_b = df_purchase.apply(purchase_back,axis =1)
purchase_b.head(5)

user_id
1    [0, nan, nan, nan, nan, nan, nan, nan, nan, na...
2    [0, nan, nan, nan, nan, nan, nan, nan, nan, na...
3    [0, nan, 1, 0, nan, nan, nan, nan, nan, nan, 0...
4    [0, nan, nan, nan, nan, nan, nan, 0, nan, nan,...
5    [1, 0, nan, 1, 1, 1, 0, nan, 0, nan, nan, 1, 0...
dtype: object

(purchase_b.sum()/purchase_b.count()).plot(figsize =(10,4))
##这个地方怎么回事，为解决画不出图

你可能感兴趣的:(python)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，