yangll_pd

化妆品电商平台数据分析

一、背景和方法

本项目为ModelWhale平台每周挑战的一个业务分析类项目。根据给出的关于化妆品电商平台五个月数据，进行探索性分析。找到数据异常点，并尝试分析问题的原因、给出建议

所有分析过程大致遵循以下的流程：
* 自定义函数生成分析用数据框
* 自定义函数可视化
* 调用函数展示图标
* 根据图表分析问题

数据来源：https://www.heywhale.com/mw/dataset/6246e228e1d37c001704208d/file

1.1 整体分析思路及结论

使用python等相关库从以下角度进行探索性分析。使用多维度拆解方法和RFM分析方法进行分析。

（1）从总体营运角度，以不同的时间维度，对比流量、转化率、客单价、复购率等指标的表现。找出跟预期不符的异常时间段，分析可能的原因

（2）从商品维度，分析滞销品类和畅销品类

根据统计得到滞销品、滞销品、无销量的产品类别，如果有库存建议尽促销处理。

从畅销和滞销两个层面分析，为后续选品和优化库存提供支持

（3）根据RFM分析方法对用户精细化运营

选取重要发展客户为例，研究其在不同规的时间周期下的活跃规律，选择用户活跃时间点实施营销策路。同时研究其购物行为，针对有加入购物车的商品对用户采取专门的营销策略，促成最终的成交。

（4）针对一个异常点，探索性分析其原因

分析10月初购买转化率下降的原因。采用4p营销理论，分析原因可能是平台的促销活动是有针对性的。从RFM较角度划分这部分人群属于一般挽留和重要挽留客户，结合时间维度来看，应该是10月初的促销活动只针对新用户进行的。

（5）不足

该项目属于探索性分析，对业务指标的理解和对数据显示出来信息的捕捉会有不足的地方。后期随着会根据自己对业务理解的情况进行修改

针对异常点，只挑选了一个作为代表进行分析，没有具体业务数据，原因和建议仅供参考

二、数据整体初加工

（1）了解数据
* 读取并拼接5个原始数据表，得到9个字段，20692840行记录的数据框。
* 查看各个字段的数据类型，缺失值，重复值
* 查看了解用户行为的四种类别：'cart', 'view', 'remove_from_cart', 'purchase'。
* 查看时间数据的格式，需要处理
* 查看价格字段中小于等于0的情况
* 查看重复记录

（2）数据预处理
* 删除重复记录，1109098条
* 删除缺失值严重的字段category_code
* 判断字段price为单价，删除购买记录中价格小于等于0的记录
* 时间字段的格式转换
* 时间字段的数据提取：year（年）、month（月）、week（周）、year_month（年_月），hour（小时）

（3）最终数据框
* 数据由原来的20692840行减少到19583622行。保留率95%。保存为csv文件，方便后续调用

2.1 导入相关库

# 导入需要的包
import pandas as pd
import janitor
import numpy as np
from datetime import datetime
import warnings
#可视化相关包
import matplotlib.pyplot as plt
import plotly
import plotly.graph_objects as go
import plotly.express as px
from IPython.display import HTML

from pyecharts import options as opts
from pyecharts.globals import ThemeType
from pyecharts.charts import Line,Funnel
from pyecharts.charts import Bar, Timeline
from pyecharts.commons.utils import JsCode
from mpl_toolkits.mplot3d import Axes3D
#解决pyecharts图表空白问题
from pyecharts.globals import CurrentConfig, NotebookType
CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB
CurrentConfig.ONLINE_HOST = 'https://assets.pyecharts.org/assets/'

#解决中文字体不显示，正负号不显示问题
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

warnings.filterwarnings('ignore')

%matplotlib widget

2.2 数据初加工

2.2.1 数据导入、拼接、查看

#数据读取与拼接
df1 = pd.read_csv('2019-Oct.csv')
df2 = pd.read_csv('2019-Nov.csv')
df3 = pd.read_csv('2019-Dec.csv')
df4 = pd.read_csv('2020-Jan.csv')
df5 = pd.read_csv('2020-Feb.csv')
df = pd.concat([df1,df2,df3,df4,df5],ignore_index=True)
#删除数据释放内存
del df1 ,df2,df3,df4,df5
# 查看数据形状
df.shape
# 抽查一条记录，查看数据信息
# df.sample(2)
# 自定义函数，统计数据框各字段的信息：'总数','非空数', '缺失数', '缺失率','去重数'
def get_info(df):
    # 提取数据框的字段名列表
    index = df.columns.values.tolist()
    # 需要统计的信息名称
    columns = ['项目','总数','非空数', '缺失数', '缺失率','去重数']
    info = []
    # 将各个字段统计的数据添加到info列表中
    for i in index:
        info.append([i,df.shape[0],df[i].count(),df.shape[0]-df[i].count(),
                     round((df.shape[0]-df[i].count())/df.shape[0],2),
                     df[i].nunique()])
    # 为字段名重新定义中文名
    index_labels = ['时间','用户行为类别','产品id','产品类别id','产品类别编码'
                    ,'商标','价格','用户id','用户会话']
    # 将info列表转为数据框
    df_info = pd.DataFrame(info,index=index_labels,columns=columns)  
    return df_info
# #调用自定义函数查看数据统计信息
get_info(df)

2.2.2 数据初加工

（1）price字段处理

# #用户行为类别:加入购物车，浏览，移除购物车，购买
# df['event_type'].unique()
# #查看重复值记录
# df[df.duplicated(keep=False)] #涉及2154860行
df.duplicated().sum() #1109098 条重复
## 删除重复数据
df = df.drop_duplicates()
print('所有记录中，price字段等于0的记录数量：')
print(df['price'][df['price']==0].count())
print('所有记录中，price字段小于0的记录数量：')
print(df['price'][df['price']<0].count())

print('购买行为的记录中price字段等于0的记录数量：')
print(df['price'][(df['event_type']=='purchase') & (df['price']==0)].count())#注意每条判断语句用小括号
print('购买行为的记录中price字段小于0的记录数量：')
print(df['price'][(df['event_type']=='purchase') & (df['price']<0)].count())

print('非购买行为的记录中price字段等于0的记录数量：')
print(df['price'][(df['event_type']!='purchase') & (df['price']==0)].count())
print('非购买行为的记录中price字段小于0的记录数量：')
print(df['price'][(df['event_type']!='purchase') & (df['price']<0)].count())

根据上面的统计，说明price字段是产品单价，\n所以接下来只删除购买行为记录中price字段为0和负数的记录

# #删除购买行为记录中price字段为0和负数的记录:120条记录
df = df[~((df['event_type']=='purchase') & (df['price']<=0))]
# #缺失值处理--删除category_code
df = df.drop('category_code',axis=1)

（2）时间类型数据处理

df = (
    df
    .assign(event_time=lambda d:pd.to_datetime(d['event_time'].apply(lambda x:x.strip('UTC')))) 
    .assign(year=lambda d:d['event_time'].dt.year) #增加字段‘year'
    .assign(month=lambda d:d['event_time'].dt.month)#增加字段‘month'
    .assign(week=lambda d:d['event_time'].dt.dayofweek+1)#增加字段‘week'
    .assign(y_m=lambda d:d['event_time'].astype('string').str.slice(0,7))#增加字段‘y_m'
    .assign(hour=lambda d:d['event_time'].dt.hour) #增加字段‘hour'
    .assign(weekofyear=lambda d:d['event_time'].dt.weekofyear) #增加字段‘weekofyear'
    .assign(event_time=lambda d:pd.to_datetime(d['event_time'].astype('string').str.slice(0,10)))#年月日数据信息提取
)

（3）处理后的数据保存和加载

df.shape#(19583622, 14)
# 加工数据保存
df.to_csv('./化妆品电商数据整体初加工.csv',index=False)
#加工数据读取
df = pd.read_csv('./化妆品电商数据整体初加工.csv',index_col=False,parse_dates=['event_time'])

三、营运指标分析

流量相关指标
* PV（page view）：浏览量
* UV（unique vistior）：访客数（一段时间重复访问的只算一人）
* 平均访问深度（PV/UV）
成交指标
* 日/月成交金额，日/月成交用户数

效率指标
* 日/月客单价

客单价定义：成交金额/ 成交用户数
客单价越高，支付买家数量一定的情况下，某产品的价值越高，或者某客户的价格高

分析流程
* 数据整理
* 数据可视化
* 问题总结

结论：
（1）从流量指标分析，有3个需要重点关注的时间段：
* 2019-10-1到8号，这几天的访客量大幅增加，平均访问深度却反而急剧减少。说明这段时间，有大量新的用户涌入，但是他们的浏览平均次数拉低了整体的访问深度，转化率也异常低下，属于营销失败。需要根据10月份营销活动的实际情况分析，找到导致访问深度以及cart到purchase这一环节转化率低的原因，总结经验教训。
* 2019年11月份的各方面指标表现正常，当月的营销活动比较成功。
* 2019年12月31日这天各方面的指标都急剧下降，需结合当天的具体情况分析原因

（2）客单价和效率指标分析，可以明显看到以下几个时间段的问题，具体如下：
* 2019年11月7号左右，每日购买人数暴增，客单价也有提升，活动效果理想
* 2019年11月21号左右，每日购买人数暴增，但是客单价一般
* 2019年12月31号左右，每日购买人数暴爹，客单价也不理想
* 2020年1月27号左右，购买人数暴增，客单价提升不明显
原因分析：连续的促销活动透支了客户的购买力，需结合当时业务分析具体原因

3.1 流量指标分析

3.1.1. 日流量指标分析

（1）自定义函数，统计每日不同的用户行为的总数量

# 数据准备
# 自定义函数，统计每日不同的用户行为的总数量
def table_day_liuliang(df):
    # 提取用户行为的类别
    type_list = df['event_type'].unique().tolist()
    df = df[['user_id','event_time','event_type']]
    user_analyse_day = pd.DataFrame(df['event_time'].unique(),columns=['event_time'])
    #拼接每日不同的用户行为的总次数和总人数
    for i in type_list:
        user_analyse_day = pd.merge(user_analyse_day,
                                    # 统计每日不同的用户行为的总次数
                                    (
                                      df[df['event_type']==i]
                                     .groupby(['event_time'],as_index=False)
                                     .count()
                                     [['event_time','user_id']]
                                     .rename(columns={'user_id':'日%s次数'%i})
                                     ),
                                     on='event_time' 
                                   )
        user_analyse_day = pd.merge(user_analyse_day,
                                     #统计每日不同的用户行为的总人数
                                    ( df[df['event_type']==i]
                                    .groupby(['event_time','user_id'],as_index=False)
                                    .count()
                                    .groupby('event_time',as_index=False)
                                    .count()
                                    [['event_time','user_id']]
                                    .rename(columns={'user_id':'日%s人数'%i})
                                    ),
                                     on='event_time' 
                                   )
   
    return user_analyse_day

（2）自定义函数可视化每日UV、PV、平均访问深度图

#可视化
#自定义函数可视化每日UV、PV、平均访问深度图
def figure_liuliang1(df):
    data = table_day_liuliang(df)
    fig = plt.figure(figsize=(10,6),dpi=100)
    axe = fig.add_subplot(111)
    axe.set_xlabel('日期')
    axe.set_ylabel('数量')
    axe.set_title('2019年10月至2020年2月日PV、UV、平均访问深度')

    plt.grid(color='0.5',linestyle='--',linewidth=1)
    axe.plot(data['event_time'],data['日view次数'],color='g',alpha=0.5,label='日view量（PV')
    maxd = data[data['日view次数']==data['日view次数'].max()]['event_time'].apply(lambda x:x.strftime('%Y年%m月%d日')).values[0]
    maxm = data[data['日view次数']==data['日view次数'].max()]['日view次数'].values[0]
    plt.annotate(maxd,xy=('2019-11-22',maxm),xytext=('2019-12-01',100000),xycoords='data',
                arrowprops=dict(facecolor='r',width=2,headwidth=5,shrink=8,headlength=4))
    plt.plot(data['event_time'],data['日view人数'],color='m',alpha=0.5,label='日view人数（UV）')
    mind = data[data['日view人数']==data['日view人数'].min()]['event_time'].apply(lambda x:x.strftime('%Y年%m月%d日')).values[0]
    minm = data[data['日view人数']==data['日view人数'].min()]['日view人数'].values[0]
    plt.annotate(mind,xy=('2019-12-31',minm+5000),xytext=('2019-11-20',10000),xycoords='data',
                arrowprops=dict(facecolor='r',width=2,headwidth=5,shrink=8,headlength=4))
    plt.legend()
    axe1 = axe.twinx()
    axe1.set_ylabel('UV/PV')
    axe1.plot(data['event_time'],data['日view次数']/data['日view人数'],'r-o',label='日平均访问深度')
    plt.legend(loc=2)

3.1.2. 月流量指标分析

（1）自定义函数，统计每月不同的用户行为的总数量

# 数据准备
# 自定义函数，统计每月不同的用户行为的总数量
def table_month_liuliang(df):
     # 提取用户行为的类别
    type_list = df['event_type'].unique().tolist()
    df = df[['user_id','y_m','event_type']]
    user_analyse_month = pd.DataFrame(df['y_m'].unique(),columns=['y_m'])
     #拼接每月不同的用户行为的总次数和总人数
    for i in type_list:
        user_analyse_month = pd.merge(user_analyse_month,
                                    #统计每月不同的用户行为的总次数
                                    (df[df['event_type']==i]
                                    .groupby('y_m',as_index=False)
                                    .count()
                                    [['y_m','user_id']]
                                    .rename(columns={'user_id':'月%s次数'%i})
                                     ),
                                       on='y_m'
                               )
        user_analyse_month = pd.merge(user_analyse_month,
                                #统计每月不同的用户行为的总人数
                                ( df[df['event_type']==i]
                                .groupby(['y_m','user_id'],as_index=False)
                                .count()
                                .groupby('y_m',as_index=False)
                                .count()
                                [['y_m','user_id']]
                                .rename(columns={'user_id':'月%s人数'%i})
                                ),
                                on='y_m'
                               )
                                                    
    return user_analyse_month

（2）自定义函数可视化月访问量、访客数、访问深度

#可视化
# 自定义函数可视化月访问量、访客数、访问深度
def figure_liuliang3(df):
    data = table_month_liuliang(df)
    fig = plt.figure(dpi=80)
    axe = fig.add_subplot(111)
    axe.set_xlabel('日期')
    axe.set_ylabel('访客数/访问量')
    axe.set_title('2019年10月至2020年2月月访客数/访问量/访问深度变化')
    axe.plot(data['y_m'],data['月view人数'],'y-o',alpha=0.5,label='月view人数')
    axe.plot(data['y_m'],data['月view次数'],'y-o',alpha=0.5,label='月view次数')
    plt.legend(loc=6)
    
    axe1 = axe.twinx()
    axe1.set_ylabel('UV/PV')
    axe1.plot(data['y_m'],data['月view次数']/data['月view人数'],'r-o',label='月平均访问深度')
    plt.legend(loc=7)

3.2. 转化率指标分析

3.2.1. 整体环节转化率

（1）自定义函数构建整体各环节人数及转化率表

# 数据准备
#自定义函数构建整体各环节人数及转化率表
#采用行为发生的人数来计算转化率
def table_zhuanhua(df):
    m = []
    for i in ['view','cart','purchase']:
        num = df[df['event_type']==i]['user_id'].nunique()
        m.append([i]+[num])
#         print('%s人数：'%i)
#         print(num)

    df = (
        pd.DataFrame(m,columns=['用户行为','人数'])
        .assign(转化率类型=[np.nan,'view到cart','cart到purchase'])
        .assign(转化率=lambda d:d['人数']/d['人数'].shift())
    )
    return df
#调用函数查看整体各环节人数及转化率表
table_zhuanhua(df)

（2）可视化整体转化率

#可视化整体转化率
data = table_zhuanhua(df)
fig = go.Figure(go.Funnel(x=data['人数'],y=data['用户行为'],textposition = "inside",
                          textinfo = "value+percent previous",# 显示文本信息 ['label', 'text', 'percent initial', 'percent previous', 'percent total', 'value'] 前面选项的任意组合
                          opacity = 0.65,
                          marker = {"color": ["deepskyblue", "lightsalmon", "tan"], "line": {"width": [4, 2, 3, 1],  
                       "color": ["wheat", "wheat", "blue"]}},
                          connector = {"line": {"color": "royalblue", "dash": "dot", "width": 3}}))
fig.update_layout(title='各阶段整体转化率',title_x=0.5)
HTML(fig.to_html())

3.2.2 月转化率

（1）可视化每月各环节转化率

def figure_zhuanhua1(df):
    data = table_month_liuliang(df)
    fig = plt.figure(dpi=80)
    axe = fig.add_subplot(111)
    axe.set_xlabel('日期')
    axe.set_ylabel('转化率')
    axe.set_title('2019年10月到20202月各环节月转化率')
    axe.plot(data['y_m'],data['月cart人数']/data['月view人数'],'g-o',alpha=0.5,label='view_cart转化率')
    axe.plot(data['y_m'],data['月purchase人数']/data['月cart人数'],'b-o',alpha=0.5,label='cart_purchase转化率')
    axe.plot(data['y_m'],data['月remove_from_cart人数']/data['月cart人数'],'m-*',alpha=0.5,label='remove_from_cart率')
    plt.legend()
#调用函数查看每月各环节转化率图
figure_zhuanhua1(df)

3.2.3 日转化率

（1）可视化每日各环节转化率

#可视化每日各环节转化率
def figure_zhuanhua2(df):
    data = table_day_liuliang(df)
    fig = plt.figure(figsize=(10,8),dpi=100)
    axe = fig.add_subplot(111)
    axe.set_xlabel('日期')
    axe.set_ylabel('转化率')
    axe.set_title('2019年10月到20202月各环节日转化率')
    axe.plot(data['event_time'],data['日cart人数']/data['日view人数'],'b-o',alpha=0.5,label='view_cart转化率')
    axe.plot(data['event_time'],data['日purchase人数']/data['日cart人数'],'g-o',alpha=0.5,label='cart_purchase转化率')
    axe.plot(data['event_time'],data['日remove_from_cart人数']/data['日cart人数'],'m-*',alpha=0.5,label='remove_from_cart率')
    plt.legend()
#调用函数查看每日各环节转化率
figure_zhuanhua2(df)

（2）异常点

2019年10月1日假日期间数据表现异常，日访客人数和加购人数都有有增加，而购买人数没有增加。转化率差

3.3 成交指标和客单价指标

3.3.1 日成交金额、购买用户、客单价

（1）自定义函数生成日成交金额，购买用户数，客单价数据框

# 数据准备
#自定义函数生成日成交金额，购买用户数，客单价数据框
def table_yingyun1(df):
    df_s = (
        df[['event_time','event_type','user_id','price']]
        [df['event_type']=='purchase']
        .groupby(['event_time','user_id'],as_index=False)
        .agg({'event_type':'count','price':'sum'})
        .groupby('event_time',as_index=False)
        .agg({'event_type':'count','price':'sum'})
        .rename(columns={'event_type':'每日购买人数','price':'每日成交金额'})
        .assign(客单价=lambda d:round(d['每日成交金额']/d['每日购买人数'],2))
    )
    return df_s

（2）自定义函数可视化每日成交金额及每日客单价图

#可视化
#自定义函数可视化每日成交金额及每日客单价图
def figure_yingyun1(df):
    data = table_yingyun1(df)
    fig = plt.figure(figsize=(10,6),dpi=80)
    plt.grid()
    axe = fig.add_subplot(111)
    # axe.set_ylim((0,2500))
    axe.set_xlabel('日期')
    axe.set_ylabel('每日购买人数')
    axe.set_title('2019年10月至2020年2月每日成交金额及每日客单价趋势')
    axe.plot(data['event_time'],data['每日成交金额'],'r-o',label='每日成交金额')
    plt.legend(loc=4)
    axe1 = axe.twinx()
    axe1.set_ylim((0,52))
    axe.set_ylabel('每日客单价')
    axe1.plot(data['event_time'],data['客单价'],'y--',label='每日客单价')
    plt.legend(loc=3)
# 调用函数查看每日成交金额及每日客单价图
figure_yingyun1(df)

3.3.2 月成交金额，用户数，客单价

（1）自定义函数构建月成交金额，用户数，客单价数据框

# 数据准备
#自定义函数构建月成交金额，用户数，客单价数据框
def table_yingyun2(df):
    
    df = (
        df[['y_m','event_type','user_id','price']]
        [df['event_type']=='purchase']
        .groupby(['y_m','user_id'],as_index=False)
        .agg({'user_id':'count','price':'sum'})
        .groupby('y_m',as_index=False)
        .agg({'user_id':'count','price':'sum'})
        .rename(columns={'user_id':'每月购买人数','price':'每月成交金额'})
        .assign(月客单价=lambda d:round(d['每月成交金额']/d['每月购买人数'],2))
    )
    return df

（2）自定义函数可视化月成交金额，客单价图

#可视化
#自定义函数可视化月成交金额，客单价图
def figure_yingyun2(df):
    data = table_yingyun2(df)
    fig = plt.figure(dpi=80)
    axe = fig.add_subplot(111)
    axe.set_xlabel('日期')
    axe.set_ylabel('每月成交金额')
    axe.set_title('2019年10月至2020年2月每月成交金额及客单价图')
    axe.plot(data['y_m'],data['每月成交金额'],'b-',label='每月成交金额')
    plt.legend(loc=4)
    axe1 = axe.twinx()
    axe1.set_ylabel('每月客单价')
    axe1.set_ylim((0,50))
    axe1.plot(data['y_m'],data['月客单价'],'m--',label='月客单价')
    plt.legend(loc=7)
#调用函数查看月成交金额，用户数，客单价图
figure_yingyun2(df)

'''11月份销售额明显提升，这与双11促销相关，而12月份的销售额出现了了明显的降低，
一方面是双十一透支了客户的消费力，同时12月份的促销活动做的不够理想
'''

3.4 用户数据指标

相关指标
* （有购买行为的用户）留存率：某段时间新增用户中在第n个时间段中再次使用的用户数/某段时间的新增用户数
衡量不同时期购买用户的流失情况
* 复购率：某时间段内，购买次数大于等于两次的用户占比。（一天内多次购买算作一次）

分析流程
* 数据整理
* 数据可视化
* 问题总结

结论：

* 用户留存率整体在不断降低，基于目前的数据进行的分析，没有看留存率有明显的稳定趋势，注意加强运营，提高留存率。
* 复购率变化较大，跟每日购每人数有一定的相关性，而购买人数的增加与营销活动和节日促销粘性较大，因此经常性的活动宣传或者活动力度对保持复购率有一定的作用。

3.4.1. 每日新增用户数

意义：① 用户对产品的关注度 ② 用于判断渠道推广的效果

（1）自定义函数生成每日新增用户数

#  自定义函数生成每日新增用户数
def table_rizeng(df):
    #筛选出有购买的用户数据
    d = list(df['event_time'].unique())
    l = []
    # 迭代生成不同周期后的留存数量，保存在列表中
    for i in range(len(d)):
        #筛选某月内新增的用户id
        s = set(df[df['event_time']==d[i]]['user_id'].unique())
        for p in d[:i]:
            s -= s.intersection(set(df[df['event_time']==p]['user_id'].unique()))
            
        l.append(len(s))
        
    plt.plot(d,l)

日新增用户数

3.4.2 留存率

(1) 自定义函数生成每个月新增用户留存率数据框

#  自定义函数生成每个月新增用户留存率数据框
def table_liucun(df):
    #筛选出有购买的用户数据
#     df = df[df['event_type']=='purchase']
    y_m = list(df['y_m'].unique())
    l = []
    # 迭代生成不同周期后的留存数量，保存在列表中
    for i in range(len(y_m)):
        #筛选某月内新增的用户id
        s = set(df[df['y_m']==y_m[i]]['user_id'].unique())
        for p in y_m[:i]:
            s -= s.intersection(set(df[df['y_m']==p]['user_id'].unique()))
            
        a = []
        #添加后几个月每个月的用户留存数
        for j in y_m[i+1:]:
            a.append(len((s
                        .intersection(set(df[df['y_m']==j]['user_id'].unique())))))
        #注意把没有值的位置填充为0
        if i >0:
            for q in range(i):
                a.append(0)
        l.append([len(s)]+a)
    
    return (#生成数据框
    pd.DataFrame(l)
    .rename(index=dict(zip([0,1,2,3,4],y_m)),columns=
            {0:'当月新增用户数',1:'第1个月后留存率',2:'第2个月后留存率',3:'第3个月后留存率',4:'第4个月后留存率'})
    .fillna('')
    .assign(第1个月后留存率=lambda d:round(d['第1个月后留存率']/d['当月新增用户数'],2))
    .assign(第2个月后留存率=lambda d:round(d['第2个月后留存率']/d['当月新增用户数'],2))
    .assign(第3个月后留存率=lambda d:round(d['第3个月后留存率']/d['当月新增用户数'],2))
    .assign(第4个月后留存率=lambda d:round(d['第4个月后留存率']/d['当月新增用户数'],2))  
    .T
    .replace(0,'')
    )

（2）自定义函数可视化不同月份客户的留存率

# 自定义函数可视化不同月份客户的留存率
def figure_(df):
    fig = plt.figure()
    data = table_liucun(df).iloc[1:]
    for i in range(data.shape[1]-1):
        plt.plot(data.iloc[:,i].iloc[0:(4-i)].index.values
                 ,data.iloc[:,i].iloc[0:(4-i)],label='%s'%data.columns[i],marker='o')
    plt.title('每个月新增用户在下一个周期的留存率')
    plt.legend()
#调用函数展示图表
figure_(df)

3.4.3 90天滚动复购率

初始复购率为自2020-10到2020-12月90天，之后以每30天（一个月）进行滚动，计算复购率

（1）自定义函数生成90天滚动复购率

def gundong_gugou(df):
    date_list = df['y_m'].unique().tolist()
    d = []
    for i in range(len(date_list)-2):
        # print(date_list[i])
        d.append('d%d'%i)
        date_l = []
        date_l.append(date_list[i])
        # print(date_l)
        for j in range(i+1,i+3):
            date_l.append(date_list[j])
            # print(type(date_l))
        # print(date_l)
        d[i] = (
            df[(df['event_type']=='purchase')&(df['y_m'].isin(date_l))]
            .drop_duplicates(subset=['event_time','user_id'])
            [['y_m','user_id','event_type']]
            .groupby(['user_id'])
            .count()
            .rename(columns={'y_m':'购买','event_type':'复购'})
            .assign(复购=lambda d:d['复购'].where(d['复购']>1))
            .count()
            .pipe(pd.DataFrame)
            .T
            .assign(复购率=lambda d:d['复购']/d['购买'])
            .rename(index={0:'%s~%s'%(date_l[0],date_l[2])})
             
        )
    df_ = pd.concat(d).assign(复购率=lambda d:d['复购率'].apply(lambda x:format(x,'.2%')))
    return df_

（2）90天复购率表

90天滚动复购率基本稳定。参考精益数据分析中的经验，90天复购率在15%到30%之间的公司属于，混合模式，即：电商公司应兼顾新客户的获取和回头客的招揽。一方面努力获得更多的用户，还要适时提高用户的购买频率。

四、商品指标分析

本节将产品分为有销量和没有销量两大类，从产品类别（category_id）角度分析（product_id这里不细化）分析商品相关指标，找到最热销的类别，和最滞销的类别，以求带来最大的销售业绩，同时优化库存和商品。

相关指标
* 产品贡献度分析（帕累托法则）：
累计贡献率（%）=（累加销售收入/销售总收入）*100%
* 四象限图分析：
销量和销售额划分

分析流程
* 数据整理
* 数据可视化
* 问题总结

结论：

（1）滞销类别
* 对于有销量的468个类别，结合产品贡献度和四象限两种分析方法。找到累计贡献度率80%之后的类别。
* 接着从累计贡献度率80%之后的类别中，再筛选价值更低的类别，自定义筛选系数，结果筛选出55个类别，建议尽快处理积压的库存，后续暂不考虑采购

（2）热销类别
* 通过统计分析展示了总销量、总销售额排行榜。
* 同时展示了每个月的销量、销售额排行榜
* 可进一步预测热销品未来销量（数据时间集中在年底，宣传促销活动比较多，暂时不做这方的探索）

（3）无购买记录的类别
* 找到没有销量的类别为57，占总类别数的11%，进一步分析知道这些类别中有43个类别，已经上线至少4个月以上，可视为为无效库存，考虑降价清仓处理。

（4）同时热销和热搜的产品
* 从各方面的统计分析可以看出，1487580005092295511为最佳销售类别

4.1. 有销量商品的数据分析

本项目选取一级商品类别进行分析

滞销品：销售额累计贡献率80%之后的类别，或者销量和销售额都小于平均值的类别

畅销品：销量和销售额前n的类别

4.1.1 滞销品分析

（1）自定义函数构建有销量的468个类别（category_id）的销售数据表

#自定义函数构建有销量的468个类别（category_id）的销售数据表
# print(df[df['event_type']=='purchase']['category_id'].nunique())#category_id数量总共525
# print(df[['category_id']].nunique())有销量的category_id468个
# print(df[['product_id']].nunique())#product_id数量54569
# print(df[df['event_type']=='purchase']['price'].sum())# 总销售额6348267.7
def category(df):
    data =(
        df[df['event_type']=='purchase']
        [['category_id','user_id','price']]
        .groupby(['category_id'],as_index=False)
        .agg({'user_id':'count','price':'sum'})#一天多次购买同一类产品都要计数
        .sort_values(by='price',ascending=False)
        .rename(columns={'user_id':'销量','price':'销售额'})
        .assign(销售额倒数排名=lambda d:d['销售额'].rank())
    )
    return data

（2）自定义函数进行贡献度分析，并得到累计贡献度率80%之后的类别生成列表l1

# 自定义函数进行贡献度分析
def contribution(df):
    data =(
        category(df)
        [['category_id','销售额']]
        .assign(累计贡献率=lambda d:(d['销售额'].cumsum()/d['销售额'].sum()))
        .reset_index()
    )
    
    #根据二八法则，得到累计贡献度率80%之后的类别
    l1 = data[data['累计贡献率']>0.801]['category_id'].values.tolist()
#     print('贡献度80%之后的类别：',l)
    
    fig = plt.figure(figsize=(8,6),dpi=100)
    axe = fig.add_subplot(111)
    axe.set_title('产品贡献度分析（有销量）')
    axe.set_ylabel('销售额')
    axe.set_xlabel('排名')

    x = [i+1 for i in data.index.values]
    y = data['销售额']
    axe.bar(x,y,color='g')

    axe1 = axe.twinx()
    axe1.set_ylabel('累计贡献率')
    y1 = data['累计贡献率']
    axe1.plot(x,y1,'r-',alpha=0.5)
    s = data[data['累计贡献率']<0.801].tail(1)#查看累计贡献率达到80%的数据点
    rate = (data[data['累计贡献率']<0.801].count()[0])/(df[['category_id']].nunique())#贡献度为80%的产品类别数量占总产品类别数的比率
    plt.annotate('86个类别占比16.4%，贡献了80%的销售额',xy=(86,0.8),xytext=(100,0.6),xycoords='data',
                    arrowprops=dict(facecolor='r',width=1,headwidth=6,shrink=8,headlength=4))
    return l1#(返回贡献度20%的类别)
#调用函数查看产品贡献度图，并得到累计贡献度率80%之后的类别
l1 = contribution(df)

（3）自定义函数进行四象限图分析，并找到销量和销售额都小于平均值的类别生成列表l2

# 自定义函数进行四象限图分析
def figure_cate1(df):
    data = category(df)
    fig = plt.figure(figsize=(10,6))
    plt.title('不同类比的产品四象限图评估图')
    plt.xlabel('销量')
    plt.ylabel('销售额')
    plt.scatter(data['销量'],data['销售额'],color='b',alpha=0.8)
    plt.axhline(y=data['销售额'].mean(),ls="-",color="#ff7f0e",linewidth=1)#y=0表示水平线过y=0，ls设置线条类型，linewidth设置线条粗细
    #添加垂直直线
    plt.axvline(x=data['销量'].mean(),ls="-",color="#d62728",linewidth=1)
    # 找到销量和销售额都小于平均值的类别
    l2 = data[(data['销量']

 
    
   
  （4）比较l1与l2，并分析是否是同一部分类别 
  print('累计贡献度率80%之后的类别数量为：',len(l1))
print('四象限分析法中销量和销售额都小于平均值的类别数量为：',len(l2))
print('同时存在以上两种分析方法中价值低的类别的数量为：',len(set(l1).intersection(set(l2))))  
  累计贡献度率80%之后的类别数量为： 382
四象限分析法中销量和销售额都小于平均值的类别数量为： 346
同时存在以上两种分析方法中价值低的类别的数量为： 346 
  （5）择从四象限图分析的346个类别中，继续挑选销售热度最靠后的的类别l3 
  #选择从四象限图分析的346个类别中，继续挑选销售热度最靠后的的类别l3
def figure_cate2(df):
    data = category(df)
    data = data[(data['销量']
 
  筛选出的满足条件的l3中类别的数量、类别的销量、类别的总销售额分别为：
 (55, 705, 4762.82)
 
   
   
   
  #检验这55个类别销的售额倒数排名
print('这55个类别的产品中最大的销量为：')
print(category(df)[category(df)['category_id'].isin(l3)]['销量'].max())
print('这55个类别的产品中最大的销售额为：')
print(category(df)[category(df)['category_id'].isin(l3)]['销售额'].max())
#打印这55个类别的编码
print(l3) 
   
   4.1.2 畅销品分析 
  （1）总销售排行分析，示例为销量和销售额TOP10 
  # 整体的销量和销售额排行榜TOPn
def figure_top(df,n):
    '''
    参数df是整体加工过的数据
    n：自定义排行榜名次
    '''
    x = ['top%d'%i for i in range(1,n+1)][::-1]
    tl = Timeline()
    for i in ['销量','销售额']:
        data = category(df).sort_values(by=[i],ascending=False).head(n)
        data = data[[i,'category_id']].astype({i:'float','category_id':'string'})
        y = []
        for  p , q in zip(data[i].values.tolist()[::-1],data['category_id'].values[::-1]):
            y.append({'value':p,'id':q})
        bar = (
            Bar()
            .add_xaxis(x)
            .add_yaxis(i,y,color='violet',
                       label_opts=opts.LabelOpts(position="right",formatter=JsCode(
                    "function(x){return x.data.id }"))
                      )
            .reversal_axis()
            .set_global_opts(
                title_opts=opts.TitleOpts("{0}排行榜TOP{1}".format(i,n),
                                           subtitle=None,
                                            pos_left='30%'
                                         ),
                legend_opts=opts.LegendOpts(pos_top='5%')
            )
        )
        tl.add(bar, "{}".format(i))
    return tl
figure_top(df,10).load_javascript()
figure_top(df,10).render_notebook()#注意与上一行代码在不同cell中运行，否则可能会不显示图片 
   
  （2） 每个月销售排行分析，并可视化 
  #每个月总销售额排行榜topn
def category_month(df,type_,n):
    '''
    参数df是整体加工过的数据
    type_：取值“销量”，“销售额”
    n：自定义排行榜名次
    '''
    data =(
        df[df['event_type']=='purchase']
        [['y_m','category_id','user_id','price']]
        .groupby(['y_m','category_id'],as_index=False)
        .agg({'user_id':'count','price':'sum'})#一天多次购买同一类产品都要计数
        .rename(columns={'user_id':'销量','price':'销售额'})
        .groupby(['y_m'],as_index=False)
        .apply(lambda d:d.sort_values(by=type_,ascending=False)
               .assign(排序=d[type_].rank(ascending=False)).head(n))#组内按照销售额/销量降序
        
    )
    return data
#可视化排行榜
def figure_month_top(df,type_,n):
    '''
    参数df是整体加工过的数据
    type_：取值“销量”，“销售额”
    n：自定义排行榜名次
    '''
    x = ['top%d'%i for i in range(1,n+1)][::-1]
    tl = Timeline()
    for i in ['2019-10','2019-11','2019-12','2020-01','2020-02']:
        data = category_month(df,type_,n)[category_month(df,type_,n)['y_m']==i]
        data = data[[type_,'category_id']].astype({type_:'float','category_id':'string'})
        y = []
        for  p , q in zip(data[type_].values.tolist()[::-1],data['category_id'].values[::-1]):
            y.append({'value':p,'id':q})
        bar = (
            Bar()
            .add_xaxis(x)
            .add_yaxis(type_,y,color='blueviolet',
                       label_opts=opts.LabelOpts(position="right",formatter=JsCode(
                    "function(x){return x.data.id }"))
                      )
            .reversal_axis()
            .set_global_opts(
                title_opts=opts.TitleOpts("{0}{1}排行榜TOP{2}".format(i,type_,n),
                                           subtitle=None,
                                            pos_left='30%'
                                         ),
                legend_opts=opts.LegendOpts(pos_top='5%')
            )
        )
        tl.add(bar, "{}".format(i))
    return tl
#可更改参数查看销售额或者销售数量排行榜，以下是示例
figure_month_top(df,'销售额',10).load_javascript()
figure_month_top(df,'销售额',10).render_notebook() 
   
  （3）综合分析
 从五个月的数据分析可知，不论是销售额还是销售数量来看，编号为1487580005092295511的类别都排名前三。其下有产品653种。 
  df[(df['event_type']=='purchase') &(df['category_id']==1487580005092295511)]['product_id'].nunique()  
  4.2 没有销量商品的数据分析 
  （1） 筛选没有销量的类别 
  # 没有销量的类别525-468=57
# 找到这些没有销量的类别的最早有浏览记录的时间，假定时间间隔超过1个月，尽快处理库存。
def category_nosale(df):
    return (
        df[~df['category_id'].isin(df[df['event_type']=='purchase']['category_id'])]
        [['event_time','category_id']]
        .groupby(['category_id'])
        .min()
        .assign(最早一次非购买行为的距今时长=lambda d:
                (pd.Timestamp('2020-3-1')-d['event_time']).dt.days)
        .assign(分类=lambda d:pd.cut(d['最早一次非购买行为的距今时长'],bins=[0,30,60,90,120,155]))
    ) 
  （2）自定义函数展示无销量类别的‘最早一次非购买行为的距今时长’的分布图 
  # 自定义函数展示无销量类别的‘最早一次非购买行为的距今时长’的分布
def figure_nosale(df):
    data = category_nosale(df)
    fig = plt.figure()
    axe = fig.add_subplot(111)
    axe.set_title('无销量类别的‘最早一次非购买行为的距今时长’的分布')
    axe.set_ylabel('类别数量')
    axe.set_xlabel('最早一次非购买行为的距今时长')
    axe.hist(data['最早一次非购买行为的距今时长'],bins=[0,30,60,90,120,155],color='m',alpha=0.5)
    
    m = data.groupby('分类').count()[['event_time']].rename(columns={'event_time':'类别数量'}).values.tolist()
    for i ,j in zip([0,30,60,90,120,155],[m[p][0] for p in range(len(m))]):
        plt.text(i+15,j,j,ha='center')
    plt.show() 
   
   4.3 热搜产品类别 
  （1）筛选热搜前3的产品类别 
  #热搜前3的产品类别
(
    df[['category_id','user_id']]
    .groupby('category_id')
    .count()
    .sort_values(by='user_id',ascending=False)
    .head(3)
) 
    
  从上表可以看出，1487580005092295511既是热销产品也是热搜产品。 
  5. 用户价值分析-RFM分析 
  为了实现精细化运营，使用RFM分析方法，将用户分为8类，对不同价值的用户使用不同的运营决策 
   
   R :每个用户最近一次消费的距今天数 
   F :每个用户交易总次数（一天多次算一次） 
   M :每个用户消费总额 
   
  分析流程 
   
   数据整理 
   数据可视化 
   问题总结 
   
  结论： 
   
   使用RFM分析方法，将客户分为5类，其中重要客户只有一个客户，可以结合业务具体分析该客户，可作为异常点 
   综合考虑不同客户群体的规模和各环节转化率，结合公司资源能力。可优先选择人数占比13%，而对整体销售额贡献占比42%的重点发展客户作为后续营销重点，提高这类客户的消费频率。 
   其次选择人数占比36%，对整体销售额贡献占比18.2%的一般发展客户，提高他们的消费频率和金额 
   最后人数占比大约42%的一般挽留客户，以及占比8%的重点挽留客户要要根据情况采取一定的挽留措施。 
   
  最后选择重要发展客户为例，具体研究了其上网时间特性，从而为日常促销时间点的设定提供参考 
  5.1 客户RFM分类并统计 
  5.1.1 自定义函数构建RFM表 
  # 数据整理
#自定义函数构建RFM表
def table_RFM(df):
    data = df[['event_time','event_type','user_id','price']][df['event_type']=='purchase']
    #将user_id为150318419客户排除,对分类结果没有影响
#     data =data[data['user_id']!=150318419]
    RFM = (
        data
        .assign(event_time=lambda d:d['event_time'].dt.date)
        .assign(R=lambda d:(d['event_time'].max()-d['event_time']).apply(lambda x:x.days))
        .groupby(['user_id','event_time'],as_index=False)
        .agg({'event_type':'count','price':'sum','R':'min'})
        .groupby('user_id')
        .agg({'event_type':'count','price':'sum','R':'min'})
        .rename(columns={'event_type':'F','price':'M'})

    )
    return RFM
table_RFM(df).describe() 
   
  5.1.2 自定义函数构建RFM评分表，并可视化 
  #数据整理
# 自定义函数构建RFM评分表
def table_RFM_score(df):
    RFM_score = (
        table_RFM(df)
        .assign(R_C=lambda d:np.where(d['R']>=d['R'].mean(),'1','2'))
        .assign(F_C=lambda d:np.where(d['F']>=d['R'].mean(),'2','1'))
        .assign(M_C=lambda d:np.where(d['M']>=d['R'].mean(),'2','1'))
        .assign(RFM_C=lambda d:d['R_C']+d['F_C']+d['M_C'])
        .replace({'RFM_C':dict(zip(['111','112','121','122','211','212','221','222'],
                                  ['一般挽留客户','重要挽留客户','一般保持客户','重要保持客户'
                                   ,'一般发展客户','重要发展客户','一般价值客户','重要价值客户']))}) 
        .reset_index()

    )
    return RFM_score
# 自定义函数构建RFM分类统计表
def table_RFM_stat(df):  
    RFM_num = (
        table_RFM_score(df)
        [['user_id','RFM_C']]
        .groupby('RFM_C')
        .count()
        .reindex(index=['一般挽留客户','重要挽留客户','一般保持客户','重要保持客户'
                         ,'一般发展客户','重要发展客户','一般价值客户','重要价值客户'])
        .fillna(0)
        .rename(columns={'user_id':'user_num'})
        .reset_index()
    )
    return RFM_num
#RFM模型分类可视化
data = table_RFM_score(df)
data['color'] = data['RFM_C'].map(dict(zip(data['RFM_C'].unique(),range(len(data['RFM_C'].unique())))))
fig = px.scatter_3d(data,x='R',y='F',z='M',color='color')
HTML(fig.to_html())

  
   
   
  5.1.3 自定义函数可视化根据RFM进行的客户分类及数量分布图  
  #可视化
#自定义函数可视化根据RFM进行的客户分类及数量分布图
def figure_FRM_stat(df):
    data = table_RFM_stat(df)
    #有该买记录的总人数
    m = len(table_RFM(df).index)
    fig = plt.figure(figsize=(8,6),dpi=100)
    axes = fig.add_subplot(111)
    axes.bar([i for i in range(1,9)],data['user_num'].astype('int'),color='#ff7f0e',alpha=0.5)
    axes.set_title('客户分类及数量分布图')
    axes.set_ylabel('人数')
    xlabels = ['一般挽留客户','重要挽留客户','一般保持客户','重要保持客户'
                         ,'一般发展客户','重要发展客户','一般价值客户','重要价值客户']
    plt.xticks(range(1,9),xlabels,rotation=20)
    for a,b in zip([i for i in range(1,9)],data['user_num'].astype('int')):
        plt.text(a,b+1000,'%d\n占比：%.2f'%(b,b/m),ha='center',va='center')
    plt.show()
#调用函数查看客户分类及数量分布图
figure_FRM_stat(df) 
   
  #核查所有的会员数
# 46470+9081+40210+14756+1=110518
df[df['event_type']=='purchase']['user_id'].nunique() 
  5.2 各类客户销售额贡献度 
  （1）自定义函数分析各个类别客户的销售额贡献度 
  # 自定义函数分析各个类别客户的销售额贡献度
def table_contribution(df):
    #五个月总的销售额
    #df[df['event_type']=='purchase']['price'].sum()#6348267.7
    data = table_RFM_score(df)
    total = data['M'].sum()
    print('五个月总的销售额：%d'%total)
    for i in ['一般挽留客户','重要挽留客户','一般保持客户','重要保持客户','一般发展客户','重要发展客户','一般价值客户','重要价值客户']:
        part = data[data['RFM_C']==i]['M'].sum()
        rate = round(part/total,4)
        print('%s对销售额的贡献占比：'%i,rate)
#调用函数查看贡献度
table_contribution(df) 
   
   在资源有限的情况下，可优先对重要发展客户进行运营，提高他们的消费频率。 
  5.3 各类客户的各环节转化率 
  此处用购物行为发生次数来计算转化率
 （1）各类用户各环节转化率计算 
     
def zhuanhua(df):   
    l = []
    for i in  ['一般挽留客户','重要挽留客户','一般发展客户','重要发展客户','重要价值客户']:
        data = table_RFM_score(df)
        user_id = data[data['RFM_C']==i]['user_id'].unique()
        view_num = df[(df['user_id'].isin(user_id))  & (df['event_type']=='view')]['user_id'].count()
        cart_num = df[(df['user_id'].isin(user_id))  & (df['event_type']=='cart')]['user_id'].count()
        purchase_num = df[(df['user_id'].isin(user_id))  & (df['event_type']=='purchase')]['user_id'].count()
        print(i,view_num,cart_num,purchase_num)
        view_cart = round(cart_num/view_num,2)
        cart_purchase = round(purchase_num/cart_num,2)
        l.append([i,view_cart,cart_purchase])
    return pd.DataFrame(l,columns=['分类','view_cart转化率','cart_purchase转化率']) 
   
   '''
 从上表可看出，不同客户群体的各环节转化率表现普遍良好.需根据公司资源能力，正对不同群体采用不同措施
 一般挽留客户和重要挽留客户的各环节的转换率率相比其他类别的客户也很高。针对他们应该重新激活他们进行购物
 ''' 
  5.4 精细化运营—以重要发展客户为例 
  结论 
   
   综合考虑，每周四上午十点或者下午19点，可以作为活动秒杀点 
   至于remove_from_cart最高峰发生在周一的19点，通过神马运营手段去试试改善吧 
   
  5.4.1 重要的发展客户购物时间分布 
  （1）自定义函数获取重要发展客户信息表 
  #自定义函数获取重要发展客户信息表
def important_develop(df):
    l = (
        table_RFM_score(df)
        .pipe(lambda d:d[d['RFM_C']=='重要发展客户']['user_id'])
        .values
        .tolist()
    )
    print('重要发展客户有：%d人'%len(l))
    df = df[df['user_id'].isin(l)]
    return df
#调用函数查看重要发展客户信息表
df1 = important_develop(df) 
  （2）研究重点发展客户的日常上网时间喜好并可视化  
  #研究重点发展客户的日常上网时间喜好
def figure_hour(df1):
    fig = plt.figure(figsize=(10,10))
    for i, j in zip(['view','cart','remove_from_cart','purchase'],[1,2,3,4]):
        data = (
            df1[df1['event_type']==i][['user_id','hour']]
            .groupby('hour')
            .count()
        )
        axe = fig.add_subplot(2,2,j)
        axe.bar([i for i in range(0,24)],data['user_id'],color='blue',alpha=0.5)
        plt.title('%s时间分布'%i)
        plt.xlabel('时间')
        plt.ylabel('人数') 
   
  购物高峰在上午十点，和晚上19点。促销活动可以选择设置在这两个时间点  
  （3）小结 
  综合考虑，每周四上午十点或者下午19点，可以作为活动秒杀点，至于remove_from_cart最高峰发生在周一的19点，通过神马运营手段去试试改善吧 
  5.4.2 重要发展客户RFM三个指标的分布  
  #调用函数生成重要发展客户的RFM表
df1_rfm = table_RFM(df1) 
  （1）R最近一次购买距今时间间隔（天）：重要发展客户最近一次购买距今时间间隔（天）分布 
  plt.hist(df1_rfm['R'],color='g',alpha=0.5)
plt.title('重要发展客户最近一次购买距今时间间隔（天）分布')
plt.xlabel('R')
plt.ylabel('人数') 
   
  （2）F消费频率分布  
  plt.hist(df1_rfm['F'],color='g',alpha=0.5)
plt.title('重要发展客户的消费频率分布')
plt.xlabel('消费频率')
plt.ylabel('人数') 
   
   （3）M消费金额分布 
  plt.hist(df1_rfm['M'],color='g',alpha=0.5)
plt.title('重要发展客户的消费金额分布')
plt.xlabel('消费金额')
plt.ylabel('人数') 
   
   （4）小结 
  ''' 
 重要发展客户在购物频率和购买金额上还有提升的空间，同时有一部分客户的最近购物的时间间隔有超过两个月,
 应该有针对的激活购买记忆
 ''' 
  5.4.3 用户行为分析 
  主要分析一下几种用户行为数量： 
   
   view-cart-purchase：有浏览记录和加入购物车记录并最后购买该产品的用户行为 
   view-puchase：只有浏览记录最后购买的用户行为 
   cart_purchase：直接从购物车购买的用户行为 
   view_only：只有浏览记录的用户行为 
   cart_only：只有加入购物车记录的用户行为 
   view_cart_only：浏览加入购物车的用户行为 
   
  #统计重要发展用户的行为
(
    df1[['user_id','category_id','product_id','event_type']]
    .assign(次数=1)
    .pipe(lambda d:pd.pivot_table(d,index=['user_id','category_id','product_id'],
                            columns=['event_type'],values='次数',
                             aggfunc=np.sum,fill_value=0
                                 ))
    .pipe(lambda d:d.case_when(((d.purchase>=1)&(d.view>=1)&(d.cart==0)),'view_purchase',
                                      ((d.purchase>=1)&(d.view==0)&(d.cart>=1)),'cart_purchase',
                                      ((d.purchase>=1)&(d.view>=1)&(d.cart>=1)),'view_cart_purchase',
                               ((d.purchase==0)&(d.view>=1)&(d.cart>=1)),'view_cart_only',
                               ((d.purchase==0)&(d.view>=1)&(d.cart==0)),'view_only',
                               ((d.purchase==0)&(d.view==0)&(d.cart>=1)),'cart_only',
                               ((d.purchase>0)&(d.view==0)&(d.cart==0)&(d.remove_from_cart>=1)),'purchase_remove_from_cart',
                               ((d.purchase==0)&(d.view==0)&(d.cart==0)&(d.remove_from_cart>=1)),'remove_from_cart',

                               'other',
                               column_name='行为路径'
                                     )
           )
    ['行为路径']
    .value_counts()
) 
   
   通过分析可知某个用户有某个商品的cart_only和view_cart_only行为的记录370406+193318=563724
 可优先对这部分客户加入购物车具体的某产品采取一定的营销策略，促成最终的成交。 
  5.4.4 重要发展客户日行为规律  
  （1）调用函数生成重要发展客户每日不同行为的数量、人数 
  # 调用函数生成重要发展客户每日不同行为的数量、人数
table_day_liuliang(df1) 
  （2）自定义函数可视化重要发展客户每日UV、PV、平均访问深度图 
  #可视化
#自定义函数可视化重要发展客户每日UV、PV、平均访问深度图
def figure_liuliang0(df):
    data = table_day_liuliang(df)
    fig = plt.figure(figsize=(10,6),dpi=100)
    axe = fig.add_subplot(111)
    axe.set_xlabel('日期')
    axe.set_ylabel('数量')
    axe.set_title('2019年10月至2020年2月日PV、UV、平均访问深度')

    plt.grid(color='0.5',linestyle='--',linewidth=1)
    axe.plot(data['event_time'],data['日view次数'],color='g',alpha=0.5,label='日view量（PV')

    axe.plot(data['event_time'],data['日view人数'],color='m',alpha=0.5,label='日view人数（UV）')

    plt.legend()
    axe1 = axe.twinx()
    axe1.set_ylabel('UV/PV')
    axe1.plot(data['event_time'],data['日view次数']/data['日view人数'],'r-o',label='日平均访问深度')
    plt.legend(loc=2)
figure_liuliang0(df1) 
    重要发展客户 
   
   重要发展客户的各指标基本稳定。12月30，31两天表现异常 
  （3）调用函数查看重要发展客户的日转化率 
  #调用函数查看重要发展客户的日转化率
figure_zhuanhua2(df1) 
   
  六、异常点分析--10月初成交转化率低的原因分析  
  6.1 采用4P营销理论，利用假设检验的方法寻找原因 
  6.1.1 4P营销理论—产品 
   
   假设产品一级类别在售数量减少导致10月初的成交转化率降低 
   
  可以从两个层面分析每日在售商品种类数量：一级类别数量，二级产品种类量，本例选取一级类别 
  用户有任何行为记录代表该类别或者商品ID在售 
  （1）每日在售商品一级类别数量 
  # 每日在售商品一级类别数量
(
    df[['event_time','category_id','user_id']]
    .groupby(['event_time','category_id'])
    .count()
    .groupby(['event_time'])
    .count()
    .rename(columns={'user_id':'category_num'})
    .plot()

) 
   
  从上图可以看出，10月初，产品一级类别在售数量基本稳定
 11月底公司应该有意识的对上线的产品类目进行一定的削减，或者促销重点改变。
 而12月底这次的类目数量急剧减少，具体原因需要跟营销部门沟通  
  （2）再以热销一级类别1487580005092295511为例，查看每日二级product_id的日在售种类数 
  #再以热销一级类别1487580005092295511为例，查看每日二级product_id的日在售种类数
(
    df[df['category_id']==1487580005092295511]
    [['event_time','product_id','user_id']]
    .groupby(['event_time','product_id'])
    .count()
    .groupby(['event_time'])
    .count()
    .rename(columns={'user_id':'product_num'})
    .plot()

) 
   
   
  （3）热销类别为1487580005092295511的在10月初的售商品数量基本稳定。综上，假设产品一级类别在售数量减少导致10月初的成交转化率降低，假设不成立 
  6.1.2 4P营销理论——价格 
   
   假设产品一级类别在售价格降低导致10月初的成交转化率降低 
   
  （1）以热销一级类别1487580005092295511为例，分析每日在售类别价格  
  ## 假设12月31日产品一级类别的价格上升销售额的降低
## 以热销一级类别1487580005092295511为例，每日在售类别价格
(
    df[df['category_id']==1487580005092295511]
    [['event_time','price']]
    .groupby('event_time')
    .mean()
    .plot()
) 
   
  （2）从图中可以看出，10月出处=初的商品均价基本稳定 ，假设不成立 
  6.1.3 4P营销理论——渠道 
  由于案例中没有渠道相关数据，这里我们选择不同客户群体来分析，看是哪部分客户群体在当天表现不佳。 
   
   假设某些客户群体的行为表现导致10月初的成交转化率降低 
   
  （1）自定义函数生成不同价值用户的信息表 
  def different_c(df,t):
    l = (
        table_RFM_score(df)
        .pipe(lambda d:d[d['RFM_C']==t]['user_id'])
        .values
        .tolist()
    )
    print('%s有：%d人'%(t,len(l)))
    df = df[df['user_id'].isin(l)]
    return df 
  （2）分析不同价值用户的日流量和各环节转化率图  
  t=['一般挽留客户','重要挽留客户','一般发展客户','重要发展客户']
for i in t:
    客户 = different_c(df,i)
    table_day_liuliang(客户)#调用自定义日流量指标函数
    figure_liuliang0(客户)#调用自定义函数生成日流量指标可视化图
    figure_zhuanhua2(客户)#调用自定义函数生成转化率可视化图 
  一般挽留客户的日流量图和转化率图  
    
  重要挽留客户的日流量图和转化率图   
    
  一般发展客户的日流量图和转化率图    
    
  重要发展客户的日流量图和转化率图     
    
  （3）根据以上分析，促销活动应该是针对的一般挽留和重要挽留客户，所以这两类客户的转化率比较高。一般发展和重要发展用户转化率较低。或者促销是针对新用户进行的。 
  6.1.3 4P营销理论——宣传 
  从数据来看10月初，平台进行了相关的促销方案。结合6.1.3应该是平台的在这个时间段的促销方案主要针对新用户 
  6.2 结论 
  10月初转化率下降的原因可能是平台的促销活动是有针对性的。从RFM较角度划分这部分人群属于一般挽留和重要挽留客户，结合时间维度来看，应该是10月初的促销活动只针对新用户进行的。 
  （同时还能看出，12月底这次转化率的大幅下降，跟运营策略的调整，上线产品的二级（product_id）类目数量和种类调整有很大的关系。）

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

化妆品电商平台数据分析

一、背景和方法

1.1 整体分析思路及结论

二、数据整体初加工

2.1 导入相关库

2.2 数据初加工

2.2.1 数据导入、拼接、查看

2.2.2 数据初加工

三、营运指标分析

3.1 流量指标分析

3.1.1. 日流量指标分析

3.1.2. 月流量指标分析

3.2. 转化率指标分析

3.2.1. 整体环节转化率

3.2.2 月转化率

3.2.3 日转化率

3.3 成交指标和客单价指标

3.3.1 日成交金额、购买用户、客单价

3.3.2 月成交金额，用户数，客单价

3.4 用户数据指标

3.4.1. 每日新增用户数

3.4.2 留存率

3.4.3 90天滚动复购率

四、商品指标分析

4.1. 有销量商品的数据分析

4.1.1 滞销品分析

4.1.2 畅销品分析

4.2 没有销量商品的数据分析

4.3 热搜产品类别

5. 用户价值分析-RFM分析

5.1 客户RFM分类并统计

5.1.1 自定义函数构建RFM表

5.1.2 自定义函数构建RFM评分表，并可视化

5.1.3 自定义函数可视化根据RFM进行的客户分类及数量分布图

5.2 各类客户销售额贡献度

5.3 各类客户的各环节转化率

5.4 精细化运营—以重要发展客户为例

5.4.1 重要的发展客户购物时间分布

5.4.2 重要发展客户RFM三个指标的分布

5.4.3 用户行为分析

5.4.4 重要发展客户日行为规律

六、异常点分析--10月初成交转化率低的原因分析

6.1 采用4P营销理论，利用假设检验的方法寻找原因

6.1.1 4P营销理论—产品

6.1.2 4P营销理论——价格

6.1.3 4P营销理论——渠道

6.1.3 4P营销理论——宣传

6.2 结论

你可能感兴趣的:(数据分析,python)