caxiou

大数据毕设选题 - 京东消费数据分析与可视化（python 大数据机器学习）

文章目录

1 前言
2 数据处理
3 数据分析
- 3.1 每日UV(访客数)与每日PV（访客量）
- 3.2 人群图像
- 3.3 转化率
4 产品数据分析
- 4.1 销量
5 建立回归模型
6 最后

1 前言

Hi，大家好，这里是丹成学长的毕设系列文章！

对毕设有任何疑问都可以问学长哦!

这两年开始，各个学校对毕设的要求越来越高，难度也越来越大… 毕业设计耗费时间，耗费精力，甚至有些题目即使是专业的老师或者硕士生也需要很长时间，所以一旦发现问题，一定要提前准备，避免到后面措手不及，草草了事。

为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的新项目是

基于大数据的京东消费行为分析与可视化

学长这里给一个题目综合评分(每项满分5分)

难度系数：4分
工作量：4分
创新点：3分

选题指导, 项目分享：

https://gitee.com/yaa-dc/BJH/blob/master/gg/cc/README.md

2 数据处理

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import seaborn as sns
from pylab import *
from pyecharts.charts import *
from pyecharts import options as opts
from pyecharts.commons.utils import JsCode
import textwrap
# 中文设置
plt.rcParams['font.sans-serif']=['Microsoft YaHei'] 
plt.rcParams['axes.unicode_minus']=False
plt.rc('font',family = 'Microsoft YaHei',size = '15')
warnings.filterwarnings("ignore")
%matplotlib inline

# 读取数据
data = pd.read_excel('D:/data/京东消费者分析数据.xlsx')
data.head(10)

# 查看数据量
print('数据条数：{} \n数据字段：{}'.format(data.shape[0],data.shape[1]))

#字段中文命名
data.columns = ["客户id","产品id","行为时间","行为id","行为类别","年龄分段","性别","客户注册日期",\
                "会员级别","会员城市级别","产品品牌","店铺id","产品类别","产品上市日期","商家id",\
                "粉丝数","会员数","开店时间","店铺主营","店铺打分"]
data.head(10)

data.info()

# 缺失率
data.isnull().mean()

缺失字段只有“年龄分段”，“会员城市级别”，“开店时间”。
其中“年龄分段”，“会员城市级别”数据量占比很少，可以去除
“开店时间”缺失达到1/3,暂时保留数据，需要相关分析时再去除。

# 删除缺失值
data.dropna(subset=['年龄分段','会员城市级别'],inplace=True)
print(data.shape)
data.isnull().mean()

# 删除重复值
data.drop_duplicates(inplace=True)
print(data.shape)

# 数据描述
print('行为类别包含：{}'.format(data['行为类别'].unique()))
print('性别包含：{}'.format(data['性别'].unique()))
print('产品类别包含：{}'.format(data["产品类别"].unique()))
print('年龄分段包含：{}'.format(data['年龄分段'].unique()))
data[['年龄分段','粉丝数','会员数','店铺打分']].describe()[1:]

# 异常值判断

print(len(data[data['店铺打分'] < 0]))
print(len(data[data['店铺打分'] < 0]) / data.shape[0])

店铺打分出现负值，考虑到可能是差评，但是常规评分为（0-10)，认为0分已经是差评了，具体要看实际业务评定，这里考虑到数量极少，可以视为0分处理

#替换异常值
data['店铺打分'] = data['店铺打分'].apply(lambda x: 0 if x<0 else x)
data[['年龄分段','粉丝数','会员数','店铺打分']].describe()[1:]

# 转化行为时间，提取年份、月份、日、周数据
pd.to_datetime(data['行为时间'],format="%Y-%m-%d")
data['年份'] = data['行为时间'].dt.year
data['月份'] = data['行为时间'].dt.month
data['日'] = data['行为时间'].dt.day
data['周'] = data['行为时间'].dt.weekday
data['日期'] = data['行为时间'].dt.date
data['小时'] = data['行为时间'].dt.hour
# 重建data索引
data = data.reset_index(drop = True)
data.head()

3 数据分析

3.1 每日UV(访客数)与每日PV（访客量）

# 计算每日的UV
uv_data = data.drop_duplicates(subset = ['日期','客户id'])
uv_data = uv_data[['日期','客户id']].groupby(['日期']).count().reset_index()
uv_data.rename(columns = {'客户id':'日UV'},inplace = True)
uv_data.head()

# 绘制平滑好看的折线图函数
def echarts_line(x,y,title = '主标题',subtitle = '副标题',label = '图例'):
    """
    x: 函数传入x轴标签数据
    y：函数传入y轴数据
    title：主标题
    subtitle：副标题
    label：图例
    """
    line = Line(
        init_opts=opts.InitOpts(
            bg_color='#080b30',  # 设置背景颜色
            theme='dark',         # 设置主题
            width='1200px',     # 设置图的宽度
            height='600px',     # 设置图的高度
        )
    )
    line.add_xaxis(x)
    line.add_yaxis(
        label,
        y,
        is_symbol_show=False,  # 是否显示数据标签点
        is_smooth=True,        # 设置曲线平滑
        label_opts=opts.LabelOpts(
            is_show=False,     # 是否显示数据
        ),
        itemstyle_opts=opts.ItemStyleOpts(color='#00ca95'),  # 设置系列颜色
        # 线条粗细阴影设置
        linestyle_opts={
            "normal": {
                "color": "#00ca95",  #线条颜色
                "shadowColor": 'rgba(0, 0, 0, .3)', #阴影颜色和不透明度
                "shadowBlur": 2,     #阴影虚化大小
                "shadowOffsetY": 5,  #阴影y偏移量
                "shadowOffsetX": 5,  #阴影x偏移量
                "width": 6   # 线条粗细
            },
        },
        # 阴影设置
        areastyle_opts={
            "normal": {
                "color": JsCode("""new echarts.graphic.LinearGradient(0, 0, 0, 1, [{
                                offset: 0,
                                color: 'rgba(0,202,149,0.5)'
                            },
                            {
                                offset: 1,
                                color: 'rgba(0,202,149,0)'
                            }
                        ], false)"""),  #设置底色色块渐变
                "shadowColor": 'rgba(0,202,149, 0.9)',  #设置底色阴影
                "shadowBlur": 20  #设置底色阴影大小
            }
        },
    )
    line.set_global_opts(
        # 标题设置
        title_opts=opts.TitleOpts(
            title=title, # 主标题
            subtitle=subtitle, # 副标题
            pos_left='center',  # 标题展示位置
            title_textstyle_opts=dict(color='#fff') # 设置标题字体颜色
        ),
        # 图例设置
        legend_opts=opts.LegendOpts(
            is_show=True, # 是否显示图例
            pos_left='right', # 图例显示位置
            pos_top='3%',  #图例距离顶部的距离
            orient='horizontal'  # 图例水平布局
        ),
        tooltip_opts=opts.TooltipOpts(
        is_show=True,  # 是否使用提示框
        trigger='axis',  # 触发类型
        is_show_content = True,
        trigger_on='mousemove|click',  # 触发条件，点击或者悬停均可出发
        axis_pointer_type='cross',  # 指示器类型，鼠标移动到图表区可以查看效果
        # formatter = '{a}
{b}:{c}人'  # 文本内容
        ),
        datazoom_opts=opts.DataZoomOpts(
        range_start=0,  # 开始范围
        range_end=50,  # 结束范围
        # orient='vertical',  # 设置为垂直布局
        type_='slider',  # slider形式
        is_zoom_lock=False,  # 锁定区域大小
        # pos_left='1%'  # 设置位置
        ),
        yaxis_opts=opts.AxisOpts(
        is_show=True,
        splitline_opts=opts.SplitLineOpts(is_show=False), # 分割线
        axistick_opts=opts.AxisTickOpts(is_show=False), # 刻度不显示
        ),   # 关闭Y轴显示
        xaxis_opts=opts.AxisOpts(
        boundary_gap=False,    # 两边不显示间隔
        axistick_opts=opts.AxisTickOpts(is_show=True),  # 刻度不显示
        splitline_opts=opts.SplitLineOpts(is_show=False),  # 分割线不显示
        axisline_opts=opts.AxisLineOpts(is_show=True),  # 轴不显示
        axislabel_opts=opts.LabelOpts(  # 坐标轴标签配置
            font_size=10,  # 字体大小
            font_weight='light' # 字重
            )
    ),
    )
    return line.render_notebook()

# 日UV变化图
echarts_line(uv_data['日期'].tolist(),uv_data['日UV'].tolist(),title = '日UV变化图',subtitle = '每日UV变化图',label = 'UV')

因为月份过少，且4月数据不完整，只分析每日UV(访客数)。

1.在2月上旬属于平台高峰期，且在2月15日出现了最低谷，大概率是京东平台在2月上旬为2月14日情人节准备了预热活动，加上客户为情人节准备礼物的原因。

2.3月27日，3月28两日的UV出现了异常，出现断崖式低峰，而3月29日又立刻恢复了正常，需要重点查明UV低下的原因，暂时分析的原因可能是数据出错或者两日内平台出现技术上的问题，使得用户无法登录。

3.其他日期的数据变化相对较为平缓，属于正常趋势。

# 日PV变化
day_pv_data = data[['日期','客户id']].groupby('日期').count().reset_index()
day_pv_data.rename(columns = {'客户id':'日PV'},inplace = True)
day_pv_data.head()

# 日pv变化图
echarts_line(day_pv_data['日期'].tolist(),day_pv_data['日PV'].tolist(),title = '日PV变化图',subtitle = '每日PV变化图',label = 'PV')

日PV（访客量)的变化趋势跟日UV（访客数）的访客变化趋势大致一致，分析一致，不多累述。

3.2 人群图像

# 客户性别比例
user_gender = data[['客户id','性别']].drop_duplicates(subset = ['客户id'])
gender_rate = user_gender.groupby('性别').count().reset_index()
gender_rate.rename(columns={'客户id':'人数'},inplace=True)
gender_rate.drop(gender_rate[gender_rate['性别']=='U'].index, inplace=True)
gender_rate['比例'] = gender_rate["人数"] / gender_rate["人数"].sum()
gender_rate = gender_rate.reset_index(drop=True)
gender_rate

# 购买数量性别比例
buy_gender = data[['产品id','性别']]
gender_buy_rate = buy_gender.groupby('性别').count().reset_index()
gender_buy_rate.rename(columns={'产品id':'购买数量'},inplace=True)
gender_buy_rate.drop(gender_buy_rate[gender_buy_rate['性别']=='U'].index, inplace=True)
gender_buy_rate['比例'] = gender_buy_rate["购买数量"] / gender_buy_rate["购买数量"].sum()
gender_buy_rate = gender_buy_rate.reset_index(drop=True)
gender_buy_rate

# 年龄分布
age_data = data[['客户id','年龄分段']].drop_duplicates(subset = ['客户id'])
age_rate = age_data.groupby('年龄分段').count().reset_index()
age_rate.drop(age_rate[age_rate['年龄分段']==3].index,inplace=True)
age_rate.rename(columns={'客户id':'人数'},inplace=True)
age_rate['比例'] = age_rate['人数'] / age_rate['人数'].sum()
age_rate

c = (
    Pie()
    .add(
        "",
        [list(z) for z in zip(age_rate['年龄分段'].tolist(),age_rate['比例'].round(4).tolist())],
        center=["35%", "50%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="年龄分布比例"),
        legend_opts=opts.LegendOpts(pos_left="15%"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)
c.render_notebook()

性别分布上，该平台无论客户人数还是购买产品数量上的男女比例都是男性占大多数，约比女性多一倍，产品和营销活动可以多以男性为主，但是考虑到部分产品品牌类别原因，如珠宝，化妆品等产品为主的门店仍然应该以女性为主导。

年龄分布上，该数据集年龄分段为3的数据因为异常被删除，在剩下的五个年龄分段中，以5，6年龄分段的人数占大多数，约80%，重点关注这两个年龄段人群进行广告，活动引流，具体代表的年龄需要查看实际业务年龄分段的区间。

3.3 转化率

# 计算各环节的人数
view_data = data[data['行为类别'] == 'PageView'].drop_duplicates(subset = ['日期','客户id'])[['日期','客户id']].groupby('日期').count().reset_index()
follow_data = data[data['行为类别'] == 'Follow'].drop_duplicates(subset = ['日期','客户id'])[['日期','客户id']].groupby('日期').count().reset_index()
cart_data = data[data['行为类别'] == 'SavedCart'].drop_duplicates(subset = ['日期','客户id'])[['日期','客户id']].groupby('日期').count().reset_index()
order_data = data[data['行为类别'] == 'Order'].drop_duplicates(subset = ['日期','客户id'])[['日期','客户id']].groupby('日期').count().reset_index()
user_data = data.drop_duplicates(subset = ['日期','客户id'])[['日期','客户id']].groupby('日期').count().reset_index()
view_data.rename(columns = {'客户id':'浏览'},inplace = True)
follow_data.rename(columns = {'客户id':'收藏'},inplace = True)
cart_data.rename(columns ={'客户id':'加入购物车'},inplace = True)
order_data.rename(columns = {'客户id':'购买'},inplace = True)
user_data.rename(columns = {'客户id':'用户数量'},inplace = True)
transform_data = pd.merge(pd.merge(pd.merge(pd.merge(view_data,follow_data,how = 'left',on = '日期'),cart_data,how = 'right',on = '日期'),order_data,how = 'left',on = '日期'),user_data,how = 'left',on = '日期')
transform_data

transform_data['浏览-加购转化率'] = transform_data['加入购物车'] / transform_data['浏览']
transform_data['浏览-加购转化率'] = transform_data['浏览-加购转化率'].round(4)
transform_data['加购-购买转化率'] = transform_data['购买'] / transform_data['加入购物车']
transform_data['加购-购买转化率'] = transform_data['加购-购买转化率'].round(4)
transform_data['加购率'] = transform_data['加入购物车'] / transform_data['用户数量']
transform_data['加购率'] = transform_data['加购率'].round(4)
transform_data['购买率'] = transform_data['购买'] / transform_data['用户数量']
transform_data['购买率'] = transform_data['购买率'].round(4)
transform_data

由于数据行为类别字段中的加入购物车只有4月份的数据，所以这次的转化率是以一周的的数据计算周转化率，

cate = ['浏览', '加入购物车', '购买']
trans_data = [int(transform_data['浏览'].sum()), int(transform_data['加入购物车'].sum()), int(transform_data['购买'].sum())]

funnel = Funnel(
        init_opts=opts.InitOpts(
            bg_color='#E8C5CB50',  # 设置背景颜色
            theme='essos',         # 设置主题
            width='1000px',     # 设置图的宽度
            height='600px'     # 设置图的高度
        )
)
funnel.add(
    " ", 
    [list(z) for z in zip(cate, trans_data)],
    # is_label_show=True,  # 确认显示标签
    )
funnel.set_series_opts( # 自定义图表样式
    label_opts=opts.LabelOpts(
        is_show=True,
        formatter="{a}\n{b} : {c}",
        position = "inside",
        font_weight = 'bolder',
        font_style = 'oblique',
        font_size=15,
        ), # 是否显示数据标签
    itemstyle_opts={  
        "normal": {
     # 调整柱子颜色渐变
            'shadowBlur': 8,   # 光影大小
            "barBorderRadius": [100, 100, 100, 100],  # 调整柱子圆角弧度
            "shadowColor": "#E9B7D3", # 调整阴影颜色
            'shadowOffsetY': 6,
            'shadowOffsetX': 6,  # 偏移量
        }
    }
)
funnel.set_global_opts(
# 标题设置
    title_opts=opts.TitleOpts(
        title='整体各环节漏斗图', # 主标题
        subtitle='浏览-加购-购买各环节人数', # 副标题
        pos_left='center',  # 标题展示位置
        title_textstyle_opts=dict(color='#5A3147'), # 设置标题字体颜色
        subtitle_textstyle_opts=dict(color='#5A3147')
    ),
    legend_opts=opts.LegendOpts(
        is_show=True, # 是否显示图例
        pos_left='right', # 图例显示位置
        pos_top='3%',  #图例距离顶部的距离
        orient='vertical',  # 图例水平布局
        textstyle_opts=opts.TextStyleOpts(
            color='#5A3147',  # 颜色
            font_size='13',   # 字体大小
            font_weight='bolder',   # 加粗
    ),
    ),
)
funnel.render_notebook()

# 整体各转化率计算
view_cart_rate = round((transform_data['加入购物车'].sum() / transform_data['浏览'].sum())*100,2)
cart_order = round((transform_data['购买'].sum() / transform_data['加入购物车'].sum())*100,2)
cart_rate = round((transform_data['加入购物车'].sum() / transform_data['用户数量'].sum())*100,2)
order_rate = round((transform_data['购买'].sum() / transform_data['用户数量'].sum())*100,2)
view_cart_rate

# 整体转换率的查看
def chart_gauge(num,title = '主标题',label = '图例'):
    gauge = Gauge(
        init_opts=opts.InitOpts(
            bg_color='#E8C5CB50',  # 设置背景颜色
            theme='essos',         # 设置主题
            width='500px',     # 设置图的宽度
            height='500px'     # 设置图的高度
        )
    )
    gauge.add(
            label, 
            [(title,num)],
            min_ = 0,   # 最小的数据值
            max_ = 40,  # 最大的数据值
            radius =  "75%",  # 仪表盘半径
            title_label_opts=opts.LabelOpts(
                font_size=20,
                color="#ECBBB5", 
                font_family="Microsoft YaHei",  # 设置字体、颜色、大小
                font_weight = "bolder",
            ),
            axisline_opts=opts.AxisLineOpts(
                linestyle_opts=opts.LineStyleOpts(
                    color=[(0.3, "#FFDFE3"), (0.7, "#F3BFCC"), (1, "#FB92A3")], width=30  # 设置区间颜色、仪表宽度
                )
            ),
            detail_label_opts = opts.GaugeDetailOpts(  # 配置数字显示位置以及字体、颜色等
                is_show=True,
                offset_center = [0,'40%'],  # 数字相对位置，可以是绝对数值，也可以是百分比
                color = '#5A3147',      # 文字颜色  
                formatter="{}%".format(num),       # 文字格式化
                font_style = "oblique",  # 文字风格
                font_weight = "bold",  #字重
                font_size = 35,
                ),
            )
    gauge.set_series_opts( # 自定义图表样式
        itemstyle_opts={  
            "normal": {
            # 调整指针颜色渐变
                'shadowBlur': 8,   # 光影大小
                "shadowColor": "#E9B7D3", # 调整阴影颜色
                'shadowOffsetY': 6,
                'shadowOffsetX': 6,  # 偏移量
            }
        }
    )
    gauge.set_global_opts(
        legend_opts=opts.LegendOpts(
            is_show=True, # 是否显示图例
            pos_left='right', # 图例显示位置
            # pos_top='3%',  #图例距离顶部的距离
            orient='vertical',  # 图例水平布局
            textstyle_opts=opts.TextStyleOpts(
                color='#5A3147',  # 颜色
                font_size='13',   # 字体大小
                font_weight='bolder',   # 加粗
            ),
        ), 
    )
    return gauge.render_notebook()

chart_gauge(view_cart_rate,title = '浏览-加购总体转化率',label = '转化率')

chart_gauge(cart_order,title = '加购-购买总体转化率',label = '转化率')

chart_gauge(cart_rate,title = '总体加购率',label = '加购率')

chart_gauge(order_rate,title = '总体购买率',label = '购买率')

1.绘制各环节的销售漏斗图可以发现，用户从浏览-加入购物车的转换率较低，大部分用户在浏览了商品以后，就直接划走了，并不会加入购物车，浏览到加购的总体转换率只有15.04%，这个数据并不是很客观，原因有可能是商品推荐的并不是用户喜欢的想购买的，或者是用户在浏览了产品后，并不会被商品详情页吸引，因此需要进一步查看从浏览-加入购物车过程中，到底在哪一部分使得用户放弃了加入购物车。

2.绘制各环节转化率的仪表盘，可以发现，加购到购买的转化率还可以，有41.5%，说明加入购物车的客户还是有比较强的购买欲，应该尽量做多活动，新品竞品吸引客户，引导客户加入购物车，提高购买量。

3.总体购买率同样也不高，仅有6.24%，浏览-购买的转换率也不高，因此要优化对用户的推荐，尽量推荐其想要的产品，产品有降价、新品、活动等及时推送给用户，要注重维护平台老用户。加强会员管理等。

4 产品数据分析

4.1 销量

new_data = data[data['行为类别'] == 'Order']
product_counts = new_data[['日期','产品id']].groupby("日期").count().reset_index()
product_counts.rename(columns={'产品id':'销售量'},inplace=True)
product_counts.head()

# 绘制平滑好看的折线图函数
def echarts_line2(x,y,title = '主标题',subtitle = '副标题',label = '图例'):
    """
    x: 函数传入x轴标签数据
    y：函数传入y轴数据
    title：主标题
    subtitle：副标题
    label：图例
    """
    line = Line(
        init_opts=opts.InitOpts(
            bg_color='#E8C5CB50',  # 设置背景颜色
            theme='essos',         # 设置主题
            width='1200px',     # 设置图的宽度
            height='600px',     # 设置图的高度
        )
    )
    line.add_xaxis(x)
    line.add_yaxis(
        label,
        y,
        is_symbol_show=False,  # 是否显示数据标签点
        is_smooth=True,        # 设置曲线平滑
        label_opts=opts.LabelOpts(
            is_show=False,     # 是否显示数据
        ),
        itemstyle_opts=opts.ItemStyleOpts(color='#00ca95'),  # 设置系列颜色
        # 线条粗细阴影设置
        linestyle_opts={
            "normal": {
                "color": "#E47085",  #线条颜色
                "shadowColor": '#D99AAD60', #阴影颜色和不透明度
                "shadowBlur": 8,     #阴影虚化大小
                "shadowOffsetY": 20,  #阴影y偏移量
                "shadowOffsetX": 20,  #阴影x偏移量
                "width": 7   # 线条粗细
            },
        },
    )
    line.set_global_opts(
        # 标题设置
        title_opts=opts.TitleOpts(
            title=title, # 主标题
            subtitle=subtitle, # 副标题
            pos_left='center',  # 标题展示位置
            title_textstyle_opts=dict(color='#5A3147'), # 设置标题字体颜色
            subtitle_textstyle_opts=dict(color='#5A3147')
        ),
        # 图例设置
        legend_opts=opts.LegendOpts(
            is_show=True, # 是否显示图例
            pos_left='right', # 图例显示位置
            pos_top='3%',  #图例距离顶部的距离
            orient='horizontal',  # 图例水平布局
            textstyle_opts=opts.TextStyleOpts(
                color='#5A3147',  # 颜色
                font_size='13',   # 字体大小
                font_weight='bolder',   # 加粗
        ),
        ),
        tooltip_opts=opts.TooltipOpts(
        is_show=True,  # 是否使用提示框
        trigger='axis',  # 触发类型
        is_show_content = True,
        trigger_on='mousemove|click',  # 触发条件，点击或者悬停均可出发
        axis_pointer_type='cross',  # 指示器类型，鼠标移动到图表区可以查看效果
        # formatter = '{a}
{b}:{c}人'  # 文本内容
        ),
        datazoom_opts=opts.DataZoomOpts(
        range_start=0,  # 开始范围
        range_end=50,  # 结束范围
        # orient='vertical',  # 设置为垂直布局
        type_='slider',  # slider形式
        is_zoom_lock=False,  # 锁定区域大小
        # pos_left='1%'  # 设置位置
        ),
        yaxis_opts=opts.AxisOpts(
        is_show=True,
        splitline_opts=opts.SplitLineOpts(is_show=False), # 分割线
        axistick_opts=opts.AxisTickOpts(is_show=False), # 刻度不显示
        axislabel_opts=opts.LabelOpts(  # 坐标轴标签配置
            font_size=13,  # 字体大小
            font_weight='bolder' # 字重
        ),
        ),   # 关闭Y轴显示
        xaxis_opts=opts.AxisOpts(
        boundary_gap=False,    # 两边不显示间隔
        axistick_opts=opts.AxisTickOpts(is_show=True),  # 刻度不显示
        splitline_opts=opts.SplitLineOpts(is_show=False),  # 分割线不显示
        axisline_opts=opts.AxisLineOpts(is_show=True),  # 轴不显示
        axislabel_opts=opts.LabelOpts(  # 坐标轴标签配置
            font_size=13,  # 字体大小
            font_weight='bolder' # 字重
            ),
    ),
    )
    return line.render_notebook()

echarts_line2(product_counts['日期'].tolist(),product_counts['销售量'],title = '日销售量变化图',subtitle = '每日销售量变化',label = '销售量')

因为数据上没有提供商品单价，所以只能分析产品销售数量

产品销售数量和UV,PV，有很大关联，趋势与UV，PV曲线基本一致，都是情人节前出现高峰，产品销售量高，之后慢慢恢复正常趋势。

product_id_counts = new_data[['月份','产品类别','客户id']].groupby(['月份','产品类别']).count().sort_values(by=['月份','客户id'],ascending=[True,False]).reset_index()
product_id_counts.rename(columns={'客户id':'月销售量'},inplace=True)
product_id_counts.head()

month2_data = product_id_counts[product_id_counts['月份'] == 2].iloc[:10].sort_values(by = '月销售量',ascending = True)
month3_data = product_id_counts[product_id_counts['月份'] == 3].iloc[:10].sort_values(by = '月销售量',ascending = True)
month4_data = product_id_counts[product_id_counts['月份'] == 4].iloc[:10].sort_values(by = '月销售量',ascending = True)

# 绘制动态榜单
month_lis = ['2018年2月','2018年3月','2018年4月']
month_data_lis = [month2_data,month3_data,month4_data]
# 新建一个timeline对象
tl = Timeline(
        init_opts=opts.InitOpts(
            bg_color='#E8C5CB50',  # 设置背景颜色
            theme='essos',         # 设置主题
            width='1200px',     # 设置图的宽度
            height='700px'     # 设置图的高度
        )
)
tl.add_schema(
    is_auto_play = True,    # 是否自动播放
    play_interval = 1500,   # 播放速度
    is_loop_play = True,   # 是否循环播放
)

for i,data1 in zip(month_lis,month_data_lis):
    day = i
    bar = Bar(
            init_opts=opts.InitOpts(
            bg_color='#E8C5CB50',  # 设置背景颜色
            theme='essos',         # 设置主题
            width='1200px',     # 设置图的宽度
            height='700px'     # 设置图的高度
        )
    )
    bar.add_xaxis(data1['产品类别'].tolist())
    bar.add_yaxis(
        '月销售量', 
        data1['月销售量'].round(2).tolist(),
        category_gap="40%"
        )
    bar.reversal_axis()
    bar.set_series_opts( # 自定义图表样式
        label_opts=opts.LabelOpts(is_show=True,position = "right"), # 是否显示数据标签
        itemstyle_opts={  
            "normal": {
                "color": JsCode(
                    """new echarts.graphic.LinearGradient(1, 0, 0, 0, [{
                        offset: 0,color: '#EFA0AB'}
                        ,{offset: 1,color: '#E47085'}], false)
                    """
                ),       # 调整柱子颜色渐变
                'shadowBlur': 8,   # 光影大小
                "barBorderRadius": [100, 100, 100, 100],  # 调整柱子圆角弧度
                "shadowColor": "#E9B7D3", # 调整阴影颜色
                'shadowOffsetY': 6,
                'shadowOffsetX': 6,  # 偏移量
            }
        }
    )
    bar.set_global_opts(
    # 标题设置
    title_opts=opts.TitleOpts(
        title='每月不同产品月销售量top榜单', # 主标题
        subtitle='各品类月销售量动态榜单', # 副标题
        pos_left='center',  # 标题展示位置
        title_textstyle_opts=dict(color='#5A3147'), # 设置标题字体颜色
        subtitle_textstyle_opts=dict(color='#5A3147')
    ),
    legend_opts=opts.LegendOpts(
        is_show=True, # 是否显示图例
        pos_left='right', # 图例显示位置
        pos_top='3%',  #图例距离顶部的距离
        orient='vertical',  # 图例水平布局
        textstyle_opts=opts.TextStyleOpts(
            color='#5A3147',  # 颜色
            font_size='13',   # 字体大小
            font_weight='bolder',   # 加粗
    ),
    ),
    tooltip_opts=opts.TooltipOpts(
        is_show=True,  # 是否使用提示框
        trigger='axis',  # 触发类型
        is_show_content = True,
        trigger_on='mousemove|click',  # 触发条件，点击或者悬停均可出发
        axis_pointer_type='cross',  # 指示器类型，鼠标移动到图表区可以查看效果
        # formatter = '{a}
{b}:{c}人'  # 文本内容
    ),
    yaxis_opts=opts.AxisOpts(
        is_show=True,
        splitline_opts=opts.SplitLineOpts(is_show=False), # 分割线
        axistick_opts=opts.AxisTickOpts(is_show=False), # 刻度不显示
        axislabel_opts=opts.LabelOpts(  # 坐标轴标签配置
            font_size=13,  # 字体大小
            font_weight='bolder' # 字重
        ),
    ),   # 关闭Y轴显示
    xaxis_opts=opts.AxisOpts(
        boundary_gap=True,    # 两边不显示间隔
        axistick_opts=opts.AxisTickOpts(is_show=True),  # 刻度不显示
        splitline_opts=opts.SplitLineOpts(is_show=False),  # 分割线不显示
        axisline_opts=opts.AxisLineOpts(is_show=True),  # 轴不显示
        axislabel_opts=opts.LabelOpts(  # 坐标轴标签配置
            font_size=13,  # 字体大小
            font_weight='bolder' # 字重
            ),
        ),
    )

    tl.add(bar, day)

tl.render_notebook()

从时间序列维度进行了销售额的分析，当然也要从产品的维度进行分析了。计算出了每个月销售额top10的产品类别榜单，查看各个产品的每月销售额的变化，哪个月哪个产品是爆款

5 建立回归模型

分析哪些因素能够更有效的提高客户量

from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from matplotlib.pylab import date2num

# 1.准备数据
jd = data[data['行为类别'] == 'Order']
jd = jd[['客户id','开店时间','店铺打分','粉丝数','会员数','店铺id']]
jd.dropna(inplace=True)
# 将开店时间转化为数值
jd['开店时间'] = date2num(jd['开店时间'])
# 每个店铺客户人数
U_data = jd[['客户id','开店时间','店铺打分','粉丝数','会员数','店铺id']].groupby(['店铺id','开店时间','店铺打分','粉丝数','会员数']).count().reset_index()
U_data.rename(columns={'客户id':'客户数'},inplace=True)
# 建立门店的特征值与特征向量
U_data.data = U_data[['开店时间','店铺打分','粉丝数','会员数']]
U_data.target = U_data['客户数']

# 2.数据集划分

x_train,x_test,y_train,y_test = train_test_split(U_data.data,U_data.target,test_size=0.2,random_state=2)


# 3.特征工程—标准化

transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.fit_transform(x_test)
# 4.机器学习-线性回归(正规方程)

estimator = LinearRegression()
estimator.fit(x_train,y_train)


# 5.模型评估
U_predict = estimator.predict(x_test)

print("预测值为:\n",U_predict[:10])
print("模型中的系数为:\n",estimator.coef_)
print("模型中的偏置为:\n",estimator.intercept_)

# 5.2 评价
# 均方误差
error = mean_squared_error(y_test, U_predict)
print("误差为:\n", error)

模型分析：回归模型可以判断部分字段对提高客户量的有效率，同时能够根据当前数据，门店配置预测出相同时间段的客户量，为相关活动规划提供数据支持。

本次模型的4个系数对应的字段分别是[‘开店时间’,‘店铺打分’,‘粉丝数’,‘会员数’]，各系数大小代表对客户量的影响大小，其中多次随机开店时间系数始终为负数，表明开店的时间越大（时间大，门店新），客户量越少，符合正常情况，而会员数的系数始终是最大的，而且占比很大，说明对客户量的影响很大，所以我们更应该在吸引新会员，维护老会员老顾客方面下功夫，多活动多促销，增加用户黏度。

6 最后

你可能感兴趣的:(大数据,毕业设计,python,大数据,数据分析,京东消费数据分析可视化)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
穷人做什么生意最赚钱？10个适合穷人赚钱的路子？氧惠爱高省
不管在什么地方，一般都是穷人占大量数，而富人只有少数，但是它们却掌握着大量的财富。对于穷人来说，想要买车、买房等奢侈品就难如登天，因为他们只能通过打工来赚取几千元的月薪。➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用市场搜“氧惠”下载，邀请码:521521，全网优惠上氧惠！
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
一比一复刻手表哪里可以买到？推荐三个可靠渠道腕表世界
在我国，提及一比一复刻手表，人们总是充满好奇与争议。这种高度仿真的复刻手表，凭借其精湛的工艺、时尚的设计，以及与正品相差无几的质感，深受一部分消费者的喜爱。但与此同时，其背后的侵权争议也一直不断。那么，究竟哪里可以买到这些令人心动的一比一复刻手表呢？腕表咨询微信：10428850一、何为一比一复刻手表？一比一复刻手表，指的是严格按照正版手表的设计、尺寸和工艺制作的仿制品。这些手表在材质、外观、功能
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

大数据毕设选题 - 京东消费数据分析与可视化（python 大数据 机器学习）