wjzeroooooo

天池赛：淘宝用户购物行为数据可视化分析

前言

一、赛题介绍

二、数据清洗、特征构建、特征可视化

1.数据缺失值及重复值处理

2.日期分离，PV及UV构建

3.PV及UV可视化

4.用户行为可视化

4.1 各个行为的面积图（以UV为例）

4.2 各个行为的热力图

5.转化率可视化

三、RFM模型

1.构建R、F、M

2.RFM的数据统计分布

3.计算RFM得分及组合

4.RFM组合柱图及得分饼图可视化

5.RFM 3D柱图展示

四、商品类型关联分析

4.1.提取关联规则

4.2.商品关联规则关系图

4.3.商品词云图

前言

赛事数据集有1千多万，4个特征，本人主要是从RFM客户群分及商品关联分析对数据集进行分析及可视化，除了用到基本的Matplotlib进行可视化，还用到pyecharts进行可视化，对于喜欢用Python处理大数据的朋友来说，试一次不错的锻炼。本次赛事的参考Baseline：淘宝用户购物行为数据可视化分析baseline_天池notebook-阿里云天池

一、赛题介绍

2014年是阿里巴巴集团移动电商业务快速发展的一年，例如2014双11大促中移动端成交占比达到42.6%，超过240亿元。相比PC时代，移动端网络的访问是随时随地的，具有更丰富的场景数据，比如用户的位置信息、用户访问的时间规律等。

本次可视化分析的目的是针对脱敏过的用户行为数据（包括浏览、收藏、加购和购买4类数据）进行分析，使用Python、Numpy、Pandas和Matplotlib工具完成可视化分析，帮助选手更好的理解数据，并作出商业洞察。

本次分析数据提供了1万用户量级的完整行为数据：user_action.csv，为了简化问题相比原数据集，我们去掉了user_geohash这个大部分情况为空的字段。

字段	字段说明	提取说明
user_id	用户标识	抽样&字段脱敏
item_id	商品标识	字段脱敏
behavior_type	用户对商品的行为类型	包括浏览、收藏、加购物车、购买，对应取值分别是1、2、3、4。
item_category	商品分类标识	字段脱敏
time	行为时间	精确到小时级别

注：数据包含了抽样出来的1W用户在一个月时间（11.18~12.18）之内的移动端行为数据。相比算法挑战赛，本次可视化分析任务移除了user_geohash字段，同时为了计算方便，在数据量级上也从算法挑战赛原始的100W用户行为数据缩减为1W规模。

二、数据清洗、特征构建、特征可视化

1.数据缺失值及重复值处理

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
from pyecharts import options as opts
from pyecharts.charts import Bar3D,Bar,Pie,Funnel,Line
df = pd.read_csv('/user_action.csv')
df.shape
# (12256906, 5)
# 一千多万的数据

df.isnull().sum() # 缺失值查看
# 本次数据无缺失值
print(df.duplicated().sum()) # 判断重复值
df.drop_duplicates(keep='first',inplace = True) # 去重
print(df.shape)
# 6043527       重复值有600多万
# (6213379, 5)  去重后剩下600多万的数据

2.日期分离，PV及UV构建

df['date'] = df['time'].map(lambda x: x.split(' ')[0]) 
df['hour'] =df['time'].map(lambda x: x.split(' ')[1])
df.loc[:,'data_now']='2014-12-20'  # 为了RFN模型的R构建的特征
df.head()

访问量(PV)：全名为Page View, 基于用户每次对淘宝页面的刷新次数，用户每刷新一次页面或者打开新的页面就记录就算一次访问。

独立访问量(UV)：全名为Unique Visitor，一个用户若多次访问淘宝只记录一次，熟悉SQL的小伙伴会知道，本质上是unique操作。

pv_daily = df.groupby('date')['user_id'].count()
pv_daily = pv_daily.reset_index() 
pv_daily = pv_daily.rename(columns={'user_id':'pv_daily'})

pv_hour = df.groupby('hour')['user_id'].count()
pv_hour = pv_hour.reset_index()
pv_hour = pv_hour.rename(columns={'user_id':'pv_hour'})

uv_daily = df.groupby('date')['user_id'].apply(lambda x: len(x.unique()))
uv_daily = uv_daily.reset_index()
uv_daily = uv_daily.rename(columns = {'user_id':'uv_daily'})

uv_hour = df.groupby('hour')['user_id'].apply(lambda x: len(x.unique()))
uv_hour = uv_hour.reset_index()
uv_hour = uv_hour.rename(columns={'user_id':'uv_hour'})

3.PV及UV可视化

import matplotlib.dates as mdates
plt.figure(figsize=(14,10))
sns.set_style('dark')

plt.subplot(2, 2, 1)
ax=sns.lineplot(x='date',y='pv_daily',data=pv_daily)
plt.xticks(rotation=45,horizontalalignment='right',fontweight='light')
locator = mdates.DayLocator(interval=3)  # 每隔3天显示日期 
ax.xaxis.set_major_locator(locator) 
plt.title('pv_daily')

plt.subplot(2, 2, 2)
ax1=sns.lineplot(x='date',y='uv_daily',data=uv_daily)
plt.title('uv_daily')
plt.xticks(rotation=45,horizontalalignment='right',fontweight='light')
ax1.xaxis.set_major_locator(locator)

plt.subplot(2, 2, 3)
ax2=sns.lineplot(x='hour',y='pv_hour',data=pv_hour)
plt.title('pv_hour')
locator1 = mdates.DayLocator(interval=3)
ax2.xaxis.set_major_locator(locator1)

plt.subplot(2, 2, 4)
ax3=sns.lineplot(x='hour',y='uv_hour',data=uv_hour)
plt.title('uv_hour')
ax3.xaxis.set_major_locator(locator1)

plt.subplots_adjust(wspace=0.4,hspace=0.8)  # 调整图间距
plt.show()

PV及UV在双十二达到一个峰值，同时在凌晨3-6点达到低谷，同时也可以把双十二当天的数据单独提出来可视化看一下流量在每个时间点的分布是否有不同。

4.用户行为可视化

4.1 各个行为的面积图（以UV为例）

behavior = df.groupby(['behavior_type','date'])['user_id'].apply(lambda x: len(x.unique()))
behavior = behavior.reset_index()
behavior = behavior.rename(columns = {'user_id':'uv'})

behavior1=behavior[behavior['behavior_type']==1].rename(columns = {'uv':'浏览'})
behavior2=behavior[behavior['behavior_type']==2].reset_index().rename(columns = {'uv':'收藏'})
behavior3=behavior[behavior['behavior_type']==3].reset_index().rename(columns = {'uv':'加购'})
behavior4=behavior[behavior['behavior_type']==4].reset_index().rename(columns = {'uv':'购买'})

result = pd.concat([behavior1, behavior2,behavior3,behavior4], axis=1)
result =result.loc[:,~result.columns.duplicated()] #删除同名列，保留前面一项
result = result.drop(labels=['behavior_type','index'], axis=1)
result.head()

# 面积图
x = behavior1['date'].values.tolist()
y1 = behavior1['浏览'].values.tolist()
y2 = behavior2['收藏'].values.tolist()
y3 = behavior3['加购'].values.tolist()
y4 = behavior4['购买'].values.tolist()
c = (
    Line()
    .add_xaxis(x)
    .add_yaxis("浏览", y1, is_smooth=True)
    .add_yaxis("收藏", y2, is_smooth=True)
    .add_yaxis("加购", y3, is_smooth=True)
    .add_yaxis("购买", y4, is_smooth=True)
    .set_series_opts(
        areastyle_opts=opts.AreaStyleOpts(opacity=0.5),
        label_opts=opts.LabelOpts(is_show=False),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="各个行为UV面积图"),
        xaxis_opts=opts.AxisOpts(
            axistick_opts=opts.AxisTickOpts(is_align_with_label=True),
            is_scale=False,
            boundary_gap=True,
        ),
    )
)
c.render_notebook()

可以看到双十二有一个明显的峰值，pyecharts的好处就是可以绘制交互式的图形，你可以点击你想看的数据来进行单独显示。

4.2 各个行为的热力图

plt.rcParams['font.sans-serif'] = ['SimHei'] # 显示中文
correlation_matrix=result.corr()
plt.figure(figsize=(8,6))
sns.heatmap(correlation_matrix,vmax=0.9,linewidths=0.05,cmap="GnBu_r",annot=True,annot_kws={'size': 15})
plt.title("uv", fontsize = 20)

基本上都是强相关，但是搜藏和购买的相关性相对其余的来说偏低，毕竟搜藏后还会货比三家嘛

5.转化率可视化

behavior_type = df.groupby(['behavior_type'])['user_id'].count()

click_num, fav_num, add_num, pay_num =  behavior_type[1], behavior_type[2], behavior_type[3], behavior_type[4]
fav_add_num = fav_num + add_num 
behavior_type1=pd.DataFrame([click_num, fav_add_num, pay_num],index=["浏览", "收藏+加购", "购买"],columns=["A"])
behavior_type1['B']=(100*behavior_type1['A']/5535879).round(2)
# 漏斗图
x = ["浏览", "收藏+加购", "购买"]
y = behavior_type1['B'].values.tolist()
c = (
    Funnel()
    .add("",[list(z) for z in zip(x,y)])
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}占比{c}%"))
    .set_global_opts(title_opts=opts.TitleOpts(title="转化率"))
)
c.render_notebook()

整体的转化率从浏览到购买是不到2%，双十二当天是4.65%

三、RFM模型

由于本次数据集没有商品价格，所以换了个思路构建。

R：数据集最后日期延迟两天的日期作为基准，构建该指标。

F：通过筛选客户ID在数据集的日期中发生购买行为的天数作为频次。

M：客户购买的商品数。

1.构建R、F、M

df1=df[df['behavior_type']==4] # 取出已成交的数据

df1['day']=(pd.to_datetime(df1['data_now'])- pd.to_datetime(df1['date'])).apply(lambda x : x.days)
data_r = df1.groupby(['user_id'])['day'].agg('min').reset_index().rename(columns = {'day':'R'})
data_f = df1.groupby(['user_id'])['date'].apply(lambda x: len(x.unique())).reset_index().rename(columns = {'date':'F'})
data_m = df1.groupby(['user_id'])['item_id'].count().reset_index().rename(columns = {'item_id':'M'})
RFM= pd.concat([data_r,data_f,data_m], axis=1)
RFM =RFM.loc[:,~RFM.columns.duplicated()]

2.RFM的数据统计分布

RFM.describe().T

3.计算RFM得分及组合

# 定义区间边界
r_bins = [0,3,9,32] # 注意起始边界小于最小值
f_bins = [0,2,8,30] 
m_bins = [0,4,15,745]
# RFM分箱得分
RFM['r_score'] = pd.cut(RFM['R'], r_bins, labels=[i for i in range(len(r_bins)-1,0,-1)])  # 计算R得分  倒序排列
RFM['f_score'] = pd.cut(RFM['F'], f_bins, labels=[i+1 for i in range(len(f_bins)-1)])  # 计算F得分
RFM['m_score'] = pd.cut(RFM['M'], m_bins, labels=[i+1 for i in range(len(m_bins)-1)])  # 计算M得分
# 方法1：计算RFM总得分
RFM[['r_score','f_score','m_score']] = RFM[['r_score','f_score','m_score']].apply(np.int32)
RFM['rfm_score'] = RFM['r_score']  + RFM['f_score']  + RFM['m_score'] 
# 方法2：RFM组合
RFM=RFM.applymap(str)
RFM['rfm_group']=RFM['r_score']+RFM['f_score']+RFM['m_score']
RFM.head()

这里的R是按照倒序区分，即购买日期越近，分值越大。

4.RFM组合柱图及得分饼图可视化

#柱图
RFM_new = RFM.groupby(['rfm_group','rfm_score'])['user_id'].count().reset_index().rename(columns = {'user_id':'number'})
RFM_new = RFM_new.rename_axis('index').reset_index()
l1=RFM_new['rfm_group'].values.tolist()
l2=RFM_new['number'].values.tolist()
c = Bar({"theme": ThemeType.DARK}) # 背景主题
c.add_xaxis(l1)
c.add_yaxis("类别数量", l2)
c.set_global_opts(title_opts=opts.TitleOpts(title="RFM类别数量"),
                  yaxis_opts=opts.AxisOpts(name="数量"),
                  xaxis_opts=opts.AxisOpts(name="组别"))
c.render_notebook()

#饼图
RFM_score=RFM_new.groupby(['rfm_score'])['number'].sum().reset_index()   # 组别占比
RFM_score['score_pt']=(RFM_score['number']/RFM_score['number'].sum()).round(2)
x_data = RFM_score['rfm_score'].values.tolist()
y_data = RFM_score['score_pt'].values.tolist()
c = (
    Pie()
    .add(
        "",
        [list(z) for z in zip(x_data, y_data)],
        radius=["30%", "75%"],
        center=["50%", "50%"],
        rosetype="radius",
        is_clockwise=True,
        label_opts=opts.LabelOpts(is_show=True),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}占比{d}%"))
    .set_global_opts(title_opts=opts.TitleOpts(title="类别占比"))
)
c.render_notebook()

组别上222及111的组别占比较高，但333高价值组别也不少。分值上6分的类别占比达到24%，是最高。各个指标分值为1的为低，2表示一般，3表示高，比如111就代表低价值客户群体，当然具体分群的指标还得根据具体的场景定义。下面提供一个关于组别客户分群的参考

5.RFM 3D柱图展示

data=RFM_new.values.tolist()
group = list(set(RFM_new.iloc[:, 1]))
score = list(set(RFM_new.iloc[:, 2]))
data2 = [[d[1], d[2], d[3]] for d in data]
(
    Bar3D(init_opts=opts.InitOpts(width="1000px", height="600px"))
    .add(
        series_name="",
        data=data2,
        xaxis3d_opts=opts.Axis3DOpts(type_="category", data=group,name='group'),
        yaxis3d_opts=opts.Axis3DOpts(type_="category", data=score,name='score'),
        zaxis3d_opts=opts.Axis3DOpts(type_="value",name='number'),
    )
    .set_global_opts(
        visualmap_opts=opts.VisualMapOpts(
            max_=1500,
            range_color=[
                "#313695",
                "#4575b4",
                "#74add1",
                "#abd9e9",
                "#e0f3f8",
                "#ffffbf",
                "#fee090",
                "#fdae61",
                "#f46d43",
                "#d73027",
                "#a50026",
            ],
        ),
        title_opts=opts.TitleOpts(title="RFM客户分群3D可视化") # 设置总标题
    )
    .render_notebook()
)

这个图的好处就是可以360度旋转查看各个数据信息，pyecharts的交互性在这就体现得很好

四、商品类型关联分析

4.1.提取关联规则

Support（支持度）：表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务的比例，那么Support=P(A&B)，就是两者同时出现的次数与总次数的比例

Confidence（可信度）：表示使用包含A的事务中同时包含B事务的比例，即同时包含A和B的事务占包含A事务的比例。公式表达：Confidence=P(A&B)/P(A)

Lift（提升度）：表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。公式表达：Lift=( P(A&B)/P(A))/P(B)=P(A&B)/P(A)/P(B)。

提升度反映了关联规则中的A与B的相关性，提升度>1且越高表明正相关性越高，提升度<1且越低表明负相关性越高，提升度=1表明没有相关性。

这三个概念的详细计算可以参考：关联分析中的支持度、置信度和提升度_sanqima的博客-CSDN博客

import apriori # 导入关联算法
order_ids = pd.unique(df1['user_id'])
order_records = [df1[df1['user_id']==each_id]['item_category'].tolist() for each_id in order_ids]
minS = 0.01  # 定义最小支持度阀值
minC = 0.1  # 定义最小置信度阀值
L, suppData = apriori.apriori(order_records, minSupport=minS)  # 计算得到满足最小支持度的规则
rules = apriori.generateRules(order_records, L, suppData, minConf=minC)
model_summary = 'data record: {1} \nassociation rules count: {0}'  # 展示数据集记录数和满足阀值定义的规则数量
print(model_summary.format(len(rules), len(order_records)),'\n','-'*60)  # 使用str.format做格式化输出
rules_all = pd.DataFrame(rules, columns=['item1', 'item2', 'instance', 'support', 'confidence',
                                  'lift'])  # 创建频繁规则数据框
rules_sort = rules_all.sort_values(['lift'],ascending=False)
print(rules_sort[:20])

可以看到有177条满足设定的规则，这里按照提升度进行倒序排列，并展示前20条。其中商品类别10661与9516的置信度0.5082，提升度10.2168，是一条有效的强关联规则。

4.2.商品关联规则关系图

这里只提取数量排名前十的商品进行可视化，用到的是networkx库

rules_sort_filt=rules_sort[rules_sort['lift']>2] #筛选提升度大于2的规则
# 汇总每个item出现的次数
display_data=rules_sort_filt.iloc[:,:3]
item1=display_data[['item1','instance']].rename(index=str,columns={"item1":"item"})
item2=display_data[['item2','instance']].rename(index=str,columns={"item2":"item"})
item_concat=pd.concat((item1,item2),axis=0)
item_count=item_concat.groupby(['item'])['instance'].sum()
# 取出规则最多的TOP N items
control_num = 10
top_n_rules = item_count.sort_values(ascending=False).iloc[:control_num]
top_n_items = top_n_rules.index  # 对应的就是每个类别项
top_rule_list = [all((item1 in top_n_items, item2 in top_n_items)) for item1,item2 in zip(display_data['item1'],display_data['item2'])]  #all函数进行布尔筛选
top_display_data = display_data[top_rule_list] 
# 取出前十商品ID
top10=top_n_rules.index
top101=[list(x) for x in top10]   #二维
n = np.array(top101).flatten()  # 转一维
# 由于item1及item2都是集合形式，这里进行转化
lst=[]
lst1=[]
for y,z in zip(top_display_data['item1'],top_display_data['item2']):   
    lst.append(list(y))
    lst1.append(list(z))
n1 = np.array(lst).flatten()
n2 = np.array(lst1).flatten()
n1=pd.DataFrame(n1, columns=['item3'])
n2=pd.DataFrame(n2, columns=['item4'])
n3=pd.DataFrame(top_display_data['instance'].values.tolist(), columns=['instance'])
n4=pd.concat((n1,n2,n3),axis=1)
n4

绘图之前构建好的DataFrame

import networkx as nx
plt.figure(figsize=(14,10))
res = n4.values.tolist()
for i in range(len(res)):
    res[i][2] = dict({'weight': res[i][2]})
res = [tuple(x) for x in res]
g = nx.Graph()
g.add_nodes_from(n)
g.add_edges_from(res)
pos = nx.spring_layout(g)
nx.draw(g,pos,node_color='#7FFF00', node_size=1500, alpha=0.6,with_labels=True)
labels = nx.get_edge_attributes(g,'weight') 
nx.draw_networkx_edge_labels(g,pos,edge_labels=labels)
plt.show()

这个关系图是随机排列的，所以你每一次的显示图形会不一样，但数据不会变化，每个数字代表两个商品类别关联出现的次数

4.3.商品词云图

由于分组聚合后的商品ID数量有9万多条，所以只取排序后最多的前30条进行词云展示

from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType
buy=df1.groupby(['item_id'])['user_id'].count().reset_index().sort_values(by=['user_id'],ascending=False)
buy_freq=buy.head(30).values.tolist()
# 绘图
c = (
    WordCloud()
    .add("", buy_freq, word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="商品词云图"))
)
c.render_notebook()

可以看到购买最多的商品ID：167074648

总结

本次可视化更多的使用了pyecharts，它可以绘制交互式图形，这是matplotlib不能实现的，这些展示图也只是pyecharts的冰山一角，有兴趣的朋友可以参考官网学习，当然具体的数据可视化还是要根据具体的场景来选用合适的工具。

基于uniapp小程序的诗词学习系统附带文章源码部署视频讲解等
文章目录前言详细视频演示具体实现截图核心技术介绍小程序框架Uniapp前端框架Vue持久层框架MyBaits为什么选择我代码参考数据库参考测试用例参考源码获取前言博主介绍：✌CSDN特邀作者、资深全栈开发程序员，曾在互联网大厂担任高级职位、码云/掘金/华为云/阿里云/InfoQ/StackOverflow/github等平台优质作者、专注于Java、小程序、前端、python等技术领域毕业项目实战
Windows安装MySQL及Python操作MySQL数据库脚本实例详解
1、Windows上安装MySQL便于测试，笔者在windows上安装MySQL，如有现成Linux下的MySQL和Python环境，也可直接使用。MySQL的官网下载链接安装步骤1)下载后的mysql-5.7.23-winx64.zip安装包解压至某一位置，在mysql-5.7.23-winx64.zip根目录下创建my.ini文件添加以下内容：my.ini[mysql]default-char
（纯新手练习五）python基础代码，我手把手带你敲（类与对象，实例，构造函数__init__初始化对象属性，继承，方法重写，类的文档字符串，模块化）星期天要睡觉 python 开发语言
目录1.基本理论简述类与对象构造函数（Constructor）继承（Inheritance）方法重写（MethodOverriding）四者关系总结类的文档字符串（Docstring）2.练习开始3.代码模块化练习（纯新手练习五）python基础代码，我手把手带你敲（类与对象，实例，构造函数__init__初始化对象属性，继承，方法重写，类的文档字符串，模块化）（下一节课：文件操作）基本理论简述类
区间求最值问题高效解决方法东皇太星 python
对于区间求最值场景，如果区间不定长度的，可以使用稀疏表进行求解，如果区间是固定长度的，则可以使用分块的思想（与稀疏表原理类似），都是通过压缩状态个数，1关于稀疏表的原理详见：稀疏表（SparseTable，ST原理及应用场景下面是一个稀疏表的python实现classSolution:def__init__(self,nums):self.nums=numsself.init_value=-999
python优先队列使用_Python优先队列实现方法示例
本文实例讲述了Python优先队列实现方法。分享给大家供大家参考，具体如下：1.代码importQueueimportthreadingclassJob(object):def__init__(self,priority,description):self.priority=priorityself.description=descriptionprint'Newjob:',description
python优先队列使用_python 线程队列PriorityQueue（优先队列）（37）
在线程队列Queue/线程队列LifoQueue文章中分别介绍了先进先出队列Queue和先进后出队列LifoQueue，而今天给大家介绍的是最后一种：优先队列PriorityQueue，对队列中的数据按照优先级排序，那么具体怎么用呢？一.队列Queue分类：1.线程队列Queue—FIFO(先进先出队列)，即哪个数据先存入，取数据的时候先取哪个数据，同生活中的排队买东西；2.线程队列LifoQue
Python|Pyppeteer规避反自动化检测方法【最新方案】(33) 写python的鑫哥 Pyppeteer从入门到精通 python pyppeteer puppeteer 规避反自动化检测反爬虫
前言本文是该专栏的第33篇，结合优质项目案例持续分享Pyppeteer的干货知识，记得关注。相信有些同学在使用Pyppeteer框架进行某个自动化操作的时候，会触发平台的检测机制，让目标平台识别出当前是机器人在操作，而非人为操作，导致让你的程序无法继续进行下一步。对于上述这种情况，你是不是有很大的疑惑呢？别担心，本文笔者专门针对上述问题，来详细介绍在使用Pyppeteer的过程中，出现反自动化机制
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
取余和取模到底是不是一回事？对比Python、Java、C和C++中的%运算符霜叶桑 java python c语言 c++
取余和取模到底是不是一回事？对比Python、JAVA、C和C++中的%运算符数学中的「取余」和「取模」计算机领域中的「取余」和「取模」Python、Java、C和C++中的`%`运算符Python：取模运算Java：取余运算C和C++：取余运算为什么一般用正除数数学中的「取余」和「取模」在纯数学中，当我们谈论整数除法a÷ba\divba÷b（aaa是被除数，bbb是除数，且b≠0b\not=0
QtitanRibbon打造现代办公软件新体验：提升效率的专业界面解决方案界面开发小八哥 QtitanRibbon qt ribbon 界面控件 UI开发 c++
在现代办公环境中，无论是日常公文处理、文档编辑、任务协同还是数据分析，桌面办公软件仍扮演着不可替代的角色。然而，许多传统系统依旧使用菜单繁杂、图标混乱、交互老旧的界面，用户操作效率低、上手慢、满意度差。QtitanRibbon是一款基于Qt构建、全面实现MicrosoftOffice风格的Ribbon控件组件，旨在帮助开发者为办公类桌面应用打造现代化、高可用、可拓展的用户界面，提升软件体验的同时，
JavaScript与原生开发的较量：为何高性能可视化应用更适合选用SciChart？界面开发小八哥 javascript 开发语言 SciChart 图表工具数据可视化
SciChart是高性能数据可视化领域的优秀图表产品，深受数据密度和精度至关重要行业的信赖，包括航空航天、石油和天然气、科学研究和赛车运动等。作为F1中使用的解决方案，SciChart被NASA所依赖，并受到90%的顶级医疗技术公司青睐，它提供实时、跨平台的可视化，提供无与伦比的灵活性和定制性。立即获取SciChart正式版在为iOS和Android打造高性能数据可视化应用时，选择合适的开发方式至
R 语言安装使用教程小奇JAVA面试安装使用教程 r语言开发语言
一、R语言简介R是一种用于统计分析、数据挖掘和可视化的编程语言和环境。它在学术界和数据分析领域中广泛使用，拥有丰富的统计函数库和绘图功能。二、安装R语言2.1下载R安装包前往CRAN官网下载适合你操作系统的安装程序：官网地址：https://cran.r-project.org/2.2Windows安装下载.exe安装包；双击安装程序，按默认选项一路安装即可；安装完成后，可通过RGUI或命令行启动
194、Django Channels实战：构建实时WebSocket应用多多的编程笔记 django websocket sqlite
DjangoChannels：实现WebSocket与实时通信本文将向您介绍Python开发框架Django中的一个重要组件——DjangoChannels，它使得在Django中实现WebSocket通信变得轻而易举。通过阅读本文，您将了解WebSocket的概念、DjangoChannels的工作原理以及如何在实际项目中使用它来实现实时通信。1.WebSocket：实现快速双向通信在介绍Dja
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
apache-dolphinscheduler-3.2.0调度器简介和集群部署详细安装文档
1、为什么选用apache-dolphinscheduler轻松管理复杂的任务工程支持跨项目和跨工作流程的任务依赖支持Kill、暂停和恢复操作任务支持以租户、Worker分组组和环境中隔离运行每个任务都可以修改输出参数，并将其传递给后续任务在一分钟内创建你的工作流程通过拖拉拽的工作流创建方式提高效率支持Python、Yaml和OpenApi的方式生成工作流支持将一个工作流作为另一个工作流的子流程执
Node.js特训专栏-实战进阶：13. ORM/ODM工具选型与使用爱分享的程序员 Node.js javascript 前端 node.js
欢迎来到Node.js实战专栏！在这里，每一行代码都是解锁高性能应用的钥匙，让我们一起开启Node.js的奇妙开发之旅！Node.js特训专栏主页专栏内容规划详情ORM/ODM工具选型与使用在当今的软件开发领域，数据库交互是众多应用程序的核心环节。无论是Web应用、移动后端，还是数据分析平台，高效、可靠地操作数据库至关重要。对象关系映射（ORM）和对象文档映射（ODM）工具应运而生，它们简化了数据
基于python版本secsgem源码开发gem，该gem作为一个中间平台，既要连接EAP，又要连接探针台，应该如何设置devicetype、connectmode SunkingYang #SECS协议 python gem eap 中间平台三方连接设备类型
文章目录一、角色定义与连接模式设计1.中间平台的双向角色2.核心参数设置二、代码实现步骤1.创建两个独立连接实例2.数据转发逻辑实现三、高级配置与注意事项1.状态机管理2.多线程与异步处理3.协议兼容性4.调试与错误排查四、典型应用场景1.配方管理2.事件与报警处理五、扩展方案（多设备协同）总结基于Python的secsgem库开发中间平台需同时连接EAP（作为Host端）和探针台（作为Equip
Python 爬虫入门（九）：Scrapy安装及使用「详细介绍」 blues_C Python爬虫实战 python 爬虫 scrapy
Python爬虫入门（九）：Scrapy安装及使用「详细介绍」前言1.Scrapy简介2.Scrapy的安装2.1环境准备2.2安装Scrapy3.创建Scrapy项目3.1创建项目3.2项目结构简介4.编写爬虫4.1创建爬虫4.2解析数据4.3运行爬虫5.存储数据5.1存储为JSON文件5.2存储到数据库5.2.1MongoDB6.处理请求和响应6.1请求头设置6.2处理响应7.高级功能7.1使
python 会议室预约系统解决方案_会议预约管理系统解决方案 weixin_39963853 python 会议室预约系统解决方案
随着时代快速发展，各大会议中心都有密集的会议安排，同时企业也会有大大小小的会议安排。会议室没有管理，会造成会议室被争抢、重要会议被非重要会议挤占、会议室信息不能及时发布、会议室设备开会时不满足会议要求、会议室设备没有提前调试以及设备因没有及时检修造成故障、会中设备出现故障且没有应急预案等等问题。这些问题往往频繁发生，使人们平时习以为常，用时抱怨连连。如果任由问题发生、日积月累，则会产生严重影响，轻
python 会议室预约系统解决方案_智能会议预约系统解决方案 weixin_39914868 python 会议室预约系统解决方案
随着时代的发展，科技的进步，效率在工作中成为了评价工作能力的一项标准。人的工作效率，机器的工作效率等等，我们都是逐步在提高。达到高效的工作状态离不开智能的解决方案，在此我将分享上海铭港公司做的智能办公空间—会议预约系统的案例。上海铭港做的此项会议预约系统案例的解决方案围绕的主题中心即是：效率提到会议室，可能令大家的头疼的事情随之而来。特别是公司的行政部门人员。哪间会议室是在空闲状态？哪间会议室有人
python 会议室预约系统解决方案_会议室预约管理系统方案书.pdf
会议预约管理系统系统方案目录一、系统概述31.1什么是会议预约管理31.2会议管理趋势4二、系统功能52.1功能特点52.2系统优势62.3系统界面7三、系统部署103.1安装示意图103.2安装实景图11四、会议显示12五、应用行业135.1教育行业135.2法律行业135.3医疗保健135.4企业13一、系统概述为符合现代信息化的考虑，在办公楼的底楼进出大厅设置一套多媒体信息显示公告系统，用于
python 会议室预约系统解决方案_会议预约系统_智能会议预约管理系统_轻松实现会议管理解决方案... weixin_39779032 python 会议室预约系统解决方案
随着社会的发展，会议预约管理系统在近年来呈现高速发展，但是各种等级层次不齐。现代办公会议室是组织的公共资源，会议室及其附属的设备构成召开会议的基础环境。广州朗歌公司以提高会议效率为焦点，以会议全过程管理为理念，开发了会议预定管理系统产品。会议室预约管理系统的目标是为会议的准备提供便捷的服务，实时动态的将会议室预定信息，传递到每个会议室门口、大厅及楼梯口等公共通道的显示屏上，实现会议信息发布引导功能
光伏发电园区管理系统 - Three.js + Django 实现方案小赖同学啊 test Technology Precious javascript django 开发语言
光伏发电园区管理系统-Three.js+Django实现方案我将设计一个基于Three.js和Django的光伏发电园区管理系统，包含3D可视化、实时监控和数据分析功能。系统架构设计API请求数据存储数据存储数据存储获取获取前端-Three.jsDjango后端数据库外部API光伏设备数据气象数据发电数据实时天气电价信息技术栈与依赖前端：Three.js(r128)-3D渲染Chart.js-数据
GitHub每周最火火火项目（6.30-7.6） FutureUniant Github周推 github microsoft 人工智能 ai 计算机视觉
1.NanniCoder/MediaCrawler项目名称：MediaCrawler项目介绍：该项目采用Python语言开发，专注于多平台媒体内容的爬取工作。从用途来看，它能够精准抓取小红书笔记、抖音视频、快手视频、B站视频、微博帖子、百度贴吧帖子及评论、知乎问答文章等各类媒体平台的内容。在使用场景方面，对于新媒体运营者而言，可借助它批量采集行业内多平台的热门内容、竞品动态，为自身内容创作、运营策
python项目使用poetry管理依赖项 zQIANYUN python开发 python 开发语言
1.poetry管理依赖项Poetry是Python项目中用于依赖管理和项目打包的工具。相比传统的pip和requirements.txt，Poetry提供了更加现代和集成的解决方案。优点：Poetry能够自动处理依赖关系冲突，帮助开发者避免版本不兼容问题。在安装新的依赖时，它会检查现有依赖，并更新pyproject.toml文件和生成锁定的poetry.lock文件，以确保项目使用的依赖版本在团
Seaborn 教程 froginwe11 开发语言
Seaborn教程引言Seaborn是一个强大的Python数据可视化库，它建立在Matplotlib的基础上，专门用于统计图形的绘制。Seaborn提供了一系列的绘图功能，使得统计数据的可视化变得更加简单和直观。本文将为您提供一个全面的Seaborn教程，帮助您快速掌握其基本用法和高级技巧。安装与导入在开始之前，请确保您的Python环境中已经安装了Seaborn和Matplotlib。您可以使
python中的logger包的详细使用教程 SunkingYang #python入门之日志使用 python 日志 logger 使用方法说明
文章目录功能说明一、Logger的创建与基础配置二、Handler的配置与使用三、Formatter自定义日志格式四、记录不同级别的日志五、高级配置与最佳实践六、常见问题与调试使用方法一、基础配置与快速使用二、自定义Logger对象三、高级用法四、最佳实践与注意事项五、实际应用场景示例Python的logging模块是标准库中用于记录日志的核心工具，通过灵活配置可实现多级别、多目标、多格式的日志管
10分钟掌握Python缓存
项目背景代码检查项目，需要存储每一步检查的中间结果，最终把结果汇总并写入文件中在中间结果的存储中可以使用context进行上下文的传递，但是整体对代码改动比较大，违背了开闭原则也可以利用缓存存储，处理完成之后再统一读缓存并写入文件在权衡了不同方案后，我决定采用缓存来存储中间结果。接下来，我将探讨Python中可用缓存组件。python缓存分类决定选择缓存，那么python中都有哪些类型的缓存呢?1
Go与Python爬虫对比及模板实现
go语言和Python语言都可选作用来爬虫项目，因为python经过十几年的累积，各种库是应有尽有，学习也相对比较简单，相比GO起步较晚还是有很大优势的，么有对比就没有伤害，所以我利用一个下午，写个Go爬虫，虽说运行起来没啥问题，但是之间出错的概率太高了，没有完备的模版套用得走很多弯路，这就是为啥go没有python受欢迎的原因。为何Go爬虫远没有Python爬虫流行？1、历史生态差距Python
pip设置国内源：阿里云、腾讯云、清华大学源 [email protected] Python pip python
更换Python的pip源（尤其是默认源访问速度较慢时）是一个常见需求，可以显著提升安装Python包的速度。以下是如何为pip设置国内源的步骤，以阿里云、腾讯云、清华大学源为例：1.备份原有源配置（可选但推荐）在进行任何更改之前，备份现有的pip配置文件是一个好习惯。这样，如果遇到问题，你可以轻松恢复到初始状态。Bash1mkdir~/.pip_backup2cp~/.pip/pip.conf~
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

天池赛：淘宝用户购物行为数据可视化分析

前言

一、赛题介绍

二、数据清洗、特征构建、特征可视化

1.数据缺失值及重复值处理

2.日期分离，PV及UV构建

3.PV及UV可视化

4.用户行为可视化

4.1 各个行为的面积图（以UV为例）

4.2 各个行为的热力图

5.转化率可视化

三、RFM模型

1.构建R、F、M

2.RFM的数据统计分布

3.计算RFM得分及组合

4.RFM组合柱图及得分饼图可视化

5.RFM 3D柱图展示

四、商品类型关联分析

4.1.提取关联规则

4.2.商品关联规则关系图

4.3.商品词云图

你可能感兴趣的:(数据分析,数据可视化,数据分析,python)