andakiwukawa

电商销售数据分析(2021/07/27)

如题，本次案例分析某电商平台的销售数据。本次案例的特点是，数据量比较大，原始数据存在比较多的问题，所以数据处理的过程比较典型。

还是按照原先的数据分析流程，概览数据-->数据处理-->数据分析

概览数据

概览数据重点关注，数据的标识问题，了解数据字段，大概观察下数据的问题。

1.数据的标识有订单标识和row_id, 订单标识有重复的问题，业务原因是一个订单买了三件商品，数据就给展开了。其中row_id是数据的唯一标识。

2.数据字段主要描述国际贸易的电商交易，其字段含义。。。

3.postalcode存在大量空值，需要处理

数据处理

脏数据的理解和处理

我们知道数据按照数据来源不同可以分为，一方数据，二方数据，三方数据。通常情况下，一方数据和二方数据脏数据会相对偏少，使用起来也比较方便。

我们之前提到过脏数据可以分为三类，异常值，缺失值，重复值。分类不同处理方式不同。

脏数据类型	优先处理方式	次级处理方式
异常值	修正	删除
缺失值	补充	删除
重复值	删除

下面这个图也可以更清晰的理解：总之就是重要的数据不要自己补，会影响数据真实性，不重要的数据缺失就缺吧。

数据处理流程

数据处理流程可以细分为：读取数据-->提取业务数据-->数据清洗-->数据规整，其中提取业务数据和数据清洗是结合着一起做的。以下是实例。

读取数据51101 rows × 24 columns

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv('dataset.csv',encoding='ISO-8859-1')
data

data.shape

整个数据清洗的流程一般情况下是

先处理重复值（标识），同步处理异常值，空值，处理完成后再次处理重复值

这么做的原因是，在处理异常值和空值的时候可能会涉及到用整列数据计算填补，重复值的存在导致无法填补。

处理类型：重复值处理，标识数据

处理重复值--->找出唯一标识--->去重

data.shape

data.RowID.unique().size


data[data.RowID.duplicated()]


data.drop(index=data[data.RowID.duplicated()].index,inplace=True)


data.info

处理类型：计算时间数据，计算判断脏数据，Series类型转换

根据业务判断我们需要通过发货时间shipdata 减去下单时间orderdata 提取物流时间interval。且这两个数据存在脏数据，有的发货时间比订单时间还要早。

先将两列数据都转换成日期格式

两者相减计算成秒数，提取脏数据

处理脏数据

将相减结果作为新的数据项

data['ShipDate']=pd.to_datetime(data['ShipDate'])
data['OrderDate']=pd.to_datetime(data['OrderDate'])


data['interval']=(data['ShipDate']-data['OrderDate']).dt.total_seconds()
data[data['interval']<0]


data.drop(index=data[data['interval']<0].index,inplace=True)
data

data['interval']=(data['ShipDate']-data['OrderDate'])
data['interval']

通过data.info()查看这几列中存在空值。

对其中shipmode进行处理，我们考虑填补的方式

处理类型：缺失值填补

首先我们回归数据判断这个数据是字符串还是数值型的，它是字符串类型的我们可以考虑用众数或是前一个后一个进行填补。如果是数值类型的我们可以用平均数，中位数，等进行填补。与业务确认后我们使用众数进行填补。

data[data['ShipMode'].isnull()]

data.ShipMode.mode()

data['ShipMode'].fillna(value=data.ShipMode.mode()[0],inplace=True)
data.info()

处理类型：丢弃整列

PostalCode这列数据缺失值多且不重要，选择直接丢弃

data.drop(columns=['PostalCode'],inplace=True)
data.info()

处理类型：脏数据判断，按条件替换，平均值填补空值

Discount这列数据并不是几折含义应给是减掉百分比的价格（与业务确定），Discount字段中有>1和<1的脏数据问题。

将脏数据变成 null---> 对null 进行填补（用的是平均值）

data[data.Discount>1]

data[data.Discount<0]


data['Discount']=data['Discount'].mask(data['Discount']>1,None)
data[data.Discount>1]


data[data['Discount'].notnull()].Discount.sum()/\
data[data['Discount'].notnull()].size


mean_Discount=round(data[data['Discount'].notnull()].Discount.sum()/\
data[data['Discount'].notnull()].size,2)
mean_Discount


data['Discount'].fillna(value=mean_Discount,inplace=True)
data.info()

数据规整：按照维度拆分一些字段

处理类型：拆分时间

将订单日期OrderDate，拆分成年、月、日、季度，并作为新字段，供后面分析使用

data['order-year'] = data['OrderDate'].dt.year
data['order-year']


data['order-month']=data['OrderDate'].dt.month
data['order-month']


data['quarter']=data['OrderDate'].dt.to_period('Q')
data.quarter


result = data[['OrderDate','order-year','order-month','quarter']].head()
result

至此数据处理完成。

数据分析

分析类型：双轴图

通过销售额-->衡量企业经营情况--->对比销售额增长--->使用柱状图

销售额增长率-->体现资本的扩张情况

每年增长率=（本年销售额-去年销售额）/去年销售额

每年增长率=当年销售额/去年销售额-1。

# 先求销售额
sales_year = data.groupby(by='order-year')['Sales'].sum()
sales_year

# 求销售额增长率
sales_rate_12 = sales_year[2012]/sales_year[2011] -1
sales_rate_13 = sales_year[2013]/sales_year[2012] -1
sales_rate_14 = sales_year[2014]/sales_year[2013] -1
print(sales_rate_12,sales_rate_13,sales_rate_14)


# 将增长率整理成格式
sale_rate_12_label = "%.2f%%"%(sales_rate_12*100)
sale_rate_13_label = "%.2f%%"%(sales_rate_13*100)
sale_rate_14_label = '%.2f%%'%(sales_rate_14*100)


# 将三列数据整理成df，传入plot作图使用
sales_rate_df = pd.DataFrame(
    {'sales_all':sales_year,
     'sales_rate':[0,sales_rate_12,sales_rate_13,sales_rate_14],
     'sales_rate_label':['0.00%',sale_rate_12_label,sale_rate_13_label,sale_rate_14_label]}
)
sales_rate_df

画图，关键步骤ax1和ax2共享x轴

# 设置字体，解决汉字问题
mpl.rcParams['font.sans-serif'] = ['SimHei']
plt.style.use('ggplot')

# 创建作图用的df
sales_rate_df = pd.DataFrame(
    {'sales_all':sales_year,
     'sales_rate':[0,sales_rate_12,sales_rate_13,sales_rate_14],
     'sales_rate_label':['0.00%',sale_rate_12_label,sale_rate_13_label,sale_rate_14_label]}
)
print(sales_rate_df)

# 将行列数据定义成series对象方便作图直接调用
y1 = sales_rate_df['sales_all']
y2 = sales_rate_df['sales_rate']
# y3 = sales_rate_df['sales_rate_label']
x = [str(value) for value in sales_rate_df.index.tolist()]

fig =plt.figure()
ax1 = fig.add_subplot(1,1,1)
# 关键步骤ax1和ax2共享x轴
ax2 = ax1.twinx()
ax1.bar(x,y1,color='blue')
ax2.plot(x,y2,color='red',marker='*')
ax1.set_xlabel('年份')
ax1.set_ylabel('销售额')
ax2.set_ylabel('增长率')
ax1.set_title('销售额与增长率')
plt.savefig('销售额与增长率.png')
plt.show()

分析类型：饼图

分析2011-2014各地区销售额与总销售额之间的占比关系

sales_area = data.groupby(by='Market')['Sales'].sum()
print(sales_area)

sales_area.plot(kind='pie',
                autopct='%1.1f%%',
                title='2011-2014各地区总销售额占比')
plt.savefig('2011-2014各地区总销售额占比.png')
plt.show()

分析类型：多分类柱状图

将每个地区每年的销售额Sales，分门别类展示出来，绘制条形图。

sales_area_year = data.groupby(by=['Market','order-year'])['Sales'].sum()
sales_area_year

# 这货是个series
type(sales_area_year)

# 把series的数据转换成列数据，这还是个多层索引
sales_area_year=sales_area_year.reset_index(level=[0,1])
sales_area_year


# 透视重新整理数据
sales_area_year = pd.pivot_table(sales_area_year,
                                 index='Market',#默认x坐标
                                 columns='order-year',#默认子柱状图
                                 values='Sales')#默认y坐标
sales_area_year

sales_area_year.plot(kind='bar',title='2011-2014不同地区的销售量对比')
plt.savefig('2011-2014不同地区的销售量对比.png')
plt.show()

分析类型：多分类柱状图

将每个地区不同类型的产品的销售额Sales，分门别类展示出来，绘制条形图。

category_area_sales = data.groupby(by=['Market','Category'])['Sales'].sum()
category_area_sales

category_area_sales = category_area_sales.reset_index(level=[0,1])
category_area_sales

category_area_sales = pd.pivot_table(
    category_area_sales,
    index='Market',
    columns='Category',
    values='Sales'
)
category_area_sales


category_area_sales.plot(
    kind ='bar',
    title='不同类型产品在不同区域销售额对比',
    figsize=(10,8)
)
plt.savefig('不同类型产品在不同区域销售额对比.png')

分析类型：多分类折线图

分析每年销售额变化与月份的关系

year_month_sales = data.groupby(by=['order-year','order-month'])['Sales'].sum()
year_month_sales


year_month_sales=year_month_sales.reset_index(level=[0,1])
year_month_sales


year_month_sales = pd.pivot_table(
    year_month_sales,
    index='order-month',
    columns='order-year',
    values='Sales'
)
year_month_sales


year_month_sales.plot(title='每年销售额变化与月份的关系')
plt.savefig('每年销售额变化与月份的关系.png')

分析类型：丢弃重复值统计新增

我们分析每年用户增长与月份之间的关系。图中明显看出来一开始用户增长明显，后续阳痿了。

通过丢弃重复值drop_duplicates可以实现，默认参数keep='first'，保留用户出现的第一次。

通过分组聚合size统计每年新出现的的用户的个数。

data_customer = data.copy()
data_customer = data_customer.drop_duplicates(subset=['CustomerID'])
data_customer#1590条数据

由于涉及到丢弃数据，我们先用copy()做一下备份，对于这种对象类的数据做备份用copy不要用等于，因为储存机制不同，copy方法更省资源。

customer_year_month_count = data_customer.groupby(by=['order-year','order-month']).size()
customer_year_month_count


customer_year_month_count = customer_year_month_count.reset_index(level=[0,1])
customer_year_month_count

customer_year_month_count = pd.pivot_table(
    customer_year_month_count,
    index='order-month',
    columns='order-year',
    values=0,
    fill_value=0
)
customer_year_month_count


customer_year_month_count.plot(title='每年用户增长与月份之间的关系')
plt.savefig('每年用户增长与月份之间的关系.png')

分析类型：RFM模型分析，给用户打标签

RFM是常用的对用户分析的手法，RFM模型的形式有均值、评分、对应算法，本次案例通过均值的形式。

其中通常情况如图展示，不同情况受到商品特征等因素影响，比如装修这种一锤子的买卖，和用户的交易时间相关不大。根据三种字段，每种字段两种情况，我们可以把用户分成八类。

基于这个分类我们对14年的用户进行打标签分析。

取出14年相关的数据和字段---->设置用户id为索引（分析的对象是用户）

data_14 =data[data['order-year']==2014]
data_14=data_14[['CustomerID','OrderDate','Sales']]
data_14


customer_df = data_14.copy()

customer_df.set_index('CustomerID',drop=True,inplace=True)
customer_df

计算购买次数----->添加order字段----->用于count或者sum----->透视数据

customer_df['Orders'] = 1
customer_df


rfm_df = customer_df.pivot_table(
    index=['CustomerID'],
    values=['OrderDate','Orders','Sales'],
    aggfunc={
        'OrderDate':'max',
        'Orders':'sum',
        'Sales':'sum'
    }
)
rfm_df


rfm_df.OrderDate.max()-rfm_df.OrderDate
rfm_df['R'] = (rfm_df.OrderDate.max()-rfm_df.OrderDate).dt.days
rfm_df['R']


rfm_df.rename(columns={'Sales':'M','Orders':'F'},inplace=True)
rfm_df

计算好rfm后为用户打标签

rfm_df[['R','F','M']].apply(lambda x:x-x.mean(),axis=0)


def rfm_func(x):
    level = x.apply(lambda x:'1' if x>=0 else '0')
    label = level.R + level.F + level.M
    d = {
        '011':'重要价值客户',
        '111':'重要唤回客户',
        '001':'重要深耕客户',
        '101':'重要挽留客户',
        '010':'潜力客户',
        '110':'一般维持客户',
        '000':'新客户',
        '100':'流失客户',

    }
    result = d[label]
    return result



rfm_df['label']=rfm_df[['R','F','M']].apply(lambda x:x-x.mean(),axis=0).apply(rfm_func,axis=1)

rfm_df['label']



rfm_df.groupby(by=['label']).count()


rfm_df.label.value_counts()


rfm_df.label.value_counts().plot.bar(figsize=(20,9))
plt.xticks(rotation=0)
plt.savefig('rmf模型分析.png')

对其中apply的和方法的理解，第一个apply的axis=0 把每列数据传入x

rfm_df[['R','F','M']].apply(lambda x:x-x.mean(),axis=0)

第二个axis=1，把每行数据（一个series）传入rfm_func的x。在方法里相当于对一个series调用了一个lambda

最后的解析结果：

python081（包02—封装模块、设置__init__和外界导入包） weixin_42681308 Python
案例演练新建一个hm_message的包在目录下，新建两个文件send_message和receive_message在send_message文件中定义一个send函数在receive_message文件中定义一个receive函数在外部直接导入hm_message的包__init__.py要在外界使用包中的模块，需要在__init__.py中指定对外界提供的模块列表
销售易CRM：引领数字化转型，助力企业智能增长人工智能程序员
在全球数字化浪潮下，企业对智能化、数字化转型的需求愈发迫切。销售易CRM作为中国领先的企业级智能CRM解决方案提供商，凭借其强大的产品能力、丰富的行业经验和卓越的服务品质，成为众多知名企业的首选合作伙伴。本文将深入分析销售易CRM的核心优势，以及其如何助力企业实现数字化转型与业务增长。一、销售易CRM的核心优势领先的技术实力销售易CRM基于自主研发的新一代智能商业引擎，将人工智能、大数据分析等前沿
wps2019数据分析加载项_《07版office办公软件中的excle中，为什么在加载项里选择了分析工具库，数据分析还是显示不出来？》 wps数据分析加载项... 孙伟莲 wps2019数据分析加载项
如何利用excle做数据分析excel完全可以解决！可以通过数据透视表，筛选出你的各种需求，但是要求操作要熟练，没办法在这里描述清楚的07版office办公软件中的excle中，为什么在加载项里选择了分析工具库，数据分析还是显示不出来？当你有某一个表格需要导出数据时，点击页面上方的输出，出现一个另存为的对话框，先选择保存的位置，然后输入文件名，在保存类型中选excel点保存！这样你的表格就在你的存
wps2019数据分析加载项_wps单因素分析数据 wps2019单因素方差分析战斗力旺盛的伯爵 wps2019数据分析加载项
请问wpsexcel如何进行单因素方差分析？在“数据”选项下的“分析”“分析工具”中，选择“方差分析-单因素方差分析”，并进行相应的设置，即可。在WPS里面excel算显著性差异应该找哪里？1、如图，比较两组数据之间的差异性。2、首先需要为Excel添加分析工具的加载项插件，点击office按钮-excel选项-加载项-转到-勾选分析工具库。3、接下来需要选择数据区域，数据-分析-数据分析；选择单
wps2019数据分析加载项_wpsexcel数据分析工具在哪里延静斋孙 wps2019数据分析加载项
WPS中Excel表格的功能非常强大，不仅仅能够统计数据，而且还可以分析数据，这也是我们处理大量数据的最快捷的方法，感兴趣的小伙伴可以来看看哦。WPS中如何将表格中的数据在表格中以柱状图显示运用条件格式中数据条即可达到效果如何调出wps的excel“数据”中“数据透视表和数据透视图”选项？1，选中图标，注意图表要，然后点击“插入”--“数据透视表”。2，选择数据区域，点击“确定”。3，然后把字段拖
【ChatGPT】实用 Prompt 指令大全 —— 一文教你如何更好地挖掘 GPT 的价值 AI天才研究院 ChatGPT chatgpt gpt 人工智能机器学习 Prompt工程
目录ChatGPT实用Prompt指令大全——一文教你如何更好地挖掘GPT的价值1.ChatGPT简介2.如何构建有效的Prompt指令3.形式化问题4.准确化任务需求5.别样表达6.提供上下文信息7.实用Prompts案例ChatGPT指令大全1.生成列表2.修改文本格式3.提供定义或解释4.编写文章或散文5.提供建议或指导6.讲述历史事件或演讲人物7.生成创意内容8.编辑或审查文本9.回答问题
手把手教会你Disruptor的常用使用场景！(含详细代码示例) 后端
Disruptor常见使用场景与代码示例1.引言上期介绍到Disruptor是一个高性能的无锁并发队列，适用于需要极低延迟和高吞吐量的应用场景。它通过环形缓冲区（RingBuffer）和高效的事件处理机制，显著减少了CPU缓存失效和上下文切换的开销。今天介绍Disruptor的几个常见使用场景：事件处理、日志记录、消息传递、实时数据分析和并发任务调度，让你进一步加深对它的印象，下期将介绍Disru
PHP简单项目案例（改进版）小邱同志~ PHP php web 程序设计 mysql 数据库
最近开学php，下午闲着没事干，想着做个小项目练练手，也就是用php写个网页，对数据库里的东西实现增删改查，下面给大家分享一下，由于本人的业务能力尚浅，大家有啥建议我很欢迎哦！简单效果：1.打开网页呈现数据库数据：2.删除功能，添加信息功能。3.信息修改功能（带数据进页面）下面便是源码：数据库文件：（数据库名：dataphp表名：student）/*SQLyog企业版-MySQLGUIv8.14M
html简单项目案例张小特 html css css3
数据展示/*全局样式*/body{font-family:Arial,sans-serif;margin:0;padding:0;background-color:#f9f9f9;display:flex;flex-direction:column;min-height:100vh;}/*页面容器*/.container{max-width:1200px;margin:0auto;padding:
如何查看和终止正在运行的Python进程 weixin_48705841 python 开发语言
如何查看和终止正在运行的Python进程无论是在开发过程中测试脚本，还是在生产环境中运行数据分析任务，了解如何查看和控制正在运行的Python进程对于维护系统状态和资源利用率至关重要。本文将介绍在两个主要操作平台（Unix/Linux/macOS和Windows）上执行这些任务的方法。在Unix/Linux/macOS上查看Python进程打开你的终端应用程序。输入以下命令并执行：ps-ef|gr
差分进化算法 (Differential Evolution) 算法详解及案例分析闲人编程 python 算法 python 开发语言选择 DE 差分进化算法变异
差分进化算法(DifferentialEvolution)算法详解及案例分析目录差分进化算法(DifferentialEvolution)算法详解及案例分析1.引言2.差分进化算法(DE)算法原理2.1基本概念2.2算法步骤3.差分进化算法的优势与局限性3.1优势3.2局限性4.案例分析4.1案例1:单目标优化问题4.1.1问题描述4.1.2代码实现4.1.3流程图4.1.4优化曲线4.2案例2:
F#语言的图形用户界面沈霁晨包罗万象 golang 开发语言后端
F#语言的图形用户界面开发引言随着软件开发的日益复杂化，图形用户界面（GUI）在现代应用程序中的重要性不可忽视。它提供了一种直观的方式，使用户能够与应用程序进行交互。F#语言作为一种函数式编程语言，近年来在开发领域越来越受到关注，尤其是在数据分析和机器学习领域。但F#同样能够用于图形用户界面的开发，尤其是结合.NET平台及其丰富的库。本文将深入探讨F#语言在图形用户界面开发中的应用，包括常用的框架
Ruby语言的Web开发沈霁晨包罗万象 golang 开发语言后端
Ruby语言的Web开发引言随着互联网技术的迅猛发展，Web开发已经成为软件开发领域的重要组成部分。在众多编程语言中，Ruby凭借其简洁优雅的语法、强大的社区支持以及丰富的框架，逐渐在Web开发领域占据了一席之地。本文将探讨Ruby语言在Web开发中的应用，重点介绍RubyonRails框架的特性、优势以及实际案例，帮助读者了解如何使用Ruby进行高效的Web开发。Ruby语言概述Ruby是一种动
node.js基于的人事管理系统程序+论文可用于毕业设计亦月学姐毕设 node.js 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带文档lw万字以上，文末可获取源码系统程序文件列表开题报告内容选题背景关于人事管理系统的研究，现有研究主要以传统模式下的人事信息管理为主，多侧重于基本的员工信息存储与简单的考勤统计等功能实现。专门针对集成化、智能化且功能全面覆盖现代企业人事管理各环节的研究较少。在国外，一些先进的人事管理系统已具备高度自动化和数据分析功能，但因国情和企业管理文化差异，
drissionpage爬虫自动化入门案例与视频教程与相关代码十一姐爬虫自动化 drissionpage
目录零、各种关于drissionpage文章视频案例解决方案合集一、dp安装与首次打开网页测试使用二、dp获取网页内容html/text/attr入门三、dp输入点击input/click/eles元素交互等入门四、dp获取cookies信息入门五、dp实现翻页并下载图片入门六、dp实现网页接口数据包监听入门（类似network和fiddler）七、dp实现高并发10倍速度爬取详情页信息八、dp实
e9000刀片服务器文档,华为E9000融合架构刀片服务器介绍.pdf 大苏牙 e9000刀片服务器文档
华为E9000融合架构刀片服务器培训Luoweitao@H201502目录ClicktoaddTitle1市场概述及定位ClicktoaddTitle2产品规格及亮点3产品对比4成功案例ClicktoaddTitle5订购指南ClicktoaddTitle6如何获取资源ClicktoaddTitle12014Q4连续6个季度全球第四2014Q4全球服务器发货量TOP1070100%万台6080%5
AI系统架构原理与代码实战案例讲解 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI系统架构原理与代码实战案例讲解1.背景介绍1.1人工智能的发展历程1.1.1人工智能的起源与早期发展人工智能的概念可以追溯到上世纪50年代，图灵测试的提出标志着人工智能作为一门学科的诞生。早期的研究主要集中在符号推理、专家系统等领域，取得了一些突破，例如机器定理证明、西洋跳棋程序等。1.1.2人工智能的黄金时期上世纪80年代，随着专家系统的兴起，人工智能进入了一个黄金时期。专家系统通过模拟人类
领导力与职业发展：帮助团队成员成长 AI天才研究院大数据AI人工智能 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《领导力与职业发展：帮助团队成员成长》关键词：领导力、职业发展、团队成长、管理技能、领导艺术摘要：本文深入探讨了领导力与职业发展的关系，探讨了领导力在团队中的核心作用，以及如何通过有效的领导力帮助团队成员实现个人与职业的成长。文章从领导力的基础理论出发，逐步分析了领导力的定义、重要性、技能与个人发展，详细阐述了职业规划、职场技能提升、职业发展策略等方面的内容。同时，文章结合实践案例，提供了具体的领
Node.js 模块化编程实践：管理大型项目和依赖 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《Node.js模块化编程实践：管理大型项目和依赖》关键词：Node.js、模块化编程、大型项目、依赖管理、包管理工具、性能优化、测试与调试、实战项目摘要：本文将深入探讨Node.js模块化编程实践，从基础知识和模块化概述开始，逐步讲解如何管理大型项目和依赖。我们将详细介绍Node.js的模块加载机制、包管理工具、大型项目构建与优化、测试与调试等关键点。通过一系列实战项目案例，读者将掌握Node.
应用跳转歌曲播放页转场卡顿性能优化工具使用案例
场景导入目标规则使用性能检测工具检测性能问题使用性能分析工具进一步分析性能问题根因优化方案及优化收益场景导入某应用首页点击最下方播放圆盘跳转到歌曲播放页用肉眼观测有明显的抖动卡顿。如果不通过性能工具集进行分析，开发者需要：1、复现问题；2、抓取trace；3、分析trace找出丢帧问题点。操作步骤多，耗时较长。本场景通过采用静态检查工具进行问题发现、定位及修改。目标规则CodeLinter目标检测
告别 Excel，拥抱 R 语言：开启数据分析新时代码农老关【关东升】 excel r语言数据分析
在这个数据驱动的时代，数据分析已然成为每个行业的核心竞争力。从市场营销到金融领域，从医疗健康到教育行业，数据无处不在，深刻影响着每一个决策。然而，面对日益复杂的数据集，单纯依靠Excel进行分析，已渐渐难以满足不断增长的需求。为何弃Excel选R语言？强大的数据处理能力Excel简单易用，但其处理大数据集时，效率与能力着实有限。R语言作为专业的数据分析工具，处理成千上万的数据行不在话下，还支持丰富
内附源码｜头部基模企业信赖之选——DMS+Lindorm智能搜索方案数据库阿里云data+ai
本文为数据库「拥抱Data+AI」系列连载第6篇，该系列是阿里云瑶池数据库面向各行业Data+AI应用场景，基于真实客户案例&最佳实践，展示Data+AI行业解决方案的连载文章。本篇针对企业构建智能搜索服务的痛点，介绍如何利用阿里云Data+AI解决方案构建一站式AI搜索服务，深入分析了DMS+Lindorm的智能搜索解决方案。1、智能搜索成为信息消费的趋势近两年，AI大模型的迅速崛起为搜索产品注
Oracle 到 Elasticsearch 数据迁移同步
简述Elasticsearch是一个分布式的实时搜索与数据分析引擎，具有强大的可扩展性和高度的灵活性。CloudCanal对于Elasticsearch的支持经过了多轮迭代，支持版本从6.x和7.x一路扩展到8.x，并适配了其丰富多样的API。同时CloudCanal对Oracle源端同步技术进行了多处优化，大幅提升了数据同步的稳定性和可靠性。本文主要介绍如何使用CloudCanal快速构建一条O
C++线程库std::thread和std::async的用法详解大王算法 c++开发语言
目录一、背景二、并发编程的背景三、std::thread3.1创建和启动线程3.2线程的参数传递3.3线程的生命周期管理3.4线程同步四、std::async与std::future4.1创建异步任务4.2使用std::launch控制执行策略4.3std::future与std::promise4.4异步任务的取消与超时五、实战案例：并发文件处理5.1使用std::thread实现一、背景C++
MPP数据库：大数据处理的“高手” 狮歌~资深攻城狮数据仓库数据分析数据库
MPP数据库：大数据处理的“高手”最近听到很多朋友讨论大数据处理的技术，其中就有一个词常常被提起，那就是MPP（MassivelyParallelProcessing，大规模并行处理）。那么，什么是MPP数据库呢？简单来说，它是一种专门用于大数据分析和处理的数据库技术，通过将数据和计算任务分配到多个节点上，达到高效、快速地处理海量数据的效果。1.MPP数据库是如何工作的？MPP数据库的工作方式和我
什么是数据分析？狮歌~资深攻城狮数据分析数据挖掘
什么是数据分析？数据分析（DataAnalysis）是指通过对数据进行收集、整理、处理、建模和解读，以揭示数据中的有用信息、支持决策和解决实际问题的过程。它是一门将数据转化为知识的学科，广泛应用于商业、科学研究、医疗、社会经济等多个领域。在现代社会中，数据被称为“新石油”，因为它已经成为驱动企业创新、优化运营和提升竞争力的关键资源。而数据分析，就是挖掘这一资源潜力的重要手段。数据分析的核心目标数据
通用人工智能的多层次提示词架构 AI天才研究院计算机软件编程原理与应用实践大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
通用人工智能的多层次提示词架构关键词通用人工智能（AGI），多层提示词架构，人工智能设计原则，算法原理，系统架构设计，应用案例摘要本文将深入探讨通用人工智能（AGI）的多层次提示词架构，阐述其背景、核心概念、设计原则和实现方法。我们将逐步分析这一架构在不同领域的应用，并展望其未来的发展方向。通过本文，读者将了解如何构建能够模拟人类智能的多层次提示词系统，并思考其在实际应用中的潜力与挑战。目录第一部
从0到1打造企业AI知识库-课程目录 MaxCode-1 人工智能 AIGC 知识图谱 Langchain Xinference
课程名称：「从0到1打造企业AI知识库：实用指南与生产落地」课程目录第一章：AI企业知识库的前景与价值1.企业知识库的概念与意义1.1什么是企业知识库？-企业知识库的核心组成-企业知识库的类型1.2企业知识库如何赋能内部协作与创新。2.AI在知识库中的作用AI赋能的核心技术：NLP、知识图谱、大模型。AI知识库的未来趋势与行业案例。第二章：搭建企业知识库的整体规划3.从需求分析到方案设计识别业务场
如何学习爬虫技术：从入门到实践的全面指南 CodeJourney. 学习爬虫
一、引言在当今数字化时代，网络上的数据量呈爆炸式增长，能够高效地获取和处理这些数据变得愈发重要。爬虫技术作为一种从网页中自动提取信息的手段，在各个领域都有着广泛的应用，无论是数据分析、机器学习的数据集构建，还是市场调研、价格监测等商业场景，掌握爬虫技术都能为你打开一扇获取丰富信息资源的大门。然而，对于初学者来说，面对琳琅满目的工具和复杂的网络环境，可能会感到无从下手。本文将带你逐步深入了解爬虫技术
Spring Boot实战：基于GraphQL的API开发与性能优化小筱在线 Java进阶篇 spring boot graphql 性能优化 java
摘要随着微服务架构和前后端分离开发模式的普及，API设计与开发成为现代软件开发中的关键环节。GraphQL作为一种新兴的API查询语言，提供了比传统RESTfulAPI更灵活、高效的数据交互方式。本文通过SpringBoot框架，详细介绍了基于GraphQL的API开发流程，并从多个角度探讨了性能优化策略。通过实际案例，展示了GraphQL在SpringBoot项目中的应用价值以及如何通过优化手段
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

电商销售数据分析(2021/07/27)

概览数据

数据处理

脏数据的理解和处理

数据处理流程

处理类型：重复值处理，标识数据

处理类型：计算时间数据，计算判断脏数据，Series类型转换

处理类型：缺失值填补

处理类型：丢弃整列

处理类型：脏数据判断，按条件替换，平均值填补空值

处理类型：拆分时间

数据分析

分析类型：双轴图

分析类型：饼图

分析类型：多分类柱状图

分析类型：多分类柱状图

分析类型：多分类折线图

分析类型：丢弃重复值统计新增

分析类型：RFM模型分析，给用户打标签

你可能感兴趣的:(数据分析案例)