电商数据处理分析

一.理解业务

原始文件有9个,分成3类:
客户相关:
UserInfo:用户主表
UserAddress:用户地址表
RegionInfo:区域表
商品相关:
GoodsInfo:商品主表
GoodsBrand:商品品牌表
GoodsColor:商品颜色表
GoodsSize:商品尺码表
订单相关:
OrderInfo:订单主表
OrderDetail:订单详情表
订单相关购买行为)为主维度,去关联客户相关*(卖给谁)和*商品相关卖了什么)。
OrderInfo主要关联客户维度表,OrderDetail关联商品维度表,而OrderInfo和OrderDetail之间用OrderID关联在一起。

ER关系图
电商数据处理分析_第1张图片
二.数据收集

创建数据库和表,并导入CSV文件,以userinfo表为例:

创建数据库ds和表userinfo
电商数据处理分析_第2张图片
导入数据:
在这里插入图片描述
检查导入数据的正确性:
1.查看导入的数据
电商数据处理分析_第3张图片
2.查看导入的行数:
电商数据处理分析_第4张图片
3.查看表结构
电商数据处理分析_第5张图片
另外8张表以同样的方式创建、导入、检查正确性。

三.数据处理

以userinfo表为例:

regtime varchar(20) not null default '-',
lastlogin varchar(20) not null default '-',

regtime表示注册日期,lastlogin表示最后登录日期,二者体现用户活跃度。二者应该是日期格式,但导入时设置的是文本格式(varchar),因此需要修改。
电商数据处理分析_第6张图片
步骤如下:
1.新建一个正确的日期型的字段

alter table userinfo add regtime_ datetime not null;
alter table userinfo add lastlogin_ datetime not null;

2.转换时间戳的值并赋值给新的字段

update userinfo set regtime_ = from_unixtime(regtime);
update userinfo set lastlogin_ = from_unixtime(lastlogin);

3.删除旧字段,只保留新字段

alter table userinfo drop column regtime;
alter table userinfo drop column lastlogin;

电商数据处理分析_第7张图片
电商数据处理分析_第8张图片
另外8个表的字段处理同理。

四.数据分析

1.求出购买产品金额最多的前十名顾客

2.求出购买产品金额最多的前十名顾客的最后登录时间

3.求出购买产品金额最多的前十名顾客的所在城市

4.求出购买力最强的前十个城市

5.求出购买力最强的前十个城市以及他们所在的省份

6.求出最畅销的十个品牌

7.求出最畅销的十种颜色、以及最不畅销的十种颜色

8.求出最畅销的十个品牌中各个不同尺码的销售额

你可能感兴趣的:(数据分析)