R语言数据挖掘(关联规则、聚类算法等)——美国黑色星期五

R语言数据挖掘(关联规则、聚类算法等)

  • 实验内容和步骤:
    • 数据概览
    • 产品分析
    • 性别统计
    • 畅销品
    • 年龄统计
    • 城市居住时间分析
    • 查找顶级消费者
    • 关联规则分析
    • 聚类

实验内容和步骤:

一、 实验内容:
对原始数据进行清洗;
使用R语言对数据进行处理和分析;
将处理结果进行展示得出实验结论。
二、 实验步骤
项目背景及意义:
黑色星期五就像我国的双11一样,这是美国整个州的折扣季节。我认为有必要研究围绕商店和购物者数据的数据集,因此我获得了黑色星期五购物交易相关的数据。该数据集包含550,000个关于零售商店中黑色星期五购物者的观察,它包含不同类型的数字或分类变量。也包含了缺失值。通过数据的分析与挖掘,用于商品的分类设计商店货物的货存安排以及捆绑销售、超市里货架摆放设计,从而提升销售量。

数据概览

数据在我的主页资源下载

找不到下载地址的点这个链接跳转:点击跳转代码下载页
另外,这个报告我是一年前完成的,现在很多都记不得了,大家有问题的时候自己多看看代码钻研钻研,不能一味地全靠复制粘贴哇。 还有,这个报告也是我的实训作业,所以如果是ZSTU的,请谨慎使用,最好自己可以修改一下。

 Importing packages
install.packages("GGally")
library(tidyverse)
library(GGally)
library(stringr)
library(tidyverse)
library(scales)
library(arules)
library(gridExtra)
bf<-read.csv("C:/Users/myR/Downloads/BlackFriday.csv/BlackFriday.csv")
summary(bf)
head(bf)

R语言数据挖掘(关联规则、聚类算法等)——美国黑色星期五_第1张图片
R语言数据挖掘(关联规则、聚类算法等)——美国黑色星期五_第2张图片
我们从数据的概览中得到的信息如下:
数据包含12个变量和537577个观测值。
大多数的缺失值都是Product_Category_2和Product_Category_3中。
每个列代表下面的相应变量:
User_ID:购物者的编码(唯一标识符)。
Product_ID:产品编码(唯一标识符)。
Gender:购物者的性别。
Age:购物者的年龄。
Occupation:职业。
City_Category:购物者的居住地点。
Stay_In_Current_City_Years:在当前城市停留的年数。
Marital_Status:购物者的婚姻状况。
Product_Category_1:购买的产品类别。
Product_Category_2:产品可能属于其他类别。
Product_Category_3:产品可能属于其他类别。
Purchase:以美元购买的金额。

产品分析

购买次数最多的产品
bf<-bf %>% select(-User_ID)
purpro_20<-bf %>% group_by(Product_ID) %>% count() %>% arrange(desc(n)) 
purpro_20[1:20,] %>% ggplot(aes(x=Product_ID,y=n,fill=Product_ID))+geom_col()+theme(axis.text.x = element_text(angle=45,vjust=0.5),legend.position = "none")

消费最多的价格区间
bf %>% ggplot(aes(x=Purchase))+geom_histogram(fill="blue")
产品类别信息统计
table(bf$Product_Category_1)
p1<-bf %>% group_by(Product_Category_1) %>% count() %>% ggplot(aes(x=reorder(Product_Category_1,n),y=n))+geom_col(aes(fill=as.factor(Product_Category_1)))+labs(x="",y="",title="消费者最喜欢的产品类别")+theme(legend.position="none")
p2<-bf %>% group_by(Gender,Product_Category_1) %>% count() %>% ggplot(aes(x=as.factor(Product_Category_1),y=n,fill=as.factor(Gender)))+geom_bar(stat="identity",position="dodge")+labs(x="",y="",fill="gender",title="不同性别各产品类别的喜爱程度")
p3<-bf %>% ggplot(aes(x=reorder(as.factor(Product_Category_1),Purchase),y=Purchase))+geom_boxplot()+ggtitle("各类产品平均消费价格")
gridExtra::grid.arrange(p1,p2,p3)

第5,1和8类是购买最多的
男性购买的每个类别的女性都多
10类是最贵的

性别统计

R语言数据挖掘(关联规则、聚类算法等)——美国黑色星期五_第3张图片
在我们的数据集中绘制性别分布。
options(scipen=10000) # To remove scientific numbering
gender_ch <- ggplot(data = bf2_gender) +
geom_bar(mapping = aes(x = Gender, y = …count…, fill = Gender)) +
labs(title = ‘性别分布’)
gender_ch
R语言数据挖掘(关联规则、聚类算法等)——美国黑色星期五_第4张图片
我们可以看到,黑色星期五购物的男性多于女性。此性别拆分指标对零售商有帮助,因为有些人可能希望根据购物者的性别比例不同地修改其商店布局,产品选择和其他变量。
女性主体的结构模型证实了享乐购物价值在购物满意度中的中介作用,而男性受访者的模型则存在。虽然这并未直接了解零售商店的建议行为,但它确实显示了购物及其与性别的关系所产生的价值差异,零售商应考虑这一点。
为了进一步调查,我们计算与性别相关的平均支出金额。

畅销品

年龄统计

(代码见主页下载)
R语言数据挖掘(关联规则、聚类算法等)——美国黑色星期五_第5张图片
R语言数据挖掘(关联规则、聚类算法等)——美国黑色星期五_第6张图片

城市居住时间分析

查找顶级消费者

关联规则分析

R语言数据挖掘(关联规则、聚类算法等)——美国黑色星期五_第7张图片
R语言数据挖掘(关联规则、聚类算法等)——美国黑色星期五_第8张图片

聚类

(代码见主页下载)

你可能感兴趣的:(R语言)