R语言LASSO特征选择、决策树CART算法和CHAID算法电商网站购物行为预测分析

全文链接：http://tecdat.cn/?p=32275

原文出处：拓端数据部落公众号

本文通过分析电子商务平台的用户购物行为，帮助客户构建了一个基于决策树模型的用户购物行为预测分析模型。该模型可以帮助企业预测用户的购物意愿、购物频率及购买金额等重要指标，为企业制定更有针对性的营销策略提供参考。

数据来源和处理

本研究所使用的数据来自某电子商务平台的用户购物历史记录。

读取数据

head(data)

模型构建

在本文中，我们选择了决策树和LASSO模型作为分析工具。决策树是一种常见的机器学习算法，它能够根据数据的特征变量将数据分成不同的类别，并找到最佳的划分方式。LASSO模型通过构造一个惩罚函数得到一个较为精炼的模型，使得它压缩一些回归系数，即强制系数绝对值之和小于某个固定值；同时设定一些回归系数为零。因此保留了子集收缩的优点，是一种处理具有复共线性数据的有偏估计。

决策树

df2$Is_Buy_30

变量类型设置

df2$Is_Buy_30 =as.factor(df2$Is_Buy_30 )  
df2$T_weekday =as.factor(df2$T_weekday)  
df2$T_hour=as.numeric(df2$T_hour)  
df2$city_tier=as.numeric(df2$city_tier)

设置权重

df2$weight[df2$Is_Buy_30==1]=7
df2$weight[df2$Is_Buy_30==0]=4

建立决策树：是否购买

result=list(0)  
CARTmodelfunc=function(model){  
  CARTmodel = rpart(model, data=df2 , method="class",weights = df2$weig



## 绘制决策树  
## 输出决策树cp值
  
  
  prune(CARTmodel, cp= CARTmodel$cptable[which.min(CARTmodel$cptable[,"xerror"]),"CP"])  #剪枝  
   
  CARTmodel2 <- prune(CARTmodel, cp=cp); #对树进行剪枝
  
  #对数据进行预测  
   
   
  set.seed(1)  
  #获得训练集  
  df2.train <- df2[train, ]  
  #测试集  
  df2.test <- df2[-train, ]  
  #预测数据  
  tree.pred= (predict(CARTmodel2,df2.test ,type = "class"))
  
  
  confusionmatrix=table(tree.pred,df2.test$Is_Buy_30),#得到训练集混淆矩阵
  
  
  MSE=mean((as.numeric(tree.pred) - as.numeric(df2.test$Is_Buy_30))^

使用lasso算法进行筛选变量

#获得训练集

train <- sample(1:nrow(df2), nrow(df2)*0.8)

t)]), alpha = 1)  
plot(cv.lasso)

coef(cv.lasso,s="lambda.1se")

根据lasso筛选出最优的变量

chaid 树

ctreemodelfucntion=function(modelformula){  
  index=sample(1:nrow(df2),nrow(df2)*0.6)  
  df2.train=df2[index,]  
  df2.test=df2[index,]
  
  
  confusionmatrix=table(tree.pred2,df2.test$Is_Buy_30)#得到训练集混淆矩阵
  
  
  #预测为1类的正确率  
    presicion=tab[2,2]/sum(tab[,2]),  
    # [1] 0.3993589  
    #预测为1类的召回率  
    recall=tab[2,2]/sum(tab[2,]),  
    # [1] 0.6826484  
     
    #mse  
    MSE=mean((as.numeric(tree.pred2) - as.numeric(df2.test$Is_Buy_30))^2),

chaid tree LASSO 算法

可视化树状图：

模型结果

混淆矩阵就是分别统计分类模型归错类，归对类的观测值个数，然后把结果放在一个表里展示出来。这个表就是混淆矩阵。

定义

以分类模型中最简单的二分类为例，对于这种问题，我们的模型最终需要判断样本的结果是0还是1，或者说是positive还是negative。

我们通过样本的采集，能够直接知道真实情况下，哪些数据结果是positive，哪些结果是negative。同时，我们通过用样本数据跑出分类器模型的结果，也可以知道模型认为这些数据哪些是positive，哪些是negative。

将x表写进数据库里

sqlSave(channel,result2_loss22,rownames = "result2_loss22",addPK = TRUE)

CART 决策树 LASSO 算法

Cart模型是一种决策树模型，它即可以用于分类，也可以用于回归，其学习算法分为下面两步：

（1）决策树生成：用训练数据生成决策树，生成树尽可能大

（2）决策树剪枝：基于损失函数最小化的剪枝，用验证数据对生成的数据进行剪枝。

分类和回归树模型采用不同的最优化策略。Cart回归树使用平方误差最小化策略，Cart分类生成树采用的基尼指数最小化策略。

resultlasso2=CARTmodelfunc(modelformulalasso)

resultlasso2

混淆矩阵是机器学习中总结分类模型预测结果的情形分析表，以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。

# 将x表写进数据库里  
sqlSave(channel,result_rfm,rownames = "result_rfm",addPK = TRUE)

最受欢迎的见解

1.PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的方法：决策树，随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习：推荐系统实现（以矩阵分解来协同过滤）

9.python中用pytorch机器学习分类预测银行客户流失