运用RapidMiner进行分类预测

目录

问题描述

Step1:角色设定

Step2:加入决策树操作符

Step3:对测试数据集预测

分类器分类效果评价

Step1:加载“数据集-决策树-训练集.csv”

Step2:拖拽“Cross Validation”算子

Step3:双击进入该算子的子流程,分别配置训练与测试两部分,

运用RapidMiner进行分类预测

问题描述

Richard 在一家大型网上零售公司工作。 他所在的公司即将推出下一代电子阅读器,并希望最大限度地提高营销活动的有效性。 他们有许多客户,其中有些客户购买过公司前几代数字阅读器中的产品。 Richard 注意到,在公司推出前一代产品时,有些人非常急于获得该产品,而其他人则似乎愿意等着过一段时间再购买。 他想知道是什么促使一些人在产品推出时立即抢购,而其他人的购买动力则要差一些。  Richard 相信通过挖掘公司网站上与消费者行为有关的客户数据,能够确定哪些客户将最早购买新款电子阅读器,哪些客户次之,以及哪些客户将等着过一段时间再购买。 他希望通过预测客户何时准备好购买下一代电子阅读器,能够有针对性地开展营销活动。

运用RapidMiner进行分类预测_第1张图片

 

Richard 将公司客户分为四类: 创新者、早期采用者、早期主体采用者或晚期主体采用者。 他希望通过观察客户在公司网站上的活动,大概预测每个人最有可能购买电子阅读器的时间。 他认为数据挖掘可以帮助他确定哪些活动是用于预测客户将归于哪个类别的最佳预测因子。

Richard公司拥有一个丰富的数据集,其中包含每个客户的信息:

User_ID: 每个用户有一个唯一的标识码。

Gender: 用户性别,“M”表示男性,“F”表示女性。 Age: 用户年龄。

Marital_Status: 用户婚姻状况,“M”表示已婚,“S”表示单身。

Website_Activity: 依据用户浏览公司网站时间的长短确定的用户活跃度,分为很少访问、定期访问或频繁访问。

Browsed_Electronics_12Mo: Yes/No,用于表示用户在过去一年中是否曾在公司网站上浏览电子产品。

Bought_Electronics_12Mo: Yes/No,用于表示相应人员在过去一年中是否购买过某种形式数字媒体。

Bought_Digital_Books: Yes/No,用户是否曾购买过数字书籍,时间不限于过去一年。 Payment_Method: 付款方式,有银行转账、网站账户、信用卡、月结账单四个选项。 eReader_Adoption: 标签,仅在训练集中存在,为测试集需要预测的字段;是对之前产品发布后,用户购买时间的分类。

在产品发布后一周内购买的人员在此属性中被记录为“创新者”。 在第一周之后但在第二到第三周之内购买的人员被输入为“早期采用者”。 在第三周之后但在前两个月之内购买的人员为“早期主体采用者”。 在前两个月之后购买的人员为“晚期主体采用者”。

Step1:角色设定

用户ID是用来唯一标识用户的字段,对于模型预测分析没有关系,因此不应该作为变量包含在模型里面。

在训练集中“eReader_Adoption”是一个“Label”类型的字段,我们需要对它指定为标签类型,以便在后面分类的时候标识它是一个标记属性。

 Set Role算子

运用RapidMiner进行分类预测_第2张图片

Step2:加入决策树操作符

找到“Decision Tree”决策树操作符,并将其拖拽到训练数据集的连接线上,这个模型在运行的时候就能够自动输出到结果输出端,然后点击运行按钮,我们可以看到生成决策树图形

运用RapidMiner进行分类预测_第3张图片 

Innovator: -年龄小于35且经常访问网站

……

Late Majority: -年龄大于41.5岁,很少访问网站,且不买电子书 

 

Step3:对测试数据集预测

需要用到“Apply Model”应用模型操作符,将其与决策树操作符进行连接,将测试数据集输出端与应用模型操作符的输入端连接

然后把应用模型的预测结果与输出端连接,这样我们的预测模型就搭建好了,点击运行按钮,我们发现决策树为我们创建了新的属性字段,显示了预测结果,以及各个类别的概率,他会用概率最高的来作为最终的结论

运用RapidMiner进行分类预测_第4张图片

运用RapidMiner进行分类预测_第5张图片 

分类器分类效果评价

如何评价一个分类器的精度?

交叉检验:将数据分为K个子集,取K-1个子集作为训练集,1个子集作为测试集,然后运行K次 

Step1:加载“数据集-决策树-训练集.csv”

Step2:拖拽“Cross Validation”算子

Step3:双击进入该算子的子流程,分别配置训练与测试两部分,

除了用到之前的模块,还需要使用“Performance(Classification)”算子进行精度精算 Step4:点击运行按钮,查看交叉检验结果

运用RapidMiner进行分类预测_第6张图片

运用RapidMiner进行分类预测_第7张图片 运用RapidMiner进行分类预测_第8张图片

 

 

你可能感兴趣的:(rapidminer,大数据,算法,机器学习,人工智能,数据挖掘)