替代方法_另辟蹊径:使用 CART 作为分析分类调查数据的替代方法

e9b3188a2b8122a36dffdf52b5b189ec.png

本文最初出现在The Minitab Blog

另辟蹊径:使用 CART 作为分析分类调查数据的替代方法

尝试了解客户/患者行为是一件很有挑战的事。研究人员往往会使用调查数据并频繁使用 Minitab Statistical Software 中的回归功能对其进行分析。但是,若结果变量是分类数据,而不是定量数据,则无法非常直接或直观地解释逻辑回归的结果。

Minitab中有没有其他选择可用来分析调查数据?最新版 Minitab Statistical Software 中提供了一种解释性的、基于树的机器学习技术——CART®(分类和回归树)。探究 CART 的丰富功能!

替代方法_另辟蹊径:使用 CART 作为分析分类调查数据的替代方法_第1张图片

什么是 CART?

CART 是一种决策树算法,它会创建一组“是/否”规则,然后利用这些规则并基于预测变量或输入设置将目标或结果变量拆分到多个分区。产生的模型以决策树形式呈现,以展示如何基于输入设置对目标或结果变量进行分区。Minitab 的 CART 算法可自动查找最优数目的末端节点(也称为拆分或最终分组),目的就是尽可能地提高模型的预测能力。

最出色的表现是什么?完成分析后,CART 的输出包含直观的可视解释,因此,您不必是数据科学家,也能从数据中收获极有价值的见解。

替代方法_另辟蹊径:使用 CART 作为分析分类调查数据的替代方法_第2张图片

(注意:默认情况下,Minitab 会显示具体的 CART 树。右键单击树并选择结点分裂视图,可查看上面简要视图。


下载 Minitab® Statistical Software 免费试用版

探索 CART 并密切关注相关动态


借助 CART 充分发挥免预约诊所数据的作用

了解 CART 是什么之后,接下来我们看下它的工作原理。

连锁免预约诊所收集患者的调查数据,询问了他们未来有多大可能性会再次光顾诊所:极有可能、有可能或不可能。诊所员工还会记录患者的年龄、从家里到诊所的距离(以英里为单位)以及就业状态。诊所的地区经理尤其关注到底是什么因素在影响无预约患者再次来诊所接受服务的意愿。

下方显示数据子集,还有一个条形图展示了诊所无预约患者给出的响应。

替代方法_另辟蹊径:使用 CART 作为分析分类调查数据的替代方法_第3张图片
替代方法_另辟蹊径:使用 CART 作为分析分类调查数据的替代方法_第4张图片

我们可以使用 CART 来预测分类结果的似然性,在这个案例中,指的就是患者再次光顾诊所的可能性。Minitab 的 CART 分类引擎提供的直观界面可以处理二元结果(两组)或多项式结果(至少三组)。

经理将她的数据输入 Minitab 后,选择统计 > 预测分析 > CART® 分类,界面上随后显示了以下内容:

替代方法_另辟蹊径:使用 CART 作为分析分类调查数据的替代方法_第5张图片

由于存在至少三组,因此她先选择多项式响应,然后在响应中选择“再次光顾的意向”,这也是她想预测的目标。接着,依次快速输入连续预测变量类别预测变量或者要用来进行预测的其他输入,填写好对话框。

CART 会自动处理缺失值,而且对极端异常值不敏感,也不会假定存在要检查的分布、p 值或残差。因此,CART 十分简单易用,即便是初学者也能快速上手。此外,Minitab 的 CART 功能会仔细、谨慎地将数据分为两组:一部分数据用于构建模型(学习数据),而另一部分数据则用于评估模型执行新预测的能力(测试数据)。

针对每一个目标变量对,CART 分析的输出会显示大于或等于 0.93 的 (ROC) 曲线下的面积值。ROC 可以帮助经理将模型预测患者再次光顾诊所的意愿的准确性进行可视化。该图显示了敏感度(正确预测为正类的正类)与特异度(正确预测为负类的负类)之间的关系。

替代方法_另辟蹊径:使用 CART 作为分析分类调查数据的替代方法_第6张图片
替代方法_另辟蹊径:使用 CART 作为分析分类调查数据的替代方法_第7张图片
替代方法_另辟蹊径:使用 CART 作为分析分类调查数据的替代方法_第8张图片

对于大多数应用程序而言,大于或等于 0.70 的 ROC 值通常就已相当实用,因此,这个模型能够如此准确地预测患者未来再次光顾诊所的意愿,经理感到非常满意。

经理之前认为,患者与诊所之间的距离是影响此人再次光顾诊所的意愿的最佳预测变量。但令她吃惊的是,结果并非如此。在 CART 的相对变量重要性图中,清晰显示了每一个预测变量对于决定患者是否再次光顾诊所的对应重要性。

替代方法_另辟蹊径:使用 CART 作为分析分类调查数据的替代方法_第9张图片

最终结果

快速评估上方变量重要性图后发现,患者的年龄才是影响他们是否会再次光顾诊所的意愿的最佳预测变量,距离的影响程度紧随其后,而就业状态的重要性最低。

通过深入了解患者行为,将有助于地区经理创建再次光顾诊所可能性高的客户的个人资料,这样诊所中心也就能有针对性地发送额外宣传单和推出激励措施,从而确保这些客户再次光顾。例如,不满 43 岁而且与诊所距离不到 11 英里的患者,无论就业状态如何,都极有可能再次光顾。

年龄介于 71 到 83 岁之间的患者,无论距离或就业状态如何,都有可能再次光顾。

相比之下,年龄介于 67 到 71 岁之间的那些患者,若与诊所的距离超过 11 英里,无论其他因素如何,他们都不大可能再次光顾。

Minitab Statistical Software 中基于树的机器学习算法的应用范围十分广泛,可以在贵组织面临业务问题时帮助您找出应对之道。若您仍在犹豫,我们邀请您即刻免费试用 Minitab 30 天!


准备好亲自试用 CART 了吗?

下载 Minitab Statistical Software 30 天免费试用版


本文最初出现在Minitab博客上。

替代方法_另辟蹊径:使用 CART 作为分析分类调查数据的替代方法_第10张图片

你可能感兴趣的:(替代方法)