(17)自动线性建模

 自动线性建模特点:

1)连续变量和分类变量都可以作为自变量进行线性自动建模。

2)能自动寻找对因变量重要性最大的自变量,舍弃重要性很小或不重要的自变量,我们不必去关心自变量,自动化的过程会根据数据的特征选择最佳的自变量。

3、会自动进行离群值和缺失值的处理。

如果已经在数据文件中对数据变量的“角色”属性设置为【输入】【目标】,便可以使用“使用预定义角色”。

如果没有设置,我们可以自定义【使用定制字段分配】,手动设置好“输入”和“目标”,我们可以吧明显不是自变量的变量移出“输入”,比如“日期”。

【构建选项】:主要用来设置建立模型的相关参数。

【构建选项】--【目标】

目标--创建标准模型:创建一个可以使用自变量预测目标的传统模型。

标准模型的评分速度更快,易于理解,最常用。

目标--增强模型准确度:可生成一个模型序列来获得更多精确地预测值。

需要较长的时间来构建和预测评分。

目标--增强模型稳定性:生成多个模型序列来获得更多可靠的预测值。

需要更长的时间来构建和预测评分。

目标--为大型数据集创建模型。。。。

【构建选项】--【基本】

主要用来设置是否自动准备数据,也就是是否自动进行离群值和缺失值等的处理。一般默认勾选“自动准备数据”

【构建选项】--【模型选择】

1)包括所有预测变量:不做自变量筛选,将所有自变量都参与模型的建立。

2)向前步进:将自变量逐个引入模型中,并做显著性验证,之道再也没有不显著的自变量被剔除为止。若选择【向前步进】的方法,需要设置【条件】,默认为“信息条件Aicc”即可。

3)最佳子集:自动筛选最佳变量,因为选择过重要考虑所有变量组合方式,因此时间长,变量超过10个时不建议使用。

PS:只有方法是“向前步进”时候,才需要设置条件,默认Aicc即可。

选择别的方法时,没有条件可选

信息准则Aicc:数值越小便是模型越好,需要对比不同模型的信息准则,选择最优的即可。

主要用于可能会建立多组模型时,判断模型的效果。

【模型选项】:主要用来设置模型的额保存

勾选“将预测值保存到数据集”后,可新生成一个预测变量,名字可以自定义。

此处保存模型,是为了后面做预测时进行使用

模型结果的解读:

这张图用进度条来展示模型拟合的效果,类似于简单线性回归分析中的R方,类似于多种线性回归分析中的调整后的R方。

本例模型的准确度达到了94.8%,效果很好。

一般模型准确度大于70%就算拟合的不错,小于60%时就需要修正模型,可以通过增删自变量等方式进行修正。

这个表没什么卵用,了解一下就行

这个表说明了自变量对因变量的重要性,所有自变量的重要性之和为1,其中自变量的重要性对模型的准确度无关。

本例中“广告费用”的重要度为0.97,“广告推广渠道”的重要性为0.03.

如果效果好,数据点应该是落在一条45度线上分布。

本例中预测值和是基因变量值较为接近,预测效果较好。

这张是残差图:

残差图是指实际值和预测值自己建的差,用于回归诊断,也就是诊断当前模型是否满足回归模型的假设:回归模型理想条件下的残差图应该服从正态分布。

本例中残差直方图和正态曲线是一致的,可以得出残差图是接近正态分布的结论,满足回归模型的假设。

这是残差图的P-P图表达方式:越靠近直线,表示残差的分布越接近正太分布。

库克距离越大的个案,对模型的影响越大,此类个案会导致模型精度的下降

线条上下顺序是按照自变量的重要性大小降序排列。

线条的粗细表示显著性水平,显著性水平越高的线条越粗。

这是另一种表达方式,我们可以看出自变量的重要性和显著性的具体数值。

这张【回归效果图】最重要,我们可以根据他得出结果。

上下位置代表自变量重要性;线条粗细代表显著性;颜色代表正负

已表的方式展现,可以看到具体数值:

我们发现两个变量都具有极其显著的统计学意义。

购买用户数=1768.096+94.439*广告费用--15.681*广告投放渠道

因变量与各个自变量的均直线图,不显著的自变量不会生成对应的均直线图。

我们采用的是【向前步进】方法,最后出来了两个模型,我们选择了模型2,即信息条件AICC值更小的模型

我们看一下如何进行预测:

【实用程序】--【评分向导】

选择我们已经保存的模型

可以自定义预测值的名称

结果如下:生成了一个新的变量“预测值”

你可能感兴趣的:((17)自动线性建模)