统计 > 回归 > 回归 > 拟合回归模型 > 模型
可以向模型添加交互作用项和多项式项。默认情况下,模型仅包含在主对话框中输入的预测变量的主效应。添加项的方法有很多。假设预测变量列表具有 3 个连续变量 X、Y、Z 和 2 个类别变量 A、B。
使用选定预测变量和模型项添加项
要向模型添加项,请选择至少一个预测变量或项。要选择多个项或取消选择一个项,请在单击预测变量或项的同时,按 Ctrl 键。在添加交互作用项和更高阶项时,预测变量的多重共线性会增加。
按变量顺序添加交互项
通过指定的顺序添加所有交互作用项。假设按阶数 3 选择预测变量 X、Y、A 和添加交互作用项。单击添加后,Minitab 会添加 X*Y、X*A、Y*A、X*Y*A。
上述设置进行模型回归之后,回归方程参考如下图:
按阶数添加全部交互项
用于建模弯曲。此选项通过指定的顺序添加幂和交互作用项。幂用于连续预测变量。假设通过顺序 3 选择了 X、Y、A 和多个项。单击添加后,Minitab 会添加 X 和 Y 的幂项:X*X、Y*Y、X*X*X、Y*Y*Y。Minitab 还会添加预测变量和幂的交互作用项:X*Y、X*A、Y*A、X*X*Y、X*Y*Y、X*X*A、X*Y*A、Y*Y*A。
模型中的交叉预测变量和项
此选项可通过以下方式使用:
注意:可能需要取消选择预测变量或项,这样就会只选择希望交叉的项。要取消选择项,请在单击预测变量或项的同时,按 Ctrl 键。
模型中的项
当向模型添加项时,这些项会列在对话框的空白处。可以选择单独的项或多组项进行删除或重新排序等操作。
包含模型中的常数项
选择以便子回归模型中包含常量项。在大多数情况下,应当在模型中包含常量。
删除常量可能是因为在预测变量值等于 0 时假设响应变量为 0。例如,如果存在可以根据食物的脂肪、蛋白质及碳水化合物含量预测卡路里的模型。当脂肪、蛋白质和碳水化合物为 0 时,卡路里含量也将为 0(或非常接近于 0)。
比较不包括常量的模型时,请使用 S 而不是 R2 统计量来评估模型的拟合值。
统计 > 回归 > 回归 > 拟合回归模型 > 模型
用于允许 Minitab 向模型添加显示的项以便创建分层模型。在分层模型中,组成高阶项的所有低阶项也将在模型中显示。例如,包含交互作用项 A*B*C 的模型要作为分层结构,必须同时包括 A、B、C、A*B、A*C 和 B*C 项。
模型可能是非分层的。通常,如果低阶项不显著,可以将其删除。包含过多项的模型可能相对来说不太精确,会降低预测新观测值的能力。
请考虑以下技巧:
指定 Minitab 是否向模型添加项。
此后使用此选项
选择此选项可使的选项成为默认选项。后续将跳过此对话框。如果要查看此选项,可以在文件 > 选项 > 线性模型 > 模型层次结构中更改设置。
统计 > 回归 > 回归 > 拟合回归模型 > 选项
在权重中,输入用于执行加权回归的权重数列。加权回归是一种可以在违反残差中常量方差的最小二乘假设(也称为异方差性)时使用的方法。如果权重正确,此过程会使加权平方残差和最小化,从而产生具有常量方差的残差(也称为同方差性)。
权重必须大于或等于零。权重列的行数必须与响应列的行数相同。
输入系数和拟合值的置信区间的置信水平。
通常,置信水平为 95% 即可。95% 置信水平表明,如果从总体中随机抽取 100 个样本,则大约 95 个样本的置信区间中将包含响应均值。对于给定的数据集,置信水平越低,生成的区间越窄;置信水平越高,生成的区间越宽。
可以选择一个双侧区间或一个单侧边界。对于同一置信水平,边界与区间相比,更接近于点估计值。上限不提供可能的更低值。下限不提供可能的更高值。
例如,水中溶解性固体的预测平均浓度为 13.2 mg/L。多个未来观测值的均值的 95% 置信区间为 12.8 mg/L 到 13.6 mg/L。多个未来观测值的均值的 95% 上限为 13.5 mg/L,该值更为精确,因为边界更接近于预测均值。
双侧:使用双面置信区间来同时估计平均响应的可能的下限值和上限值。
下限:使用置信下限估计均值响应可能的下限值。
上限:使用置信上限来估计平均响应的可能的上限值。
选择用于计算 F 值和 p 值的平方和 (SS)。调整的 SS 最常用。使用连续平方和,根据项输入模型的顺序来确定项的显著性。
检验的平方和
当残差未呈正态分布或不具有常量方差时,对响应数据执行 Box-Cox 变换。当变换数据时,Minitab 会变换响应数据并将其用于分析。在大多数情况下,除非数据的偏斜非常大,否则不必纠正非正态性。使用 Box-Cox 变换时,所有响应数据必须为正 (>0)。要确定 Box-Cox 变换对于数据是否适宜,请检查残差图和其他诊断度量。
Box-Cox 变换
选择 Minitab 用来变换数据的 lambda 值:
统计 > 回归 > 回归 > 拟合回归模型 > 逐步
逐步删除项并将其添加到模型中,以便识别有用的项子集。如果选择逐步过程,则在模型对话框中指定的项是最终模型的候选项。
用于拟合模型的方法如下几种选择:
如果为过程指定要求每个步骤具有分层模型且一次仅允许输入一个项的设置,则该过程将继续,直到它拟合全模型或拟合误差自由度为 1 的模型。Minitab 显示具有所选信息标准(AICc 或 BIC)最小值的模型的分析结果。
通过交叉验证,该过程在每个折叠上重复前进法。该过程评估每个步骤中的所有折叠,并标识具有最佳 K 折叠逐步 R2 值的步骤。该过程的最后一部分是对完整数据集执行前进法,在折叠上选择的最佳步骤处停止。
对于这两种验证类型,该过程在遇到与前进法标准过程相同的停止情况时停止。
注意:最终模型中包含的项取决于模型的层次结构限制。
显示过程将评估的项集。列表中项旁边的指示符(E 或 I表示过程处理项的方式。
入选用 Alpha
输入 Minitab 所使用的 alpha 值来确定是否可以向模型中输入项。选择方法中的逐步或向前选择法后,可以设置此值。
删除用 Alpha
输入 Minitab 所使用的 alpha 值来确定是否可以从模型中删除项。选择方法中的逐步或向后消元法后,可以设置此值。
AICc 和 BIC 评估模型的似然,然后将用来添加项的惩罚应用于模型。惩罚会降低趋势,以使模型过度拟合样本数据。趋势降低可能会生成性能通常更佳的模型。
一般准则是,当参数个数相对于样本数量较小时,BIC 对于添加每个参数所施加的惩罚比 AICc 大。在这些情况下,最小化 BIC 的模型往往比最小化 AICc 的模型小。
在一些常见情况(如筛选设计)下,参数个数相对于样本数量通常较大。在这些情况下,最小化 AICc 的模型往往比最小化 BIC 的模型小。例如,对于包含 13 个游程的明确筛选设计,在一组包含 6 个或多个参数的模型中,最小化 AICc 的模型往往比最小化 BIC 的模型小。
注意:验证设置也位于 验证方式 子对话框中。如果更改设置,Minitab 会自动更新这两个位置的设置。
选择 前进法并验证 时,选择用于检验模型的验证方法。通常,对于较小的样本,K 折叠交叉验证方法比较合适。对于较大的样本,可以将数据分为训练数据集和检验数据集。
完成以下步骤以使用 K 折叠交叉验证。
完成以下步骤,将数据分为训练数据集和检验数据集。
可以确定 Minitab 如何在使用逐步法时强制执行模型层次结构。如果在模型对话框中指定非分层模型,将禁用层次结构按钮。
在分层模型中,组成高阶项的所有低阶项也将显示在模型中。例如,包含交互作用项 A*B*C 的模型为分层结构,但前提是该模型包括 A、B、C、A*B、A*C 和 B*C 项。
模型可能是非分层结构。通常情况下,如果低阶项不显著,可以将其删除,除非专业领域知识建议将其包含在模型中。包含过多项的模型的精确度相对较差,可能会降低预测新观测值的能力。
考虑以下建议:
层次结构模型
选择逐步过程是否必须生成一个分层模型。
以下项需使用层次结构
如果需要一个分层模型,请选择必须有分层的项类型。
每步可输入多少项
如果每一个步骤都需要分层,请选择 Minitab 可以在每一步添加以保留分层的项数。
指定要显示的关于逐步过程的信息。
选择前进法并验证时,将为前进法的每个步骤显示训练和验证偏差 R2 值的图。通常,该图将用来确定简化模型是否具有相似的验证值。
统计 > 回归 > 回归 > 拟合回归模型 > 验证方式
选择用于检验模型的验证方法。通常,对于较小的样本,K 折叠交叉验证方法比较合适。对于较大的样本,可以选择使用一部分案例来进行训练和检验。
完成以下步骤以使用 K 折叠交叉验证。
完成以下步骤,将数据分为训练数据集和检验数据集。
如果选择无,则不会执行其他验证。
统计 > 回归 > 回归 > 拟合回归模型 > 图形
用于直观地显示系数和方差分析表中的结果。对于模型中的项,此图形可用于比较效应的相对量值并评估其统计显著性。
统计显著性阈值取决于显著性水平(用 α 或 alpha 表示)。除非使用逐步选择法,否则显著性水平为“1 - 用于分析的置信水平”。如果使用向后选择或逐步选择法,则显著性水平为:Minitab 从模型中删除一个称为删除用 Alpha的项。如果使用向前选择,则显著性水平为:Minitab 向模型添加一个称为入选用 Alpha的项。
残差图,指定要在残差图上显示的残差类型。
残差图
使用残差图可检查模型是否符合分析的假设。
输入一个或多个要绘制的变量和残差。可以绘制以下类型的变量:
当使用前进法并验证 作为逐步过程时,Minitab 会为训练数据集提供 R2 统计量图,并为模型选择过程中的每个步骤提供检验 R2 统计量或 k 折叠逐步 R2 统计量。检验 R2 统计量或 k 折叠逐步 R2 统计量的显示取决于是使用检验数据集还是 k 折叠交叉验证。
解释:使用此图比较每个步骤中不同 R2 统计量的值。通常,当 R2 统计量均较大时,模型执行情况良好。Minitab 显示来自步骤的模型回归统计量,该步骤最大化检验 R2 统计量或 k 折叠逐步 R2 统计量。此图显示任何更简单的模型是否拟合度足够,可成为理想候选。
如果模型过度拟合,检验 R2 统计量或 k 折叠逐步 R2 统计量开始随着项进入模型而减少。当所有数据的相应训练 R2 统计量或 R2 统计量继续增加时,就会发生此减少情况。当为在总体中不重要的效应添加项时,将出现过度拟合模型。过度拟合模型对于预测总体可能没有帮助。如果模型过度拟合,则可以考虑早期步骤的模型。
下图以检验 R2 为例。最初,R2 统计量都接近 70%。对于前几个步骤,R2 统计量都趋向于随着项输入模型而增加。在步骤 6 中,检验 R2 统计量约为 88%。检验 R2 统计量的最大值位于步骤 14 中,其值接近 90%。可以考虑拟合的改进是否证明向模型中添加更多项会增加复杂度。
步骤 14 之后,当 R2 继续增加时,检验 R2 不会增加。步骤 14 之后,检验 R2 的减少表明模型过度拟合。
统计 > 回归 > 回归 > 拟合回归模型 > 结果
结果显示
方法:显示一个概括非默认设置的表。
方差分析:显示包含来源源平方和 p 值的方差分析表。
模型汇总:显示可估计模型拟合度的统计量,包含 R2。扩展表包括预测的误差平方和 (PRESS)、更正的 Akaike 信息标准 (AICc) 和 Bayesian 信息标准 (BIC)。
系数:显示系数、系数的标准误、t 值、p 值和 VIF。如果模型包含类别预测变量,会启用下拉列表,这样就可以控制表中类别预测变量的系数数量。
回归方程:显示回归方程。如果模型包含类别预测变量,会启用下拉列表,这样就可以控制显示的方程数量。
拟合和诊断:
Durbin-Watson 统计量:显示 Durbin-Watson 统计量以检验自相关。