数据分析之非参数检验与二元逻辑回归结果不一致的原因

在对两组数据进行非参数检验时,各项属性间无统计学差异,但以分类变量作为因变量使用二元逻辑回归进行分析时,其中存在属性p值小于0.05,即该变量对因变量的影响具有显著性。

导致该情况的原因

可能是由于两个检验方法所用的假设和检验策略不同所致 :
  1. 非参数检验通常是用来检验两组数据在中位数、平均数等位置指标上是否有显著差异,一般做的是单一变量检验。它具有追求健壮性和应用广泛性的优点,但缺点是通常没有考虑两组数据之间的关系和其他可能的相互作用。
  2. 而逻辑回归是用于研究两个变量之间的关系,适用于分析连续性自变量或分类自变量对一个二项响应变量的影响。这种检验方法通常是考虑多个变量之间的相互作用和综合影响,因此其p值的判断与单变量检验方法有所不同,在统计上更加严格和准确。
  3. 因此,在两个检验方法中一个指标有或者没有统计学差异,并不一定矛盾。可能是因为在非参数检验中该指标在每个组内的数据偏离程度不够大,所以只能得到无显著差异的结果。但是在逻辑回归中,可以结合其他影响因素进行修正,发现这个指标虽然偏差不够大,但仍有一定的预测能力和统计意义。
  4. 当然,这种情况也可能是由于数据样本不同、处理方法不同、检验策略不同等多种因素的综合作用导致。因此,在实际研究中为了更准确和全面地评估指标的差异,需要综合运用多种方法和技术手段来进行分析和判断。

二元逻辑回归中B值与p值(sig.)的意义

  1. 在二元逻辑回归中,模型的方程中会包含自变量对因变量的影响系数(即回归系数)和与之对应的p值。模型的回归系数表明了自变量对于因变量的影响方向(正向或负向)和大小,而p值则表示该系数的显著性水平。p值小于0.05通常被认为是较为显著的水平,意味着该系数的估计值在5%的误差范围内不太可能是由随机因素造成的,而可能对总体存在显著的影响。
  2. 更具体地说,二元逻辑回归中估计的系数代表的是对数几率比(log-odds ratio,或logit)。回归系数的正负决定了自变量对结果变量的影响方向,而其大小可以解释因变量中变化的比例。比如,如果一个二元逻辑回归模型中,一个自变量的回归系数为0.5,那么对应的log-odds ratio是e^0.5=1.65,说明每增加一个单位该自变量,因变量发生的概率将会增加65%。其中,p值小于0.05可以认为该系数是显著不为0的,也就是说,与预测变量相关的解释变量值对特定的结果变量的预测有一个明显的影响,或在使用该模型预测时不应忽略该变量。
  3. 因此,二元逻辑回归中方程中的变量结果中的p值的大小代表着该变量对因变量的影响是否具备显著性,以及在该模型中该变量对预测结果的贡献程度的大小,可以帮助我们评估模型的拟合效果和预测能力。值得注意的是,p值的大小只代表了统计上的显著程度,并不一定能够反映实际意义的大小,需要结合实际应用场景和领域知识来综合判断。

你可能感兴趣的:(逻辑回归,数据分析,统计学)