泛统计理论初探——浅谈回归问题

数据挖掘-回归问题探讨

浅谈连续回归和离散回归
众所周知,回归问题可以根据因变量的离散或连续分为连续回归(线性回归、非线性回归)与分类回归。其中,为了解决分类回归问题,在经典的回归假设基础上,引入了对数几率的概念,将数值转化为概率,并通过设定阈值最终确定因变量的类型。
传统的回归方法是研究因变量是连续的问题,比如研究影响身高的因素,身高是一个相对连续的量,因此该类问题是通过线性回归可以进行研究的。首先回归方法是一种源于解方程的方法,我们知道,小学的时候学习方程组求解的时候,当变量和方程数量相同时(方程之间不相关),得到的解是唯一的。而当变量的数量大于方程数量时,会算不出来解。在回归问题上,如果变量的数量大于样本的数量时,是无法得到关于参数的估计就是这个道理。
线性回归的本质其实是想通过一组自变量和因变量的样本数据来进行计算并估计得到一组参数,这组参数可以被用来预测新数据的因变量值。初学者可以将数据放入SPSS进行求解,得到一组参数和各个变量的显著性。在后续的学习中,还可以使用R或者Python,当然关键是需要理解数据的分布。由于传统的回归在求解参数的时候会使用最小二乘法,这种方法对于异方差的数据会无效,因此可以采用加权最小二乘法进行求解。其实线性回归可以解决大部分的因变量连续的问题,而在一些情况下,由于数据自身的原因,还可以使用非线性回归,但是非线性回归的预测效果会受样本数据的影响,健壮性可能不强,可能出现过拟合的情况,需要引起注意。
而在实际应用中,更多学科的问题研究的因变量是离散的,比如研究鸢尾花的类别问题、预测是否邮件为垃圾邮件的问题、预测明天是否会下雨。针对这些问题,可以使用logit模型或是probit模型。
Logit模型又称为logistic模型,这种模型是在分类回归中常用的算法,该模型由于可解释性较强,并且可以通过观察变量显著性来探究自变量对因变量的影响,因此该方法在统计领域被广泛使用。在现实生活中,大部分的问题由于因变量观测到都是离散的,可分类的,因此熟悉使用logistic模型和了解它的原理显得较为重要。
对于因变量是离散的情况,我们进行思考,由于在线性回归中,等号右边是连续的数值,那么如何将离散的变量和连续的数值连起来是一个较为重要的问题。而概率可以帮我们解决这个问题,我们知道概率是一种事件发生的可能性,那么我们可以设立概率的阈值,将离散的因变量映射到概率上。举个例子,假设以0.5为阈值,当概率大于0.5的时候判断明天下雨,当概率小于等于0.5的时候判断明天天晴。上述的例子是第一步转化,即将是否下雨通过概率表示。而如何将概率值转化为连续的数值,我们可以思考:概率的值是介于0和1之间的,那么可以引入几率的概念,即一个事件发生的概率与该事件不发生的概率的比值,这个比率越大,发生的可能性就越大,而且这个比率的取值范围是大于0的实数值。同时我们给这个比率取对数,那么这个比率对数值的取值范围就可以为整个实数值,即包含正实数和负实数,即和等号右边的数值取值范围相同。
总的来说,数据类型有四种,定比数据、定距数据、定序数据、定类数据。前两种可以通过基于连续变量的回归方法,如线性回归。后两种方法可以通过基于离散变量的回归方法,如logistic模型等。因此在使用回归模型的时候,要观察数据,查看用什么方法较为合理。

你可能感兴趣的:(数据挖掘,数据挖掘,统计学习,机器学习,回归)