(一)预测模型之统计预测

我们在做多元回归进行预测时,其所给出的数据往往是多变量的,而且自变量之间不能够存在多重共线的问题,另外样本数据的残差需要服从正态分布。

数据预处理

1、描述性统计

变量1

变量2

变量3

样本1

样本2

样本3

假设用i=1,2,...,n 表示不同的样本点, 表示j=1,2...,m不同的变量,第 i个样本的第j 个变量取值为 aij,有:

2、数据无量纲处理

(一)预测模型之统计预测_第1张图片

 (一)预测模型之统计预测_第2张图片

模型的建立

1、多元线性回归分析模型

(一)预测模型之统计预测_第3张图片

(一)预测模型之统计预测_第4张图片

2、多项式回归分析

回归模型作为一种古老的预测模型,随着时间的发展,其衍生出多种模型预测,对于那些波动起伏的数据需要引入非线性回归模型,而多项式回归模型最为合适不过。在多项式的回归中,加入特征的高次方,相当于增加模型的自由度,以达到获取数据的非线性变化[3][4]

多项式主要通过历史数据的拟合出多项式回归的方程,并用多项式回归的方程对新的数据进行预测,其回归方程如下:

(一)预测模型之统计预测_第5张图片

 (一)预测模型之统计预测_第6张图片

3、逐步多元回归

(一)预测模型之统计预测_第7张图片

模型的求解

Matlab、python

模型的显著性检验

1、拟合优度的检验

构建的回归方程,若误差项的影响占越低,则自变量的影响占比越高,拟合方程预测效果越好。由回归方程描绘的曲线与各变量的接近程度成为回归方程对数据集的拟合优度,而评判曲线拟合优度需要一些指标,其中一个就是判定系数

(一)预测模型之统计预测_第8张图片

其中,SSE为误差平方和,SSR为回归离差平方和,SST为总的离差平方和。

多元线性回归方程的拟合优度,即有:

(一)预测模型之统计预测_第9张图片

2、F检验(对整体回归方程的显著性检验)

实质:通常用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。

F检验假设:

(一)预测模型之统计预测_第10张图片  

3、T检验(单个变量系数的显著性检验)

实质:主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。

T检验有多种类型,可以分为只有一组样本的单体检验和有两组样本的双体检验。单体检验用于检验样本的分布期望是否等于某个值。双体检验用于检验两组样本的分布期望是否相等,又分为配对双体检验和非配对双体检验。配对双体检验的两组样本数据是一一对应的,而非配对双体检验的两组数据则是独立的。以下只介绍单样本T检验,即有:

(一)预测模型之统计预测_第11张图片

(一)预测模型之统计预测_第12张图片

4过拟合问题

对于在实际问题中的多项式回归拟合而言,我们并不知道高阶多项式的项,所以需要在损失函数中增加一个正则化项[3],将损失函数中的所有参数值达到最小化,收缩每一个参数,可以列出改进后的损失函数:

(一)预测模型之统计预测_第13张图片

对于越是复杂的模型,越是会尝试拟合所有的训练数据,其中包括一些异常样本,这就容易造成在较小的区间内预测值产生较大的波动,这种波动幅度较大走势反映在某些小的区间里导数值很大,而只有较大的参数值才能产生较大的导数。因此,对于复杂的模型,其参数值会比较大。

我们在已经构造完成后的损失函数基础上,通过增加正则化项来不断迭代优化参数,防止出现过拟合的问题。以上通过梯度下降法,不断迭代将正则化参数简单化使得误差最小化,从而达到更好拟合训练数据目的。

机器学习之正则化(Regularization) - Acjx - 博客园

机器学习中的范数规则化之(一)L0、L1与L2范数_zouxy09的专栏-CSDN博客_l0范数

模型的预测

将待测试的数据代入上述建立的模型中,得到的数据集即为预测值。

你可能感兴趣的:(数学,矩阵,机器学习,线性代数,概率论)