一些用于回归模型的评价指标

Mean dependent var

因变量的样本均值: 目的是为了度量因变量的集中度

E(y)=(y1+y2+,...,+yn)/n

S.D dependent var

因变量的样本标准差: 目的是为了度量因变量的离散度

这里不好编辑公式,省略...

 

sum squared redis

残差平方和:很多最优化的方法都怡残差平方最小和作为目标函数。越小说明效果越好。

SSR=(e1^2+e2^2+...)

残差平方和会随着回归方程右边变量的增加而减少。

 

S.E regression

回归标准差:显然是越小越好


一些用于回归模型的评价指标_第1张图片

其中, T表示样本的个数,k表示回归方程右式的变量的个数,包括常数项。

log likelihood

和残差一样,可以作为最大似然估计的目标函数,越大越好。

F statistic

检验回归方程的显著性:自变量和因变量的线性关系是否密切。给定显著水平a, 根据自由度(k,n-k-1)查F分布表,

若F>Fa,则显著,否则不显著。以上说的密切关系指的是所有自变量的联合。也就是说至少有一个变量有关,则显著。

F统计量实际上就是检验当删除所有因变量的时候,残差平方和会增加。



 其中, n表示样本的个数,k表示回归方程右式的变量的个数,包括常数项。

Prob(F-Statistic)

F检验对应的概率,越小越好。

T statistic

判断回归模型右边每个属性是否与因变量关系密切。

同样T>Ta则拒绝原假设。否则该变量可以剔除。

Prob(T-Statistic)

T检验对应的概率,越小越好。

R-squared

R方的取值范围位于[0,1]之间:目的是描述预测y的程度,显然是越大越好,但是也不能因为大就完全认为回归效果好,

还要结合其他的参数,因为R方的值可能因为其他非回归预测效果好的原因导致值变大。
一些用于回归模型的评价指标_第2张图片

其中,分子是残差平方和,分母约等于样本方差。

Adjusted R-squared

目的是为了克服上面所说的因为其他的原因(变量个数增大)导致R方的递增。


一些用于回归模型的评价指标_第3张图片

其中,k是回归方程右边变量的个数 ,包括常数项。所以调整后的R方比R方更可靠。

Durbin-waston stat

一些用于回归模型的评价指标_第4张图片

DW统计量,用于检测误差是否序列相关,如果相关,可以通过预测误差,改进回归模型的效果。

值一般在[0, 4]之间,越接近2,说明不含自相关。

 

AIC

AIC准则用于预测模型的选择,越小越好


一些用于回归模型的评价指标_第5张图片

其中, T表示样本的个数,k表示回归方程右式的变量的个数,包括常数项。

SIC

和AIC一样,用于预测模型的选择,同样是越小越好


一些用于回归模型的评价指标_第6张图片

其中, T表示样本的个数,k表示回归方程右式的变量的个数,包括常数项。

 

 

 

 

reference

http://wiki.mbalib.com/wiki/%E5%A4%9A%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E5%88%86%E6%9E%90%E9%A2%84%E6%B5%8B%E6%B3%95

 

http://books.google.com.hk/books?id=ItjdbUQ3hCYC&pg=PA20&lpg=PA20&dq=%E5%9B%9E%E5%BD%92%E6%A0%87%E5%87%86%E5%B7%AE&source=bl&ots=g-N_02ZW9w&sig=WxyBj1H5ZuCtK5Cbt38-8cFk9K4&hl=zh-CN&ei=0MjdTvL5Ks_wrQfx4uCFCQ&sa=X&oi=book_result&ct=result&resnum=8&ved=0CF0Q6AEwBzgU#v=onepage&q=%E5%9B%9E%E5%BD%92%E6%A0%87%E5%87%86%E5%B7%AE&f=false

 

 

 

你可能感兴趣的:(Mahout)