Kaggle之旅—房价评估(2)

我们接着继续聊下房价评估这个项目,今天主要来讲讲数据分析中的回归分析。

有趣点:本文会讨论一个很有趣的观点,包括Kaggle中的多个kernel中也都想当然的引用且使用了的观点。那他真的正确吗?有没有其他可能性呢?

项目:House Prices: Advanced Regression Techniques

数据:美国爱荷华州中部爱慕斯的历史房屋相关数据

深入理解数据

这个项目提供的数据一共有81个列,即81个变量。这么多个变量,如何知道哪两个变量是强关联关系,哪两个是弱关联关系呢?

  • 这里涉及到变量之间的关系

1.完全确定关系 → 函数关系

2.不存在完全确定关系 → 相关关系 → 平行关系[相关分析] + 依存关系[回归分析]

若两个变量是线性相关,则定会有线性相关系数,也会有相关系数的误差。我们也可以从变量之间线性相关这个角度尝试理解。

  • 开头所提出的变量之间关系问题 → 跟SalaPrice线性相关的变量都有哪些,相关系数大的又有哪些?

相关矩阵可以告诉我们:

image

结果得出由38个变量之间的相关系数组成的相关矩阵。

38个变量怎么来的?

相关系数也只能由数值之间进行计算,所以结果中的38个变量 = 3个float类型变量 + 35个int类型变量组成。

将这个相关矩阵画出来。

image

挑选与SalaPrice相关性排名前10的变量们。

image

将这10个变量的相关矩阵画出来。

image

数据分析

我们首先来了解下回归分析。

  • 回归分析

回归分析:研究因变量(目标)和自变量(预测器)之间的关系。

  • 回归分析的好处:

1.可表明自变量和因变量之间的显著关系

2.可表明多个自变量对一个因变量的影响强度

  • 回归模型都有哪些?

1.线性回归

2.逻辑回归

3.多项式回归

4.逐步回归

5.岭回归

6.套索回归

7.ElasticNet回归

  • 回归分析有5个假设:

1.线性关系

2.多元正态分布

3.没有或少量的多重共线性

4.无自相关

5.同方差性

  • 回归分析中需要注意点:

1.对异常值很敏感,需要排除异常值

2.要求所有变量为多元正态,若不是时,需要进行非线性变换

3.独立变量之间不过高相关

使用相关矩阵来计算

计算容差

方差膨胀因子

4.数据应少或没有自相关

残差彼此不相关时发生自相关

5.同方差性

问题点

  • 当前这个数据集中,SalaPrice并非是所期望的正态分布,那需要对SalaPrice进行正态分布化处理吗?

Kaggle中的多个kernel在进行回归分析时,都会校验因变量是否为正态分布,就因为是回归分析中5个假设中的其中之一。

image

正态分布化处理

image
  • 上述这个步骤是必需的吗?

可以确定的是回归分析中的正态分布,未必是必需的。

我们下篇文章接着聊回归分析的问题。

你可能感兴趣的:(Kaggle之旅—房价评估(2))