爱彼迎数据集分析与建模

目录

背景

一、 日期对房屋租金的影响

1、 导入相关库,查看数据

2、查看缺失值,处理无关字符

3、 按月份进行分组,绘制价格图

4、按星期分组,绘制价格图

二、 房屋设施对租金影响

1、 导入相关库,查看数据

2、 查看缺失值,处理无关字符

3、 绘制价格图

4、查看房屋设备情况

5、绘制热力图

三、 随机森林与lightgbm

1、 导入相关库,查看数据

2、 数据预处理

3、 数据特征提取

4、 建立模型

结论

背景

Airbnb爱彼迎的愿景是创造一个“家在四方”的世界,致力于帮助旅行者们在世界各地旅行时找到归属感。近日,Airbnb爱彼迎宣布,其房东已经在全球超过600万套房源中开门迎客。Airbnb爱彼迎全球房源量的增长归功于其强大的全球网络以及迅猛发展的房东社区。在Airbnb爱彼迎平台上,这些房源收入的绝大部分归房东所有。这一持续的增长态势也体现在Airbnb爱彼迎全世界的各种房源类型当中。

  • 日期对房屋租金的影响
  1. 导入相关库,查看数据

#导入相应库

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

%matplotlib inline

查看数据总体

爱彼迎数据集分析与建模_第1张图片

 

查询时间范围

 

2、查看缺失值,处理无关字符

查看总共有多少缺失值

爱彼迎数据集分析与建模_第2张图片

 

删除缺失值并展示完成后的数据

爱彼迎数据集分析与建模_第3张图片

 爱彼迎数据集分析与建模_第4张图片

 

处理日期及价格数据

爱彼迎数据集分析与建模_第5张图片

 

  1. 按月份进行分组,绘制价格图爱彼迎数据集分析与建模_第6张图片

 

4、按星期分组,绘制价格图

爱彼迎数据集分析与建模_第7张图片

 

  • 房屋设施对租金影响
  1. 导入相关库,查看数据

#导入相应库

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

%matplotlib inline

查看总体数据

爱彼迎数据集分析与建模_第8张图片

 

看一下各个房型的得分情况

爱彼迎数据集分析与建模_第9张图片

 

  1. 查看缺失值,处理无关字符爱彼迎数据集分析与建模_第10张图片

 

看一下房子价格

爱彼迎数据集分析与建模_第11张图片

 爱彼迎数据集分析与建模_第12张图片

 

  1. 绘制价格图

取房屋价格在0-600$之间的部分

 

爱彼迎数据集分析与建模_第13张图片

查看不同property_type和room_type内价格情况

绘制property_type中各类型的价格箱线图

爱彼迎数据集分析与建模_第14张图片

 

绘制绘制room_type中各类型的价格箱线图

爱彼迎数据集分析与建模_第15张图片

 

绘制room_type各类型价格的累积直方图

爱彼迎数据集分析与建模_第16张图片

 

4、查看房屋设备情况

爱彼迎数据集分析与建模_第17张图片

 爱彼迎数据集分析与建模_第18张图片

 

5、绘制热力图

爱彼迎数据集分析与建模_第19张图片

 

按数量查看

爱彼迎数据集分析与建模_第20张图片

 

按价格均值查看

爱彼迎数据集分析与建模_第21张图片

 

  • 随机森林与lightgbm
  1. 导入相关库,查看数据

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

%matplotlib inline

查看总体数据

爱彼迎数据集分析与建模_第22张图片

 

  1. 数据预处理

构造计数函数,将设备列转化为数值

 

数据类型为布尔值,将其更改为数值型

 

处理缺失值,剔除无用字符

 

构造新列

爱彼迎数据集分析与建模_第23张图片

 

填充空值

爱彼迎数据集分析与建模_第24张图片

 

  1. 数据特征提取

对特征做one-hot编码

爱彼迎数据集分析与建模_第25张图片

 

拼接

 

  1. 建立模型

分别建立随机森林和lightGBM模型,并对训练结果进行对比

随机森林模型

爱彼迎数据集分析与建模_第26张图片

 

lightGBM模型

爱彼迎数据集分析与建模_第27张图片

 

爱彼迎数据集分析与建模_第28张图片

 

 

结论

lightGBM模型比随机森林模型的r^2值更大,因变量的全部变异能通过回归关系被自变量解释的比例更高,在本次建模中,lightGBM模型更优。

你可能感兴趣的:(python)