目录
背景
一、 日期对房屋租金的影响
1、 导入相关库,查看数据
2、查看缺失值,处理无关字符
3、 按月份进行分组,绘制价格图
4、按星期分组,绘制价格图
二、 房屋设施对租金影响
1、 导入相关库,查看数据
2、 查看缺失值,处理无关字符
3、 绘制价格图
4、查看房屋设备情况
5、绘制热力图
三、 随机森林与lightgbm
1、 导入相关库,查看数据
2、 数据预处理
3、 数据特征提取
4、 建立模型
结论
Airbnb爱彼迎的愿景是创造一个“家在四方”的世界,致力于帮助旅行者们在世界各地旅行时找到归属感。近日,Airbnb爱彼迎宣布,其房东已经在全球超过600万套房源中开门迎客。Airbnb爱彼迎全球房源量的增长归功于其强大的全球网络以及迅猛发展的房东社区。在Airbnb爱彼迎平台上,这些房源收入的绝大部分归房东所有。这一持续的增长态势也体现在Airbnb爱彼迎全世界的各种房源类型当中。
#导入相应库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
查看数据总体
查询时间范围
查看总共有多少缺失值
删除缺失值并展示完成后的数据
处理日期及价格数据
#导入相应库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
查看总体数据
看一下各个房型的得分情况
看一下房子价格
取房屋价格在0-600$之间的部分
查看不同property_type和room_type内价格情况
绘制property_type中各类型的价格箱线图
绘制绘制room_type中各类型的价格箱线图
绘制room_type各类型价格的累积直方图
按数量查看
按价格均值查看
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
查看总体数据
构造计数函数,将设备列转化为数值
数据类型为布尔值,将其更改为数值型、
处理缺失值,剔除无用字符
构造新列
填充空值
对特征做one-hot编码
拼接
分别建立随机森林和lightGBM模型,并对训练结果进行对比
随机森林模型
lightGBM模型
lightGBM模型比随机森林模型的r^2值更大,因变量的全部变异能通过回归关系被自变量解释的比例更高,在本次建模中,lightGBM模型更优。