民宿特征分布图可视化(位置、房型、价格)
寻找热门民宿特点
源数据
字段分析
字段 | 含义 |
---|---|
id | 民宿id |
name | 民宿名称 |
host_id | 房东id |
host_name | 房东姓名 |
neighbourhood_group | 邻近大区 |
neighbourhood | 临近社区 |
latitude | 维度 |
longitude | 经度 |
room_type | 房型 |
price | 价格 |
minimum_nights | 最少入住天数 |
number_of_reviews | 评论数量 |
last_review | 最近评论日期 |
reviews_per_month | 月均评论数 |
calculated_host_listings_count | 房东房源数量 |
availability_365 | 年营业天数 |
结合分析目标和数据情况,确定月均评论数反应民宿热门程度,将数据集划分。
因变量:
自变量为:
数据清洗
import pandas as pd
f = pd.read_csv('D:\\Data\\archive\\AB_NYC_2019 - Copy.csv')
# 去空
f = f.dropna()
# 去0
index = f[(f['availability_365'] <= 0)].index.tolist()
f = f.drop(index=index)
# 3σ去异常值
index = f[(f['reviews_per_month'] > 7.2228)].index.tolist()
f = f.drop(index=index)
index = f[(f['reviews_per_month'] <= 0)].index.tolist()
f = f.drop(index=index)
# 去重
f = f.drop_duplicates()
print(f.shape)
f.to_csv('D:\\Data\\archive\\AB_NYC_2019_清洗.csv', index=False)
可视化
民宿位置分布图
可以看出民宿主要集中在Brooklyn和Manhattan这两个区,其中排名前五社区的如下:
热门位置分布图
房型分布
可以看出大部分房源是Entire home和Private room,Shared room最少。
热门房型分布
可以看出Private room这个房型最受欢迎,但是三种房型的差距并不大。
价格分布
由以上两图可以看出大部分的价格位于0~500这个区间,150这个价格的房源是最多的。
热门价格分布
可以看出7500这个价格最受欢迎,其次是500以下这个价格。
相关性分析
最低入住天数热度
R2=0.3873
P<0.0001(可信)
房东房源数量热度
R2=0.1849
P<0.0001(可信)
年营业天数热度
R2=0.0965
P<0.0001(可信)
总体而言,对于民宿选址,各大区热门程度并不十分显著,但皇后区和斯塔滕岛较为热门,部分社区优势显著,布鲁克林和曼哈顿竞争激烈,可考虑按热门社区选址。
房型而言,热门差距并不大,但整间出租略有优势。
价格而言,相关性并不显著。
最低入住天数而言,越低越好。
房东房源数量而言,并不十分显著,但房源越多越好。
年营业天数而言,并不十分显著。