Airbnb NYC2019分析实战

分析目标

民宿特征分布图可视化(位置、房型、价格)
寻找热门民宿特点

源数据

数据预处理

字段分析

字段 含义
id 民宿id
name 民宿名称
host_id 房东id
host_name 房东姓名
neighbourhood_group 邻近大区
neighbourhood 临近社区
latitude 维度
longitude 经度
room_type 房型
price 价格
minimum_nights 最少入住天数
number_of_reviews 评论数量
last_review 最近评论日期
reviews_per_month 月均评论数
calculated_host_listings_count 房东房源数量
availability_365 年营业天数

结合分析目标和数据情况,确定月均评论数反应民宿热门程度,将数据集划分。
因变量:

  • reviews_per_month

自变量为:

  • neighbourhood_group
  • neighbourhood
  • room_type
  • price
  • minimum_nights
  • calculated_host_listings_count
  • availability_365

数据清洗

import pandas as pd

f = pd.read_csv('D:\\Data\\archive\\AB_NYC_2019 - Copy.csv')
# 去空
f = f.dropna()
# 去0
index = f[(f['availability_365'] <= 0)].index.tolist()
f = f.drop(index=index)
# 3σ去异常值
index = f[(f['reviews_per_month'] > 7.2228)].index.tolist()
f = f.drop(index=index)
index = f[(f['reviews_per_month'] <= 0)].index.tolist()
f = f.drop(index=index)
# 去重
f = f.drop_duplicates()

print(f.shape)
f.to_csv('D:\\Data\\archive\\AB_NYC_2019_清洗.csv', index=False)

数据分析

可视化

民宿位置分布图
Airbnb NYC2019分析实战_第1张图片
可以看出民宿主要集中在Brooklyn和Manhattan这两个区,其中排名前五社区的如下:

  1. Brooklyn Bedford-Stuyvesant 2212
  2. Brooklyn Williamsburg 1786
  3. Manhattan Harlem 1507
  4. Brooklyn Bushwick 1216
  5. Manhattan Hell’s Kitchen 1191

热门位置分布图

Airbnb NYC2019分析实战_第2张图片
平均受欢迎地区前五:

  1. Staten Island New Dorp Beach 5.5
  2. Queens East Elmhurst 5.059539473684213
  3. Queens Jamaica Hills 4.508
  4. Queens Springfield Gardens 4.4278378378378385
  5. Staten Island Rosebank 4.281666666666666

房型分布
Airbnb NYC2019分析实战_第3张图片
可以看出大部分房源是Entire home和Private room,Shared room最少。
热门房型分布
Airbnb NYC2019分析实战_第4张图片
可以看出Private room这个房型最受欢迎,但是三种房型的差距并不大。
价格分布
Airbnb NYC2019分析实战_第5张图片
Airbnb NYC2019分析实战_第6张图片
由以上两图可以看出大部分的价格位于0~500这个区间,150这个价格的房源是最多的。
热门价格分布
Airbnb NYC2019分析实战_第7张图片
可以看出7500这个价格最受欢迎,其次是500以下这个价格。

相关性分析

价格热度
Airbnb NYC2019分析实战_第8张图片
R2=0.0096
P=0.0087(可信)

最低入住天数热度
Airbnb NYC2019分析实战_第9张图片
R2=0.3873
P<0.0001(可信)

房东房源数量热度
Airbnb NYC2019分析实战_第10张图片
R2=0.1849
P<0.0001(可信)

年营业天数热度
Airbnb NYC2019分析实战_第11张图片
R2=0.0965
P<0.0001(可信)

结果分析

总体而言,对于民宿选址,各大区热门程度并不十分显著,但皇后区和斯塔滕岛较为热门,部分社区优势显著,布鲁克林和曼哈顿竞争激烈,可考虑按热门社区选址。
房型而言,热门差距并不大,但整间出租略有优势。
价格而言,相关性并不显著。
最低入住天数而言,越低越好。
房东房源数量而言,并不十分显著,但房源越多越好。
年营业天数而言,并不十分显著。

你可能感兴趣的:(数据分析,数据挖掘,数据分析,python)