爱彼迎数据采集与预处理-图片色彩分析

1 数据收集

    爱彼迎的数据主要通过数据集和爬虫采集。

    方法一:登录Inside Airbnb: Get the Data网站,下载需要的城市数据。

爱彼迎数据采集与预处理-图片色彩分析_第1张图片

    注:这个网址更新速度与周期不定,且更新后,上次的数据就找不到了,因此需要每月不定时查看。最近这段时间,爱彼迎即将退出中国市场,加之疫情的影响,很多城市某些月份的信息缺失。

    

    方法二:登录AirDNA | Short-Term Rental Data Analytics | Vrbo & Airbnb Data网站,这个网站登进去时,网速超级慢,并且数据都是需要购买才能获取的。购买时需要通过邮箱和国外的销售人员预约时间交流(有半个地球的时差)。

爱彼迎数据采集与预处理-图片色彩分析_第2张图片 注:这张图是样本表格,AirDNA数据集相比于InsideAirbnb数据集,可能更准确一点,且包含了ADR值和OCC值,可以计算绩效值,地区房东数量等。

    爱彼迎数据采集与预处理-图片色彩分析_第3张图片

注:这张图是打算购买数据集时,和AirDNA国外销售人员的交流,考虑到自身的财务状况,我们还是放弃了。

    方法三:使用Python语言,网络爬虫。虽然有一点Python语言的基础,但是完全写出一份爬虫语言还是稍微有点困难。所以就写了个简单的,爬取的数据也比较简单了。只能作为研究数据的一些补充材料。不是很专业,就不详讲了,大致的代码在我另一篇文章有写到。当时守着电脑爬取了中国49个城市的数据,白天容易被forbidden,我就晚上待在办公室,一个城市爬完了,手动改成另一个城市来爬。

爱彼迎数据采集与预处理-图片色彩分析_第4张图片

2 数据预处理

    数据预处理就是将数据集里面的信息数字化、规范统一化、方便后面的数据分析。以2022年3月纽约的数据集为例,解压listing文件,里面包含了37631个房源数据。

爱彼迎数据采集与预处理-图片色彩分析_第5张图片

 注:数据集中包含了以上信息。有部分缺失信息,但总体还是比较全面。大致整理后如下:

爱彼迎数据采集与预处理-图片色彩分析_第6张图片

 

3 图片下载

    找到图片链接,单独成一张表,可以采用八爪鱼图片采集器,也可以用迅雷批量下载。图片的选择:①.jpg格式,因为后期统一格式时,转换起来比较轻松,对我来说的话;②选择一个host_id对应一张图片,因为文章选定的对象就是只拥有一个房源的房东。处理后的表格和下载后的文件夹、图片,如下图所示:

爱彼迎数据采集与预处理-图片色彩分析_第7张图片

爱彼迎数据采集与预处理-图片色彩分析_第8张图片

爱彼迎数据采集与预处理-图片色彩分析_第9张图片 注:表格中有18102个数据样本,因为有4个样本下载失败,所以总共下载了18098张图片。

4 图片预处理

这一步下周继续做,边做变更新吧。

你可能感兴趣的:(大数据)