基于大数据的一线城市住房租赁影响因素分析

摘要:2017年10月党的十九大报告提出“加快建立多主体供给、多渠道保障、租购并举的住房制度” 然而从现有的《房地产估价规范》来看,影响住房租赁价格的影响因素并未形成体系,本文将借助大数据技术分析北上广深四个城市的住房租赁影响因素。利用网络爬虫技术获取房屋条件和住房租赁价格。利用 Poi 大数据获取城市居住区的区位配套条件。借助数据清洗、文本挖掘等大数据技术进行数据处理,得到住房租赁的真实数据。对区位配套条件进行重点分析,借助高德地图开放平台、Arcgis核密度分析和线性回归方程分析对区位配套条件和住房租赁价格进行空间上的分析和可视化呈现。

关键词:大数据、住房租赁价格、一线城市、影响因素、线性回归方程、Arcgis核密度分析

  1. 研究背景:

据《中国新城新区发展报告 2018》显示,我国城市新区人口流动性较强,住房需求以租赁为主,具有明显的非居民化居住特征。如何把握城市新区租赁群体多层次住房需求,促进租赁住房供求总量与结构相匹配,解决好新区居住者的“安居”问题,是吸引劳动力聚集和带动新区发展的有效途径。北京、上海、广州、深圳作为一线城市中的超级城市,住房租赁需求居高不下,因此,北上广深四个超级城市尤其适合研究住房租赁价格影响因素。

  1. 国内研究现状

王莉、王雪艳以1997~2016年西安市房屋租赁市场数据为研究数据集,构建影响西安市住房租赁价格的因子体系,利用因子分析法对影响西安市住房租赁价格因素进行分析,并确定出影响权重。从1997年~2016年数据及所选取指标来看,住房租赁需求市场相关因素对西安市住房租赁价格影响较大,其中城市人口自然增长率对住房租赁价格影响最显著。

  1. 研究内容、技术路线及研究方法

3.1研究内容:

借助大数据技术分析北上广深四个城市的住房租赁影响因素。利用大数据网络爬虫技术从当前用户流量大的多个租房信息网站爬取房屋条件和住房租赁价格,再利用EasyGeo将获取的住房地址转化为经纬度坐标。利用 Poi 大数据获取城市居住区的区位配套条件。借助数据清洗、文本挖掘等大数据技术进行数据处理,得到住房租赁的真实数据。对区位配套条件进行重点分析,借助高德地图开放平台和Arcgis对区位配套条件和住房租赁价格进行空间上的核密度分析和可视化呈现。

3.2技术路线:

基于大数据的一线城市住房租赁影响因素分析_第1张图片

图1技术路线图

3.3研究方法

(1)文献分析法

在广泛研读和梳理相关领域文献的基础上,深入分析租房领域当前的研究成果与不足,提出本文的研究问题;通过对租房价格分析以及大数据等相关文献的研究,明确本文的总体研究框架、具体研究内容和研究方法。

(2)定性分析与定量分析相结合

本文在研究过程中多次运用定性分析与定量分析相结合来开展研究。在研究

影响租房价格的因素时,本文在文献分析的基础上通过定性分析来初步确定需求的影响因素,然后借助大数据定量研究初步选定的影响因素之间的影响关系,进而得到关键的影响因素。在进行区位配套设施研究时,在查阅大量文献期刊的基础上通过高德地图开放平台和Arcgis核密度分析进行定性分析来确定反映租房区位配套条件的相关指标,进而借助大数据方法和线性回归方程分析来定量的对租房的价格影响因素进行评价。 

  1. 基于大数据的租房价格信息挖取

4.1理论基础

4.1.1大数据分析框架

获取数据资源并挖掘出数据价值即为大数据分析,其分析框架具体包括数据

采集、数据清洗、数据挖掘等大数据加工的全过程。大数据技术就是指在挖掘出

数据价值的过程中所使用到的数据采集技术、数据存储技术、数据清洗技术、大

数据挖掘技术等。由于数据类型、数据来源以及研究目标等方面的不同,使得实

际大数据处理过程中用到的技术有较大差异。

4.1.2数据采集过程

数据采集指的是获取研究目标的原始大数据集。数据采集依据数据的来源和数据类型的不同可以分为网页数据采集、系统日志文件采集以及其他数据采集。

本文主要是对网页数据进行采集。

基于大数据的一线城市住房租赁影响因素分析_第2张图片

图2爬虫的结构

4.1.3数据挖掘过程及技术

数据挖掘指的是借助于数据挖掘工具对大数据进行分类汇总、提取隐藏在大

数据中对研究目标存在高价值的信息。依旧研究目标的不同,数据挖掘能够对数

据呈现的特征和状态进行描述、对数据规律进行归纳和总结或者是对历史数据总

结规律的基础上预测未来的趋势。利用数据挖掘的结果能够提出与研究目标相对

应的建议和制定决策。本文主要是对中文文本数据进行挖掘,接下来对该类数据

挖掘的过程及方法进行介绍。

4.1.4爬虫架构设计及采集

(1)目标网站和目标数据元素

本文选用信息准确率更高的主题爬虫方式获取需求信息,爬虫网站选取房天下当前最主流的网络租房信息平台,针对网站中用户发布在求租页面的具体需求元素进行爬取。网站为了提高求租信息的交互效率,在住房的不同属性上进行了分类设置和选择项设置,用户发布求租信息时,只需要对不同住房属性上的需求从选择项中选取即可,此外,还设置了留言区,方便用户对某些住房属性上的特殊需求进行表达。在房天下网站中搜索“求租”即能查询到用户自己发布在网站上的具体住房需求,如区域、居室、租金、入住时间、具体要求、联系人、电话以及发布时间等等信息。

(2)爬虫过程分析

本文选用八爪鱼网页采集器 8作为爬虫工具。八爪鱼采集器根据用户自定义的采集规则,从不同网站上获取规范化的数据,具备可视化的流程操作界面以及定期自动采集功能。同时,八爪鱼旗舰版能够实现云采集功能,用户在设定好采集规则后,程序将自动执行多线程的云采集,云采集下来的数据自动储存到云服务器中,方便用户自行下载。八爪鱼采集操作见图 3。

爬虫的具体操作流程如下:

①新建任务,将目标网站的 url 输入到 url 种子库中;将 安居客、房天下中北上广深主城区内求租信息的网址作为目标网站的 url。

②通过网址的 DNS 解析,将采集器和目标网址建立链接;

③在程序的规则栏中设定具体的爬取规则,本文以深度优先策略作为爬取策略,执行设定循环翻页、拾取目标元素、提取数据等操作,为了实现本文的研究目标以及更方便后面做数据处理,本文选取了“标题、区域、居室、租金、入住、发布时间以及具体要求”作为目标爬取元素,执行提取数据操作;

④执行保存操作并选择利用云采集功能实现数据的采集。

安居客和房天下网站上用户需求的网页元素结构均为“区位、居室、租金、具体需求”等元素,因此本文对于上述2个网站的爬虫架构设计是一致的。

基于大数据的一线城市住房租赁影响因素分析_第3张图片

图3 八爪鱼数据采集截面图

(3)爬虫结果分析

本文利用八爪鱼采集器的本地采集功能对安居客以及房天下的目标数据进行采集。采集时间为2021年10月21日-2021年10月25日,共计采集到11804 条需求数据。八爪鱼采集的数据结果见图4-图7。

基于大数据的一线城市住房租赁影响因素分析_第4张图片

图4 八爪鱼采集数据-北京

基于大数据的一线城市住房租赁影响因素分析_第5张图片

图5 八爪鱼采集数据-上海

基于大数据的一线城市住房租赁影响因素分析_第6张图片

图6 八爪鱼采集数据-广州

基于大数据的一线城市住房租赁影响因素分析_第7张图片

图7 八爪鱼采集数据-深圳

4.1.5数据处理清洗及结果

(1)数据处理

在高德数据开放平台上进行可视化分析需要把从八爪鱼采集的地理位置信息转换成经纬度坐标数据。本文选用地址标准化解析工具EasyGeo百度地图版_v3.1_window版作为数据处理工具,将八爪鱼爬取的Excel导入,EasyGeo软件的优势在于批量转换地址且不用编辑代码,后台已经编好程序直接导入Excel就可以直接获取经纬度信息。EasyGeo具体操作见图8。

基于大数据的一线城市住房租赁影响因素分析_第8张图片

图8 EasyGeo经纬度转换截图

(2)数据处理结果分析及清理

转换出的经纬度会出现一些错误,存在各个不同省份的经纬度,但是我们只需要北京、上海、广州、深圳的坐标,在Excel中使用数据筛选,选取出需要的数据。具体操作见图9-图12。

图9 EasyGeo经纬度转换结果数据-北京

图10 EasyGeo经纬度转换结果数据-上海

图11 EasyGeo经纬度转换结果数据-广州

图12 EasyGeo经纬度转换结果数据-深圳

  1. 住房租赁价格影响因素分析

5.1房源分布分析

将EasyGeo经纬度转换结果数据导入高德地图开放平台进行数据可视化分析。

得到结果如下

北京的租房房源有18012条,可以看到除了周边的昌平、顺义、通州、大兴、房山、门头沟等区中心有集中房源外,北京的房子主要集中在二环外四环内,当然这片区域也是最贵的。其中朝阳区的房源最多,占了整个北京房源的1/3,海淀、丰台次之。

上海也一样,除了周边的宝山、嘉定、青浦、松江、奉贤等区中心有房源外,房源主要集中在中心城区+浦东(地铁网范围内)。总共27311条房源,浦东就有7000多条,比例超过1/4。

正在上传…重新上传取消    广州房源在四个城市中是最多的,共有39457条,主要集中在白云、天河、越秀、荔湾,以及海珠和番禺。其中白云、天河和番禺房源都超过6000条,选择丰富,不过看图也知道,3号线通勤压力巨大。

深圳的房源共有20054条,更集中在各区,除了四个新区零星分布的房源外,主要还是分布在宝安、南山(科技园)、福田、罗湖、龙岗区中心,以及坂田、布吉、3号线沿线,11号线沿线。

5.2各城市区位核密度对住房租金影响分析

核密度分析的工作原理:

核密度分析工具用于计算要素在其周围邻域中的密度。此工具既可计算点要素的密度,也可计算线要素的密度。核密度分析可用于测量建筑密度、获取犯罪情况报告,以及发现对城镇或野生动物栖息地造成影响的道路或公共设施管线。可使用 population 字段根据要素的重要程度赋予某些要素比其他要素更大的权重,该字段还允许使用一个点表示多个观察对象。可以体现出分析目标在空间上的集聚情况。

点要素的核密度分析:

   核密度分析用于计算每个输出栅格像元周围的点要素的密度。概念上,每个点上方均覆盖着一个平滑曲面。在点所在位置处表面值最高,随着与点的距离的增大表面值逐渐减小,在与点的距离等于搜索半径的位置处表面值为零。仅允许使用圆形邻域。曲面与下方的平面所围成的空间的体积等于此点的Population 字段值,如果将此字段值指定为NONE则体积为 1。每个输出栅格像元的密度均为叠加在栅格像元中心的所有核表面的值之和。核函数以Silver man的著作(1986年版,第76页,方程4.5)中描述的二次核函数为基础。如果population字段设置使用的是除NONE之外的值,则每项的值用于确定点被计数的次数。例如,值3会导致点被算作三个点。值可以为整型也可以为浮点型。默认情况下,单位是根据输入点要素数据的投影定义的线性单位进行选择的,或是在输出坐标系环境设置中以其他方式指定的。如果选择的是面积单位,则计算所得的像元密度将乘以相应因子,然后写入到输出栅格。

线要素的核密度分析:

   核密度分析还可用于计算每个输出栅格像元的邻域内的线状要素的密度。概念上,每条线上方均覆盖着一个平滑曲面。其值在线所在位置处最大,随着与线的距离的增大此值逐渐减小,在与线的距离等于指定的搜索半径的位置处此值为零。由于定义了曲面,因此曲面与下方的平面所围成的空间的体积等于线长度与Population字段值的乘积。每个输出栅格像元的密度均为叠加在栅格像元中心的所有核表面的值之和。用于线的核函数是根据Silver man著作中所述的用于计算点密度的二次核函数改编的。

5.2.1分析过程

(1)Poi数据爬取

本章所需要的数据包括需求的区位数据,以及表征城市居住空间区位配套条件的各类设施数据。这里主要对量化评价居住空间区位配套条件的数据进行获取。对居住空间区位配套条件评价来说,最重要的就是要清楚周边有什么地理实体。一些包含商场、车站、学校、住宅、公园等一系列体现城市功能的地理实体分布在城市各个角落,这些地理实体构成了城市内部空间结构。随着信息技术的发展,在百度地图、高德地图等一些地理信息系统上将包含地理实体名称、建筑属性、地址和地理坐标的用来反映地理实体的点称为兴趣点(Point of Interest, 简称 POI),随着电子地图上 poi 数据量逐渐庞大,这些地理实体呈现的更加精准,poi 数据作为一种新的空间大数据源,其分布模式、分布密度在城市空间分析中具有重要的意义。poi 数据能够通过各大电子地图网站申请 API 接口,通过网络爬虫获取 poi 大数据。

正在上传…重新上传取消

  1. Poi数据可视化处理

拿到POI数据后,将它们在ArcGIS中

你可能感兴趣的:(大数据,大数据)