python使用seaborn对上海的二手房数据进行分析

对上海的二手房数据进行分析

gcc的同学不要抄袭呀!
实验时间 2023-05-6

一、实验仪器设备或材料

笔记本电脑,Anaconda软件

二、数据及需求说明

1、 部分数据如下:
python使用seaborn对上海的二手房数据进行分析_第1张图片

2、需求说明
使用该份数据,需要分析以下几点:
1、上海二手房总体房价描述
2、上海二手房单价分布情况
3、上海各城区单价与总价的分布
4、上海各城区房源分析
5、上海房价与房屋面积大小关系
6、上海二手房各维度相关性分析。

三、实验内容与分析
0.读取文件,对数据进行探索分析
python使用seaborn对上海的二手房数据进行分析_第2张图片
python使用seaborn对上海的二手房数据进行分析_第3张图片
python使用seaborn对上海的二手房数据进行分析_第4张图片
python使用seaborn对上海的二手房数据进行分析_第5张图片

1、上海二手房总体房价描述

python使用seaborn对上海的二手房数据进行分析_第6张图片

分析:上海二手房价的均价为580万,可见房价是如此之高,上海房价如此之高的原因主要有两个,第一就是上海经济发达,物价整体比较高。第二就是上海土地面积狭小,商品房供不应求。

2、上海二手房单价分布情况

python使用seaborn对上海的二手房数据进行分析_第7张图片python使用seaborn对上海的二手房数据进行分析_第8张图片

分析:
1.上海市整体的二手房单价比较低,大约80%的房源单价在10万元/平米以下。
2.单价集中在5万元/平米以下的说明上海市民大众对于房价的承受力并不高,因此有很多经济适用房的需求。
3.1015万元/平米,以及1520万元/平米这两个区间内的单价也比较常见,说明还存在着一定数量的高档公寓、别墅等房源。

3、上海各城区单价与总价的分布

python使用seaborn对上海的二手房数据进行分析_第9张图片
python使用seaborn对上海的二手房数据进行分析_第10张图片

从图中我们可以看出,在浦东地区,房屋的单价与总价都大多数集中在100000-200000之间。但是房屋的单价也与户型有很大关系,小户型的房屋单价往往也非常高,要比大户型更加昂贵。在其他区域,平均单价较为集中,而平均总价则有一定差别,这与地段、交通以及房屋面积等因素都有关系。

4、上海各城区房源分析

python使用seaborn对上海的二手房数据进行分析_第11张图片
python使用seaborn对上海的二手房数据进行分析_第12张图片

徐汇、闵行和浦东为房源数量最多的三个城区,这三个城区的各种因素,如地理位置、学区等都被认为是上海比较优质的居住区域之一,因此这也可能会导致这些区域的房源数量相对较高。
而崇明、金山等城区则房源数量较少,这些区域大部分离市中心较远,也缺少发展商开发的楼盘等原因。
市区龙华、长宁、普陀等城区均有较高的房源数量,需要结合其地理距离、基础设施和产业等方面综合分析,进一步理解各城区分布的原因。
房源数量不一定直接决定了所处地区的房价,价格取决于多重因素,如面积、户型、楼层、朝向、建筑年代和社区环境等。因此,需要综合考虑以上各种因素才能更好地理解房地产市场,并基于推出预测和决策。

5、上海房价与房屋面积大小关系

python使用seaborn对上海的二手房数据进行分析_第13张图片
python使用seaborn对上海的二手房数据进行分析_第14张图片

房价和面积之间有一定的正相关关系。房屋面积越大,平均单价会逐渐降低。
从建筑时间来看,早期建造的房产价格可能较高。但是这个规律未必在所有情况下都成立,例如,有些老房子由于区域、地段等因素的影响可能导致价格飞涨。
从区域、楼层和朝向来看,不同的属性也会对房价产生影响。处于市中心、朝南朝向以及较低的楼层通常会更受欢迎,价格也相应较高。

6、上海二手房各维度相关性分析。

python使用seaborn对上海的二手房数据进行分析_第15张图片
python使用seaborn对上海的二手房数据进行分析_第16张图片

1.房屋面积与房价呈正相关关系,即面积越大,房价越高
2.区城和房价没有明显的正相关或负相关,不同区域的房价相差较大。
3.楼层和房价也存在一定的相关性,多数情况下,楼层越高,房价越低。
4.朝向与房价没有明显的相关性,但朝南的房子更受欢迎,价格也比其他朝向稍高.
5.建筑时间与房价也有一定的相关性,基本上是建造年限越早,房价越低。

四、结论与体会

  1. 首先,需要将房屋销售数据存储到一个DataFrame中,可以使用pandas的read_csv函数读取csv文件,或者使用read_excel函数读取Excel文件。
  2. 然后,通过describe函数可以得到DataFrame中各列的基本统计量,包括计数、平均值、标准差、最小值、25%!、75%!和(MISSING)最大值。
  3. 可以进一步使用groupby函数将数据按照某一列进行分组,然后使用agg函数计算每组数据的统计量,例如每个城市的平均房价、销售量等。
  4. 当然也可以通过plot函数可以对数据进行可视化分析,例如画出柱状图、直方图、散点图等。
  5. 最后,需要结合实际业务场景,对数据进行深入分析和挖掘,例如针对某一城市的销售情况进行原因分析,或者预测未来的销售趋势等。
    个人体会:使用pandas库可以快速、方便地进行数据统计和分析,尤其是在处理大量、复杂的数据时,能够极大地提高工作效率。同时,熟练掌握pandas的常用函数和方法,能够为数据科学家和业务分析师提供强大的工具支持,为他们的工作带来不少便捷和帮助。

你可能感兴趣的:(python,开发语言)