作者主页:疯狂行者 ✌java领域优质创作者,专注于Java技术领域技术交流✌
文末获取源码
精彩专栏推荐订阅:在 下方专栏Java精彩实战项目案例
Java精彩新手项目案例
Python精彩新手项目案例
随着科技技术的变革,人类社会环境发生了一次又一次的重大变化。各行各业都在科技的冲击下迅速发展,对于房地产销售来说,从传统的纸质记录销售信息到现在通过软件产品来记录,大大的提升了企业房地产销售的工作时间。对于企业来说除了记录销售记录外,企业还需要了解同行的房产销售信息,基于这种情况为企业开发了一个基于Python的房产销售数据分析与可视化系统。
本文重点阐述了房产销售数据分析与可视化系统的开发过程,以实际运用为开发背景,运用了Python网络爬虫技术,充分保证系统的安全性和稳定性。本系统前端使用了PyQt5来搭建界面,前端界面良好,操作简单方便;可视化是通过matplotlib来直接显示。通过系统概述、系统分析、系统设计、数据库设计、系统测试这几个部分,详细的说明了系统的开发过程,最后并对整个开发过程进行了总结,该可视化系统主要功能包含散点图、词云、房子朝向占比、装修占比、户型占比、房源数量、平均建筑面积、平均单价等,最后都是通过图表形式去展示这些房子的数据。
本房产销售数据分析与可视化系统通过运行测试后效果稳定,操作方便、快捷,界面友好,是一个功能全面、实用性好、安全性高,并具有良好的可扩展性、可维护性的房产销售数据分析与可视化平台。
随着科技技术的变革,人类社会环境发生了一次又一次的重大变化。各行各业都在科技的冲击下迅速发展,对于房地产销售来说,从传统的纸质记录销售信息到现在通过软件产品来记录,大大的提升了企业房地产销售的工作时间。对于企业来说除了记录销售记录外,企业还需要了解同行的房产销售信息,基于这种情况开发了一个基于Python的本房产销售数据分析与可视化系统。
本文基于Python技术和Excel,针对本房产销售数据方向建立了网络爬虫的房产销售数据分析与可视化系统。系统是为了通过大数据对房产的销售信息进行分析,为了最终实现要求,本系统以PyCharm为开发平台。经过细心的调研和衡量,以Python技术为核心去编写后台和实现各业务接口,以matplotlib作为数据的展示和操作。
此爬虫首先通过data_ana/gaode_map.py文件执行,对于爬虫的网站是 https://nj.lianjia.com/ershoufang/;爬虫的实现首先通过python中的requests.get请求当前地址,此基础项是为了得到房地产的(id,小区名称,所在区域,总价(万元),单价(元/平米),房屋户型,所在楼层,建筑面积(㎡),户型结构,套内面积(㎡),建筑类型,房屋朝向,建筑结构,装修情况,梯户比例,配备电梯,产权年限,挂牌时间,交易权属,上次交易,房屋用途,房屋年限,产权所属,抵押信息,房本备件)多项数据,是整个功能完成的基础,得到此数据后保存在Excel中,作为后面功能分析的基石代码如下。
def getlnglat(address):
"""
获取一个中文地址的经纬度(lat:纬度值,lng:经度值)
"""
url_base = "http://api.map.baidu.com/geocoder/v2/"
output = "json"
address = quote(address) # 由于本文地址变量为中文,为防止乱码,先用quote进行编码
url = url_base + '?' + 'address=' + address + '&output=' + output + '&ak=' + ak
lat = 0.0
lng = 0.0
res = requests.get(url)
temp = json.loads(res.text)
if temp["status"] == 0:
lat = temp['result']['location']['lat']
lng = temp['result']['location']['lng']
return lat,lng
#用来正常显示中文标签
plt.rcParams['font.sans-serif'] = ['SimHei']
#用来正常显示负号
plt.rcParams['axes.unicode_minus'] = False
"""1、数据加载"""
#定义加载数据的文件名
#filename = "data_file\\ershoufang-mini-utf8.csv"
filename = "data_file\\ershoufang-clean-utf8-v1.1.csv"
从上一节爬虫得到数据后,第二步就是对数据进行清洗和整理,使用Python内置csv模块,来提取整个URL中的数据,把没有作用的、无效的、不完整的数据完全剔除掉。主要实现方式是通过CSV模块对数据尽心合并,最后形成新文件为latlng.csv,这个新文件中主要保存的数据有id、小区名称、经纬度,代码如下图所示:
"""3、合并数据,并按格式输出数据"""
#合并数据
df_latlng = pd.read_csv("data_file\\latlng.csv",skiprows=[0],names=["did","communityName","id","lat","lng"])
del df_latlng["did"]
del df_latlng["communityName"]
df_merge = pd.merge(df,df_latlng,on="id")
#小于200万
xiaoyu = df_merge[df_merge["total"]<201]
xiaoyu2 = df_merge.loc[df_merge["total"]<201]
xiaoyu2 = xiaoyu2.loc[xiaoyu2["jzmj"] < 50]
"""4、生成需要的格式文件"""
out_map = "data_file\\star.txt"
with open(out_map,"w") as file_out:
forlng,lat,pricein zip(list(xiaoyu["lng"]),list(xiaoyu["lat"]),list(xiaoyu["total"])):
out = str(lng)+","+str(lat)
#out='{\"lng\":'+str(lng)+',\"lat\":'+str(lat)+',\"count\":'+str(price)+'},'
file_out.write(out)
file_out.write("\n")
本小节从南京各区域房产销售平均建州面积分析,主要是通过柱状图展示,横坐标代表南京每个区域,纵坐标代表建筑面积,分析房产销售平均面积是为了让房地产企业了解南京区域平均的建筑面积有多大,从而让企业清楚的知道建筑房产的选址,该数据主要是为了房地产企业了解南京每个区域的建筑面积有多大,对于企业来说,第一步是为了选址,也就是说是为了清楚的知道南京哪个地方可建筑的面积多,这样购买土地更加便宜;从下图分析且并作出预测,南京江宁平均建筑面积最多,如果房地产企业建筑选址最好定在江宁。展示图如下图所示。
本小节从南京各区域房产销售平均单价分析,主要是通过柱状图展示,横坐标代表南京每个区域,纵坐标代表房产销售单价,此分析得出,可以让房地产企业更加清楚的了解第一南京的哪个区域更加适合投资,且投资回报率更大,第二从这个单价也可以看出哪个区域的人口密集度高,对应的就是单价越高,此城市的进入人口更多。通过南京各区域房产销售平均单价的数据分析,六合单价最低,如果用户需要买房,未来可以选在六合买房更划算。
本小节从南京各区域房产销售房源数量分析,主要是通过折线图展示,横坐标代表南京每个区域,纵坐标代表房产销售数量,首先铜鼓获取区域名称,然后获取当前区域的房源销售数量进行展示;主要是为了分析南京每个地区的房源销售数量,从销售数量、平均建筑面积、销售单价这三个数据分析得知,哪个区域更加适合投资,如江宁,建筑面积多,单价高且房源销售数量也多,所以可以得知南京的江宁适合企业家投资。
本小节从南京房产销售房屋户型占比分析,主要是通过扇形图展示,不同颜色的区块代表着不同的房屋户型,从这个数据可以得知用户最喜欢哪个房型,且房源销售成交最多的是哪个房型,从而可以分析用户的喜爱,这样有利于房地产企业调整建房的类型和布局。从南京房产销售房屋户型占比情况分析得出,用户更加喜欢2室1厅一卫一厨,所以如果建房类型最好多建此类型的房子,更加受到用户喜爱。
大家点赞、收藏、关注、评论啦 、
打卡 文章 更新 40/ 365天
精彩专栏推荐订阅:在 下方专栏
Java精彩实战项目案例
Java精彩新手项目案例
Python精彩新手项目案例