本篇博客将基于 Python ,梳理二手房数据分析的整体过程。
其中最重要的是数据分析步骤,下面重点进行阐述。
import pandas as pd
import numpy as np
# 读取数据
df = pd.read_csv("second_hand_houses.csv")
# 数据清洗
df.dropna(inplace=True)
# 数据统计摘要
print(df.describe())
# 分析房价与其他变量的关系
price = df['price']
sqft = df['sqft']
rooms = df['rooms']
# 生成散点图
import matplotlib.pyplot as plt
plt.scatter(sqft, price)
plt.xlabel("Sqft")
plt.ylabel("Price")
plt.show()
# 生成散点图
plt.scatter(rooms, price)
plt.xlabel("Rooms")
plt.ylabel("Price")
plt.show()
代码说明如下:
info()
函数查看数据的基本信息,包括数据类型、非空值数量、内存使用情况等。describe()
函数查看数据的统计信息,包括均值、标准差、最大值、最小值等。其中 second_hand_houses.csv
文件数据如下所示:
id,price,sqft,rooms
1,200,1500,4
2,230,1200,3
3,180,1000,2
4,250,2000,5
5,210,1600,3
6,230,1400,4
7,195,1100,2
8,275,2300,6
9,185,1300,3
10,230,1600,4
11,220,1500,3
运行代码得到如下分布图。
下面是另一种基于 Python 的二手房数据分析的示例代码:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 读取数据
df = pd.read_csv("second_hand_houses.csv")
# 数据探索
# 1. 查看数据的前 5 行
print(df.head())
# 2. 查看数据的基本信息
print(df.info())
# 3. 查看数据的统计信息
print(df.describe())
# 4. 绘制直方图以查看数值型特征的分布情况
df.hist(bins=50, figsize=(20,15))
plt.show()
# 5. 绘制散点图以查看价格与其他特征的关系
sns.pairplot(df, x_vars=["area", "rooms"], y_vars=["price"], size=5, aspect=0.8)
plt.show()
代码说明:
head()
函数查看数据的前 5 行,以确保数据已经正确读入。info()
函数查看数据的基本信息,包括数据类型、非空值数量、内存使用情况等。describe()
函数查看数据的统计信息,包括均值、标准差、最大值。代码运行效果如下所示。
你正在阅读 【梦想橡皮擦】 的博客
阅读完毕,可以点点小手赞一下
发现错误,直接评论区中指正吧
橡皮擦的第 856 篇原创博客
全网 6000+人正在学习的 爬虫专栏