【四二学堂】京北房产销售数据Python分析

系列视频待发布。

csv文件内的数据:
【四二学堂】京北房产销售数据Python分析_第1张图片
【四二学堂】京北房产销售数据Python分析_第2张图片

#数据分析--华夏幸福怀来项目分析

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df=pd.read_csv('huaxiahouse.csv',encoding='gbk')
a=df.info()
print(a)

#以title为关键字,若标题内容相同,则认为是同一记录
b=len(df.title.unique())
print(b)

#去重,title为准。保留第一条,删除其它
df_dup=df.drop_duplicates(subset='title',keep='first')
c=df_dup.info()
print(c)

#去空处理。这里是直接删除了有空格的行。

df_notnull=df_dup.dropna()
d=df_notnull.info()

print(d)

#选择需要的字段

df_clean=df_dup[['title','unitprice','Street','yearbuild','price']]
e=df_clean.head(10)  #默认是5条数据
print(e)

#房价统计
f=df_clean.yearbuild.value_counts()   #各年份房子的数量
print(f)

#生成统计图

import matplotlib.pyplot as plt
plt.style.use('ggplot')
df_clean.yearbuild.hist()
plt.show()

#生成箱线图
'''
df_clean.boxplot(column='price',by='Street')
plt.show()
'''


from matplotlib.font_manager import FontProperties
font_a=FontProperties(fname=r"c:\windows\fonts\MSYH.TTC", size=12)    #微软雅黑
#先把需要的字体(在系统盘C盘的windows下的fonts目录内)添加到FontProperties中。具体解决方法如下:
df_lable=df_clean.boxplot(column='yearbuild',by='Street')

for lable in df_lable.get_xticklabels():
    lable.set_fontproperties(font_a)
plt.show()


g=df_clean.unitprice.describe()
print(g)

你可能感兴趣的:(Python数据分析)