import pandas as pd
df1=pd.read_csv(r'E:\xzdate\14house-prices.csv')
df1.head()
df2=pd.read_excel(r'E:\xzdate\14house_price_regression.xlsx')
df2.head()
df3=pd.read_table(r'E:\xzdate\14UnitMaster.txt')
df3.head()
或
df3=pd.read_csv(r'E:\xzdate\14UnitMaster.txt')
df3.head()
来源
import pandas as pd
f = open(r'E:\xzdate\14house_data.csv',encoding= 'utf-8')
df = pd.read_csv(f)
df.head(3)
df.head() #默认前5行数据 结论:物业费这列中有“暂无资料”信息 解决:找出“暂无资料”信息转化为NaN
df[df['物 业 费'] == '暂无资料'] #把暂无资料的数据提取出来
df.head(2)
import numpy as np
df.loc[df['物 业 费'] == '暂无资料', '物 业 费'] = np.nan #把暂无资料变为NAN缺失值 ix索引行列
df.head(2)
#另一种方式
f = open(r'E:\xzdate\14house_data.csv',encoding= 'utf-8')
df = pd.read_csv(f, na_values='暂无资料',index_col=0) #把暂无资料变为NAN缺失值
df.head(2)
df.tail(3)
df.info()
df.columns
df.dtypes
df.describe()
df.isnull() #哪些包含了缺失值,若缺失则为Ture,反之False
df.isnull().any() #每个字段是否有缺失值,Ture有缺失值,False没有缺失值
df.isnull().sum() #每个里有多少个缺失值 参考月供全是缺失值
df.isnull().sum() / df.count() #缺失值比例 inf表示1或者100%
df.head(3)
df = df.drop('参考月供', axis = 1) #删除参考月供一列 axis = 1 针对列 axis = 0 针对行
df.head(3)
df['产权性质'].value_counts() #产权性质下的类别与各自数量
df[df['产权性质'] == '个人产权'].head(3) #产权性质中包含个人产权的数据
df.iloc[5:7] #取索引值5和6的数据
df.loc[(df['建筑面积'] > 100) & (df['總價'] > 2000) , ].head(6)#筛选出建筑面积大于100且总价大于2000的,逗号前面放的是行的信息,后面是列的信息
df.loc[df['建筑面积'] > 100].head(3) #筛选出建筑面积大于100的
df = df[df['产权性质'] == '个人产权'] #查看产权性质为个人产权的
df.head(3)
不想写了