Python笔记(商业数据分析)

Python课程

    • Python数据导入
      • 1、csv格式文件导入
      • 2、Excel格式文件导入
      • 3、txt格式文件导入
  • Pandas
      • 1、读取数据
      • 2、查看前几行数据
  • 3、将物业费中的"暂无资料"变成缺失值
  • 4、查看后三行资料
  • 5、查看 DataFrame 信息(数据框)
  • 6、查看字段名称
  • 7、查看字段类型
  • 8、获取描述性统计信息
  • 9、发现缺失值
  • 10、删除缺失值的字段
  • 11、筛选字段

Python数据导入

import pandas as pd

1、csv格式文件导入

df1=pd.read_csv(r'E:\xzdate\14house-prices.csv')
df1.head()

2、Excel格式文件导入

df2=pd.read_excel(r'E:\xzdate\14house_price_regression.xlsx')
df2.head()

3、txt格式文件导入

df3=pd.read_table(r'E:\xzdate\14UnitMaster.txt')
df3.head()

df3=pd.read_csv(r'E:\xzdate\14UnitMaster.txt')
df3.head()

Pandas

来源

1、读取数据

import pandas as pd

f = open(r'E:\xzdate\14house_data.csv',encoding= 'utf-8')
df = pd.read_csv(f)

2、查看前几行数据

df.head(3)

df.head() #默认前5行数据 结论:物业费这列中有“暂无资料”信息 解决:找出“暂无资料”信息转化为NaN

3、将物业费中的"暂无资料"变成缺失值

df[df['物 业 费'] == '暂无资料'] #把暂无资料的数据提取出来
df.head(2)
import numpy as np
df.loc[df['物 业 费'] == '暂无资料', '物 业 费'] = np.nan  #把暂无资料变为NAN缺失值  ix索引行列
df.head(2)
#另一种方式

f = open(r'E:\xzdate\14house_data.csv',encoding= 'utf-8')
df = pd.read_csv(f, na_values='暂无资料',index_col=0) #把暂无资料变为NAN缺失值
df.head(2)

4、查看后三行资料

df.tail(3)

5、查看 DataFrame 信息(数据框)

df.info()

6、查看字段名称

df.columns

7、查看字段类型

df.dtypes

8、获取描述性统计信息

df.describe()

9、发现缺失值

df.isnull() #哪些包含了缺失值,若缺失则为Ture,反之False
df.isnull().any() #每个字段是否有缺失值,Ture有缺失值,False没有缺失值
df.isnull().sum() #每个里有多少个缺失值   参考月供全是缺失值
df.isnull().sum() / df.count() #缺失值比例  inf表示1或者100%

10、删除缺失值的字段

df.head(3)
df = df.drop('参考月供', axis = 1) #删除参考月供一列  axis = 1 针对列   axis = 0 针对行
df.head(3)

11、筛选字段

df['产权性质'].value_counts() #产权性质下的类别与各自数量
df[df['产权性质'] == '个人产权'].head(3) #产权性质中包含个人产权的数据
df.iloc[5:7] #取索引值5和6的数据
df.loc[(df['建筑面积'] > 100) & (df['總價'] > 2000) , ].head(6)#筛选出建筑面积大于100且总价大于2000的,逗号前面放的是行的信息,后面是列的信息
df.loc[df['建筑面积'] > 100].head(3) #筛选出建筑面积大于100的
df = df[df['产权性质'] == '个人产权'] #查看产权性质为个人产权的
df.head(3)

不想写了

你可能感兴趣的:(Python)