pandas基础

Pandas使用一个二维的数据结构DataFrame来表示表格式的数据。

首先将pandas和numpy加载进来

import pandas as pd
import numpy as np

一. 生成数据表

1.文件读取

csv文件和xlsx分别用read_csv() 和 read_xlsx()

df = pd.read_csv('./data/HR.csv')
2.用pandas创建数据表
df = pd.DataFrame({
    "id": [1001,1002,1003,1004,1005,1006],
    "date": pd.date_range('20130102', periods=6),
    "city": ['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
    "age": [23,44,54,32,34,32],
    "category": ['100-A','100-B','110-A','110-C','210-A','130-F'],
    "price": [1200,np.nan,2133,5433,np.nan,4432]},
     columns = ['id','date','city','category','age','price'])

执行结果:

     id       date         city category  age   price
0  1001 2013-01-02     Beijing     100-A   23  1200.0
1  1002 2013-01-03           SH    100-B   44     NaN
2  1003 2013-01-04   guangzhou     110-A   54  2133.0
3  1004 2013-01-05     Shenzhen    110-C   32  5433.0
4  1005 2013-01-06     shanghai    210-A   34     NaN
5  1006 2013-01-07     BEIJING     130-F   32  4432.0

二. 数据表信息查看

1.维度查看
df.shape   #(6,6)
2.数据表基本信息(维度,列名称,数据格式,所占空间等)
df.info()
3.每一列数据格式
df.dtypes

执行结果:

id                   int64
date        datetime64[ns]
city                object
category            object
age                  int64
price              float64
4.某一列数据格式
df['date'].dtypes
5.空值
df.isnull
df['date'].isnull   # 某一列的空值
6.查看某一列的唯一值
df['date'].unique()  
7.查看数据表的值
df.values   
df.head()  # 默认为前5行,也可自定义行数
df.tail()  # 默认为后5行,也可自定义行数
8.利用现有数据生成一列新数据

比如:max_time和min_time是现有的两列,现在业务需要生成一列gs,gs=max_time-min_time

df.['gs']=df.['max_time']-['min_time']
9.查看基本统计量
df.describe()

执行结果:

              a         b         c         d
count  4.000000  4.000000  4.000000  4.000000
mean  -0.058927 -0.474549  1.019342 -0.750464
std    0.595253  0.530539  0.753136  1.022685
min   -0.640585 -0.997408  0.160999 -1.855990
25%   -0.532082 -0.812058  0.509721 -1.489673
50%   -0.065873 -0.561149  1.077771 -0.708147
75%    0.407282 -0.223640  1.587391  0.031062
max    0.536626  0.221508  1.760826  0.270427
10.数据框操作

df.head(1)['data'] # 获取第一行的date列

df.head(1)['data'][0] # 获取第一行的date列的元素值

sum(df['ability']) # 计算整个列的和

df[df['data'] == '20161111']  # 获取符合这个条件的行

df[df['data'] == '20161111'].index[0]   # 获取符合这个条件的行的行索引的值

df.index # 获取行的索引

df.index[0] # 获取第一个行索引

df.index[-1]   # 获取最后一个行索引,只是获取索引值

df.columns    # 获取列标签

df[0:2]    # 获取第1到第2行,从0开始,不包含末端

三.数据表清洗

1.用数字0填充空值
df.fillna(value=0)
2.使用列price的均值随NA进行填充
df['price'].fillna(df['price'].mean())
3.清除city字段的字符空格
df['city']=df['city'].map(str.strip)
4.大小写转换
df['city']=df['city'].str.lower
5.更改数据格式
df['price'].astype('int')
6.更改列名称
df.rename(columns={'category': 'category-size'}) 
7.删除重复值
df['city'].drop_duplicates()   # 删除后出现的重复值
df['city'].drop_duplicates(keep='last')     # 删除先出现的重复值
8.数据替换
df['city'].replace('sh', 'shanghai')

四.数据预处理

df1=pd.DataFrame({
    "id":[1001,1002,1003,1004,1005,1006,1007,1008], 
    "gender":['male','female','male','female','male','female','male','female'],
    "pay":['Y','N','Y','Y','N','Y','N','Y',],
    "m-point":[10,12,20,40,40,40,30,20]})
1.数据表合并
df_inner = pd.merge(df,df1,how='inner')
df_left = pd.merge(df,df1,how='left')
df_right = pd.merge(df,df1,how='right')
df_outer = pd.merge(df,df1,how='outer')
2.设置索引列
df_left.set_index('id')
3.按照特定列的值排序
df_left.sort_values(by=['age'])
4.按照索引列排序
df_left.sort_index()
5.如果prince列的值>3000,group列显示high,否则显示low
df_left['group'] = np.where(df_left['price'] > 3000,'high','low')
6.对复合多个条件的数据进行分组标记
df_left.loc[(df_left['city'] == 'beijing') & (df_left['price'] >= 4000), 'sign'] = 1
7.对category字段的值依次进行分列,并创建数据表,索引值为df_inner的索引列,列名称为category和size
pd.DataFrame((x.split('-') for x in df_left['category']),index=df_left.index,columns=['category','size'])
8.将完成分裂后的数据表和原df_inner数据表进行匹配
d = df_left=pd.merge(df_left,'分裂后的表',right_index=True, left_index=True)

五.数据提取

主要用到三个函数:loc,iloc,ix

  • loc函数按标签值进行提取
  • iloc按位置进行提取
  • ix同时按标签和位置进行提取
1.按索引提单行的值
df_left.loc[3]  # 索引为3,而不是第三个
2.按索引提取区域行数值
df_left.iloc[0:5]    # 0,1,2,3,4
3.重设索引
df_left.reset_index()
4.设置date为索引
df_left=df_left.set_index('date') 
5.提取2013-01-04之前的所有数据
df_left[:'2013-01-04']
6.使用iloc按位置区域提取数据
df_left.iloc[:3,:2]  # 冒号前后的数字不再是索引的标签名称,而是数据所在的位置,从0开始,前三行,前两列。
7.使用iloc按位置单独提取数据
df_left.iloc[[0,2,5],[4,5]] #提取第0、2、5行,4、5列
8.使用ix按索引标签和位置混合提取数据
df_left.ix[:'2013-01-03',:4] #2013-01-03号之前,前四列数据
9.判断city列的值是否为北京
df_left['city'].isin(['beijing'])
10.判断city列里是否包含beijing和shanghai,然后将符合条件的数据提取出来
df_left.loc[df_left['city'].isin(['beijing','shanghai'])] 
11.提取前三个字符,并生成数据表
pd.DataFrame(category.str[:3])

六.数据筛选

1.使用与、或、非三个条件配合大于、小于、等于对数据进行筛选。
# 与
df_left.loc[(df_left['age'] > 25) & (df_left['city'] == 'beijing'), ['id','city','age','category','gender']]
# 或
df_left.loc[(df_left['age'] > 25) | (df_left['city'] == 'beijing'), ['id','city','age','category','gender']]
# 非
df_left.loc[(df_left['city'] != 'beijing'), ['id','city','age','category','gender']]
2.对筛选后的数据按city列进行计数
df_left.loc[(df_left['age'] > 25) & (df_left['city'] == 'shanghai'), ['id','city','age','category','gender']].city.count()
3.使用query函数进行筛选
df_left.query('city == ["Beijing", "shanghai"]')
4.对筛选后的结果按prince进行求和
df_left.query('city == ["beijing", "Shenzhen"]').price.sum()

七.数据汇总

主要函数是groupby和pivote_table

1.对所有的列进行计数汇总
df_left.groupby('city').count()
2.按城市对id字段进行计数
df_left.groupby('city')['id'].count()
3.对两个字段进行汇总计数
df_left.groupby(['city','size'])['id'].count()
4.对city字段进行汇总,并分别计算prince的合计和均值
df_left.groupby('city')['price'].agg([len,np.sum, np.mean])

八.数据统计

数据采样,计算标准差,协方差和相关系数

1.简单的数据采样采样后不放回
df_left.sample(n=3)
2.手动设置采样权重
weights = [0, 0, 0, 0, 0.5, 0.5]
df_left.sample(n=2, weights=weights)
3.采样后放回/不放回
df_left.sample(n=6, replace=True)     # 采样后放回
df_left.sample(n=6, replace=False)    # 采样后不放回
4.计算列的标准差
df_left['price'].std()
5.计算协方差
df_inner.cov()    # 数据表中所有字段间的协方差
df_left['price'].cov(df_inner['m-point'])    # 计算两个字段间的协方差
6.相关性分析
# 数据表的相关性分析
df_inner.corr()
# 两个字段的相关性分析
df_left['price'].corr(df_inner['m-point']) #相关系数在-1到1之间,接近1为正相关,接近-1为负相关,0为不相关

九.数据输出

分析后的数据可以输出为xlsx格式和csv格式

1.输出为Excel
df_left.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc') 
2.输出为CSV
df_left.to_csv('excel_to_python.csv') 

你可能感兴趣的:(pandas基础)