5.4 数据操作

数据操作主要包括,数据存取、数据切片及数据运算三部分。

5.4.1 数据存取

Pandas支持如下数据文件的读取存取,方便快捷的数据操作是Pandas库的一大优势。各种数据文件格式及对应的存取函数,如下表所示:

文件格式名 读取函数 写入函数
Python字典数据 pd.DataFrame(dict) df.to_dict()
Excel文档 pd.read_excel(filename) df.to_excel(filename)
CSV文档 pd.read_csv(filename) df.to_csv(filename)
分隔的文本文件(如TSV) pd.read_table(filename)
SQL数据库文件 pd.read_sql(query,connection_object) df.to_sql(table_name,connection_object)
JSON格式的字符串、URL或文件 pd.read_json(json_string) pd.to_json(filename)
直接创建DataFrame对象

上一节创建的DataFrame对象,已引入了字典序列的值导入数据的方法,示例代码如下:

import pandas as pd
d={'one':pd.Series([1, 2, 3], index=['a', 'b', 'c']), 'two':pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
df.index.name="index"
print(df)

运行结果:

       one  two
index          
a      1.0    1
b      2.0    2
c      3.0    3
d      NaN    4

可以看到,d是一个字典,其中one的值为Series有3个值,而two为Series有4个值。由d构建的为一个4行2列的DataFrame,并且将索引命名为index,其中one只有3个值,因此d行one列为NaN,即Not a Number,这是Pandas默认的缺失标记。
DataFrame也可以转换回字典类型,示例代码:

df.to_dict()

运行结果:

{'one': {'a': 1.0, 'b': 2.0, 'c': 3.0, 'd': nan},
 'two': {'a': 1, 'b': 2, 'c': 3, 'd': 4}}
从Excel中存取数据

以上通过指令直接创建DataFrame,日常中大部分是从文件数据库中导入数据创建DataFrame。首先从Excel文件中读入DataFrame,示例代码:

df2 = pd.read_excel("abc.xls")
df2.head()

运行结果:

abc.xls是文件的相对路径名称,也可以采用绝对路径的方式,其参数为"d:/ml/abc.xls"。除了可以从Excel读取文件,我们也可以将DataFrame写入到Excel文件中,示例代码:

df2.to_excel("foo1.xlsx", sheet_name='sheet1')

以上代码中,参数sheet_name的值确定了将DataFrame表格数据导入在foo1.xlsx文件的sheet1表中,其foo1.xlsx文件放置在与iPython脚本编辑文件同一个目录中,如图所示:

foo1.xlsx文件路径
从CSV中存取数据

CSV文件就是用逗号分隔的数据文件,其导入函数为read_csv(),括号内参数为CSV文件名,此时CSV文件与iPython脚本文件处于同一路径;参数也可以采用绝对路径的方式导入CSV文件,示例代码:

df3 = pd.read_csv("d:\ml\titanic_train.csv")
print(df3.head())

运行结果:

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S

titanic_train.csv文件放置在D盘ml文件夹中,所以采用绝对路径方式读取数据,参数即"d:/ml/titanic_train.csv"。由于数据列名较多,所以采用多块显示的方式,将前5行数据以不同属性分块展现。
也可以将DataFrame对象写入CSV文件中,示例代码:

df3.to_csv("d:/ml/foo2.csv")
读取SQL数据库

pd.read_sql(query,connection_object)函数通过SQL查询语句读取数据库中的表格数据,其中第一个参数query是SQL查询语句,而第二个参数connection_object是python语言与相关数据库的连接资源接口文件。示例代码:

from sqlalchemy import create_engine
engine = create_engine("sqlite:///:memory:")
df4 = pd.read_sql("SELECT * FROM my_table", engine)

也可以将创建的df4对象导入到SQL数据库文件中,示例代码:

pd.to_sql("df4", engine)

以上介绍了几个常用数据文件的导入方法,其他函数与之类似,可以通过help()函数获取详细的数据文件存取方法,这里不再赘述。

5.4.2 数据切片

指定列

刚才通过导入数据文件或Python字典序列创建了DataFrame对象,下面我们将操作DataFrame对象中的数据,即介绍数据的切片与筛选命令。首先选择其中的一列,示例代码:

df["one"]

运行结果:

index
a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

显示的结果相当于一个Series,保留其索引号a、b、c、d,以及显示one列的所有值。我们也可以使用df.one的命令得到相同的结果。示例代码:

df.one

运行结果

index
a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

此外,可以通过list列表参数,返回多个属性列的值,示例代码:

df[["one", "two"]]

运行结果:

       one  two
index          
a      1.0    1
b      2.0    2
c      3.0    3
d      NaN    4

由于原DataFrame仅有两列元素数据,因此返回的结果与原DataFrame对象相同。

指定行

如果要指定DataFrame对象的前三行记录,可以用切片命令,示例代码:

print(df[0:3])

运行结果:

       one  two
index          
a      1.0    1
b      2.0    2
c      3.0    3

此结果返回的依旧是一个DataFrame对象,即以多个属性列表格。我们也可以使用起始索引名称和结束索引名称进行切片操作,注意其结果包含结束索引的数据,示例代码:

print(df['a' : 'b'])

运行结果:

       one  two
index          
a      1.0    1
b      2.0    2
loc方法

通过DataFrame的loc方法(location的缩写)通过标签进行切片,即指定行列标签选取数据,操作格式为df.iloc[行标签, 列标签],示例代码:

df.loc['a':'c',"one"]

运行结果:

index
a    1.0
b    2.0
c    3.0
Name: one, dtype: float64

其中,df.loc的第一个参数为行标签(必须是指定的索引号,不能是数字),第二个参数为列标签(可选参数,默认为所有列标签)。两个参数既可以是列表也可以是单个字符,如果两个参数都为列表则返回是DataFrame,否则为Series。

iloc方法

我们也可以通过DataFrame的iloc方法通过位置选取数据,功能与loc类似,需要注意的是iloc是integer & location的缩写,即只能以数字为索引号进行切片操作,操作格式为df.iloc[行位置, 列位置],示例代码:

print(df.iloc[1,1])      #选取第二行、第二列的值,返回的为单个值
print("----------------------")
print(df.iloc[[0,2], :])     #选取第一行及第三行的数据
print("----------------------")
print(df.iloc[0:2, :])      #选取第一行到第三行(不包含)的数据
print("----------------------")
print(df.iloc[:, 1])     #选取所有记录的第一列的值,返回的为一个Series
print("----------------------")
print(df.iloc[1, :])      #选取第一行数据,返回的为一个Series

运行结果:

2.0
----------------------
       one  two
index          
a      1.0    1
c      3.0    3
----------------------
       one  two
index          
a      1.0    1
b      2.0    2
----------------------
index
a    1
b    2
c    3
d    4
Name: two, dtype: int64
----------------------
one    2.0
two    2.0
Name: b, dtype: float64
ix方法

除了loc和iloc,更广义的切片方式是使用ix,它根据给定的索引类型自行判断是使用位置还是标签进行切片。操作格式为df.iloc[行位置(或行标签), 列位置(或列标签)],示例代码:

print(df.ix[1, 1])
print("----------------------")
print(df.ix['a':'b', 0])

运行结果:

2.0
----------------------
index
a    1.0
b    2.0
Name: one, dtype: float64
逻辑切片

通过逻辑指针进行数据切片,操作格式为df[逻辑条件],示例代码:

print(df[df.one >= 2])        #单个逻辑条件
print("----------------------")
print(df[df['one']>=2])       #结果与上面命令等价
print("----------------------")
print(df[(df.one >= 1) & (df.one < 3)])      #多个逻辑条件

运行结果:

       one  two
index          
b      2.0    2
c      3.0    3
----------------------
       one  two
index          
b      2.0    2
c      3.0    3
----------------------
       one  two
index          
a      1.0    1
b      2.0    2

此外可以添加列标签参数,对逻辑条件指定的结果进行列选择,示例代码:

print(df[df.one>2]['two'])

运行结果:

index
b    2
c    3
Name: two, dtype: int64

5.4.3 数据运算

基本运算符运算

DataFrame对象可以对若干列值进行基本运算,其运算方式是每一行记录之间的列值的基本运算操作,可以将结果返回生成新的列值,示例代码:

df["three"] = df["one"]*10 + df["two"]        #将one列的所有值乘以10倍后与同行的two列的所有值进行相加运算
df.head()

运行结果:

       one  two  three
index                 
a      1.0    1   11.0
b      2.0    2   22.0
c      3.0    3   33.0
d      NaN    4    NaN

由结果可以看出NaN值对四则运算规则没有意义,其结果依旧是NaN。

数值运算函数

Series和DataFrame对象都支持NumPy的数组接口,因此可以直接使用NumPy提供的ufunc函数对它们进行运算。例如add()、sub()、mul()、div()、mod()等与二元运算符对应的函数。此外,这些函数可以通过axis、level和fill_value等参数控制其运算行为。为演示运算函数中遇到的特殊情况处理,我们首先创建一个DataFrame和两个Series对象,示例代码:

df = pd.DataFrame(np.random.randint(0,10,(5,4)),index=['a','b','c','d','e'])
s1 = pd.Series(np.random.randint(0,10,5),index=['a','b','c','d','e'])
s2 = pd.Series([7,-2,3,5],index=['a','c','d','e'])
print(df)
print('\n')
print(s1)
print('\n')
print(s2)

运行结果:

   0  1  2  3
a  5  5  7  0
b  7  9  5  5
c  0  6  2  4
d  0  0  6  5
e  1  5  5  4


a    4
b    8
c    4
d    9
e    2
dtype: int32


a    7
c   -2
d    3
e    5
dtype: int64

由结果可知,创建一个5行4列的DataFrame,其中相应的行标索引号分别为字母abcde,而针对Series对象,分别创建了行标索引为abcde的s1序列和行标索引为acde的s2序列。我们可以直接采用两序列相加的方式,并将结果赋值于新的序列s3,示例代码:

s3=s1+s2
print(s3)

运行结果:

a     8.0
b     NaN
c     6.0
d    10.0
e    10.0
dtype: float64

由于s2序列中没有b行索引下标,所以运算结果s3的b行记录用NaN补全。而通过运算函数里fill_value参数值的设置,我们可以对缺失值进行自动补全,示例代码:

print(s1.add(s3, fill_value=0))      #加,将缺失值设置为0
print("\n")
print(s1.sub(s3,fill_value=2))       #减,将缺失值设置为2
print("\n")
print(s1.mul(s3,fill_value=3))        #乘,将缺失值设置为3
print("\n")
print(s1.div(s3,fill_value=4))         #除,将缺失值设置为4

运行结果:

a     9.0
b     5.0
c    14.0
d    17.0
e    15.0
dtype: float64


a   -7.0
b    3.0
c    2.0
d   -3.0
e   -5.0
dtype: float64


a     8.0
b    15.0
c    48.0
d    70.0
e    50.0
dtype: float64


a    0.125000
b    1.250000
c    1.333333
d    0.700000
e    0.500000
dtype: float64
数值统计函数

Pandas提供各种统计运算方法,如sum()、cumsum()、max()、min()、idxmin()、idxmax()、describe()、mean()、median()、std()等,这些函数都有如下三个常用参数:

  • axis:指定运算对应的轴
  • level:指定运算对应的索引级别
  • skipna:运算是否自动跳过NaN
    示例代码:
data = {'Country' : ['Belgium', 'India', 'Brazil'], 'Capital' : ['Brussels', 'New Delhi', 'Brasilia'], 'Population' : [11190846, 1303171035, 207847528] }
df = pd.DataFrame(data, columns = ['Country', 'Capital', 'Population'])      #生成名为df的DataFrame对象
print("sum:",df.sum())      #对每列值求和
print("\n")              
print("cumsum:",df.cumsum())      #返回每列值对行进行的累加和
print("\n")
print("min:",df.min())      #返回每列最小值
print("\n")
print("max:",df.max())      #返回每列最大值
print("\n")
print("describe:",df.describe())      #获取数据集的常用统计量信息
print("\n")
print("mean:",df.mean())      #返回每列均值
print("\n")
print("median:",df.median())      #返回每列中位数值
print("\n")
print("standard:",df.std())      #返回每列标准差值

运行结果

sum: Country              BelgiumIndiaBrazil
Capital       BrusselsNew DelhiBrasilia
Population                   1522209409
dtype: object


cumsum:               Country                    Capital  Population
0             Belgium                   Brussels    11190846
1        BelgiumIndia          BrusselsNew Delhi  1314361881
2  BelgiumIndiaBrazil  BrusselsNew DelhiBrasilia  1522209409


min: Country        Belgium
Capital       Brasilia
Population    11190846
dtype: object


max: Country            India
Capital        New Delhi
Population    1303171035
dtype: object


describe:          Population
count  3.000000e+00
mean   5.074031e+08
std    6.961346e+08
min    1.119085e+07
25%    1.095192e+08
50%    2.078475e+08
75%    7.555093e+08
max    1.303171e+09


mean: Population    5.074031e+08
dtype: float64


median: Population    207847528.0
dtype: float64


standard: Population    6.961346e+08
dtype: float64

注意,在以上返回结果中,describe()、mean()、median()和std()函数,仅对数值类型数据有效。此外,可以添加参数分别针对行列值进行数值统计,示例代码:

df = pd.DataFrame(np.random.randint(0,10,(5,4)),index=['a','b','c','d','e'])
print(df.mean())
print('\n')
print(df.mean(0))
print('\n')
print(df.mean(1))

运行结果:

0    5.2
1    5.4
2    4.8
3    5.4
dtype: float64


0    5.2
1    5.4
2    4.8
3    5.4
dtype: float64


a    6.00
b    4.75
c    4.75
d    6.00
e    4.50
dtype: float64

以上结果,不带参数或参数为0均返回的是每列的均值,而参数为1返回每行均值。由此说明mean()函数的默认参数就是0,即对每列进行均值统计分析,而当参数为1时则针对每行进行均值统计分析。此种参数的设置,对其他统计函数依然有效。

排序操作

DataFrame提供多种排序方式,主要介绍sort_index()、sort_values()和sort()方法。示例代码:

df = pd.DataFrame(np.random.randint(0,10,(5,4)),columns=['a','b','c','d'])
print(df)
print('\n')
print(df.sort_index(axis=1,ascending=False))
print('\n')
print(df.sort_values(by='a',ascending=True))

运行结果

   a  b  c  d
0  4  2  8  6
1  8  2  3  2
2  1  8  6  7
3  8  6  9  6
4  3  3  5  4


   d  c  b  a
0  6  8  2  4
1  2  3  2  8
2  7  6  8  1
3  6  9  6  8
4  4  5  3  3


   a  b  c  d
2  1  8  6  7
4  3  3  5  4
0  4  2  8  6
1  8  2  3  2
3  8  6  9  6

sort_index()方法以轴的标签进行排序。axis是指用于排序的轴,可选的值有0和1,默认为0即行标签(Y轴),1为按照列标签排序。ascending是排序方式,默认为True即升序排列。sort_values()方法,顾名思义,是按照数据值进行排序,在上例中的参数by即按照a列的值进行升序排列。
sort()方法与sort_values()方法类似,根据需要按照指定列进行排序,可以仅指定一个列作为排序标准(以单独列名作为columns的参数),也可以进行多重排序(columns的参数为一个列名的List,列名的出现顺序决定排序中的优先级),在多重排序中ascending参数也为一个List,分别于columns中的List元素对应。示例代码:

print(df.sort(columns='b', ascending=False))      #按照b列的降序排列
print('\n')
print(df.sort(columns=['a','c'], ascending=[False,True]))      #首先按照a列的降序,然后按照c列的升序排列
print('\n')
print(df.sort(columns=['a','c'], ascending=[0,1]))      #False可以用0,True可以用1替换 

运行结果

   a  b  c  d
2  1  8  6  7
3  8  6  9  6
4  3  3  5  4
0  4  2  8  6
1  8  2  3  2


   a  b  c  d
1  8  2  3  2
3  8  6  9  6
0  4  2  8  6
4  3  3  5  4
2  1  8  6  7


   a  b  c  d
1  8  2  3  2
3  8  6  9  6
0  4  2  8  6
4  3  3  5  4
2  1  8  6  7
字符操作

Pandas除了可以对数值数据进行操作,也提供了字符串操作方法str,示例代码:

data = {'Country' : ['Belgium', 'India', 'Brazil'], 'Capital' : ['Brussels', 'New Delhi', 'Brasilia'], 'Population' : [11190846, 1303171035, 207847528] }
df = pd.DataFrame(data, columns = ['Country', 'Capital', 'Population'])   
df.['Country'].str.upper()      #将字符转换为大写
df.['Country'].str.len()          #求字符长度
df.['Country'].str.coutains('a')      #coutains参数可以是字符或字符串,即判断字符串是否包含参数中的字符

字符的操作方法还有很多,可以查阅相关文档,这里不做赘述。

你可能感兴趣的:(5.4 数据操作)