Pandas入门

标题中的英文首字母大写比较规范,但在python实际使用中均为小写。
2018年8月2日笔记
建议读者安装anaconda,这个集成开发环境自带了很多包。
作者推荐到2018年8月2日仍为最新版本的anaconda下载链接: https://pan.baidu.com/s/1pbzVbr1ZJ-iQqJzy1wKs0A 密码: g6ex
下面代码的开发环境为jupyter notebook,使用在jupyter notebook中的截图表示运行结果。

1.导入库

使用 pandas,首先就得熟悉它的两个主要数据结构: Series和 Dataframe。

from pandas import Series,DataFrame
import pandas as pd

2.创建Series取索引

Series对象有loc和iloc成员变量,如下图所示:
loc的数据类型为pandas.core.indexing,_LocIndexer
iloc的数据类型为pandas.core.indexing,_iLocIndexer
用loc进行索引时,中括号[ ]中的值必须是索引的真实值;
用iloc进行索引时,中括号[ ]中的值必须是整数,与列表list索引取值类似,例如obj.iloc[2]就是取第3行的值。

image.png

3.Pandas基本数据类型-DataFrame

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型 。
Dataframe既有行索引也有列索引,它可以被看做由 Series组成的字典(共用同一个索引)。
跟其他类似的数据结构相比(如R的dataframe), Data frame中面向行和面向列的操作基本上是平衡的。
其实, Dataframe中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。

3.1 可以用于构造DataFrame的数据

类型 说明
二维ndarray 数据矩阵,还可以传入行和列
由列表或元组成的字典 每个序列会变成DataFrame中的一列,所有序列的长度必须相同
Numpy的结构化/记录数组 类似于"由列表组成的字典"
由Series组成的字典 每个Series会形成1列
由字典组成的字典 各内层字典会成为1列
字典或者Series的列表 各项会成为DataFrame的1行,字典键的并集成为列

简单例子如下:

from pandas import DataFrame
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Neveda'],
       'year':[2000, 2000, 2002, 2001, 2002],
       'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
df = DataFrame(data)
df

上面一段代码的运行结果如下:


image.png

自定义列的顺序,代码如下:

from pandas import DataFrame
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Neveda'],
       'year':[2000, 2000, 2002, 2001, 2002],
       'pop':[1.5, 1.7, 3.6, 2.4, 2.9]}
df = DataFrame(data,columns=['year','state','pop'])
df
image.png

3.2 读取DataFrame中的数据

有两种方式读取数据:

  1. 通过类似字典键索引的方式:


    image.png

    2.通过属性的方式:


    image.png

3.3 DataFrame增加列

给“财务”列赋值一个标量


image.png

给“财务”列赋值一组值


image.png

用旧列产生新列
image.png

3.4 DataFrame删除列

删除"地区_上海"列:del df['地区_上海']

3.5 DataFrame转置

image.png

3.6 DataFrame取值

image.png

4.Pandas快速进阶

4.1 DataFrame创建

创建行和列都为自定义值的DataFrame

from pandas import DataFrame
import numpy as np
kwargs = dict(
    index = ['上海','北京','广州','天津'],
    columns = ['one', 'two', 'three', 'four']
)
df = DataFrame(np.arange(16).reshape(4,4), **kwargs)
df
image.png

4.2 DataFrame删除多行

image.png

4.3 DataFrame删除多列

image.png

4.4 DataFrame选出多行

选出第2、 3行,即选出索引为1、2的行,代码如下:
注意,df.iloc 不是方法,是类似于列表list的可迭代对象,所以后面必须接中括号[ ]

image.png

4.5 DataFrame选出多列

选出第2、 3列,即选出索引为1、 2的列,代码如下:


image.png

在不知道列名的情况下实现:


image.png

练习

Step 1. 导入相应的模块

import pandas as pd
import numpy 
from pandas import Series,DataFrame
import matplotlib.pyplot as plt

Step 2. 给定的原始数据集

# Create an example dataframe about a fictional army
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'],
            'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'],
            'deaths': [523, 52, 25, 616, 43, 234, 523, 62, 62, 73, 37, 35],
            'battles': [5, 42, 2, 2, 4, 7, 8, 3, 4, 7, 8, 9],
            'size': [1045, 957, 1099, 1400, 1592, 1006, 987, 849, 973, 1005, 1099, 1523],
            'veterans': [1, 5, 62, 26, 73, 37, 949, 48, 48, 435, 63, 345],
            'readiness': [1, 2, 3, 3, 2, 1, 2, 3, 2, 1, 2, 3],
            'armored': [1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1],
            'deserters': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
            'origin': ['Arizona', 'California', 'Texas', 'Florida', 'Maine', 'Iowa', 'Alaska', 'Washington', 'Oregon', 'Wyoming', 'Louisana', 'Georgia']}

Step 3. 根据原始数据集创建一个DataFrame,并赋值给变量army

army = DataFrame(raw_data,columns=raw_data.keys())

Step 4. 设置给定数据中的origin字段为DataFrame的列名,即columns的值,结果如下所示

army.index = army.origin
del army['origin']
army
image.png

Step 5. 打印列名为veterans的所有值,效果如下:

army['veterans']
image.png

Step 6. 打印列名为 'veterans' 和 'deaths' 的所有数据

army[['veterans','deaths']]
image.png

Step 7. 打印出所有的列索引的值

army.columns
image.png

Step 8. 筛选出列 regiments 的值不为"Dragoons"的所有数据,如下所示
方法一:

army.iloc[army['regiment'].values != 'Dragoons']

方法二:

army[army['regiment'] != 'Dragoons']

方法二又等同于army.iloc[army['regiment'] != 'Dragoons']

image.png

附加题:筛选出如下所示的数据, 即第3到7行,第3到6列的所有数据

army.iloc[range(3,8)][army.columns[3:7]]
image.png

想学习更多关于Pandas的知识,请查看作者的《Pandas入门2》
链接:https://www.jianshu.com/p/2ca0ef0d659f

你可能感兴趣的:(Pandas入门)