导入pandas
import pandas as pd
Pandas的数据结构
1.Series
Series是一种类似于一维数组的对象,由两部分组成
- values: 一组数据(ndarry类型)
- index: 相关的数据索引标签
1)Series的创建
(1)由列表或numpy数组创建
&emps;默认索引为0到N-1的整数型索引
data1 = [1, 2, 3, 4, 5]
s1 = Series(data=data1) # 索引为0-4
index = ["lucy","mery","tom","jack","tony"]
data = np.random.randint(0,100,size=5)
s3 = Series(data=data, index=index, name="Score",dtype=np.float)
(2)由字典创建
dic = { "lucy":60, "mery":80, "tom":76, "tony":92 }
Series(data=dic, index=["lucy","mery","nokey"])
字典的键会被自动设置为索引
如果显示指定index,index的优先级会高于字典的键
2)Series的索引和切片
可以使用中括号取单个索引(此时返回的是元素类型),或者中括号里一个列表取多个索引(此时返回的仍然是一个Series类型)。分为显示索引和隐式索引:
data = np.random.randint(0,100,size=5)
index = list("ABCDE")
s = Series(data=data, index=index)
(1)显式索引:
1.字典访问
s["A"] ---> 12
2.属性访问
s.A ---> 12
3.Series访问
s.loc["A"] ---> 12
4.多元素访问,使用列表做索引
s.loc[["A", "B"]]
---> A 12
B 82
dtype: int32
5.Bool列表访问
s.loc[[True, False,True, False,False]]
---> A 12
C 6
dtype: int32
6.使用values属性获取series对象的值
s[s.values > 60]
---> B 82
E 80
dtype: int32s.loc[s.values > s.values.mean()]
---> B 82
D 49
E 80
dtype: int32
(2)隐式索引
1.数组访问
s[0] ---> 12
2.series隐式访问
s.iloc[0] ---> 12s.iloc[[0,1,3,1]]
---> A 12
B 82
D 49
B 82
dtype: int32
切片
显式索引切片
s.loc["A":"C"]
---> A 12
B 82
C 6
dtype: int32
隐式索引切片(左闭右开)
s.iloc[0:2]
---> A 12
B 82
dtype: int32
3)Series 的属性
- s.shape 形状
- s.size 长度
- s.index 索引
- s.values 值
- s.head(n) 查看前n个值
- s.tail(n) 查看后n个值
可以使用pd.isnull(),pd.notnull(),或自带isnull(),notnull()函数检测缺失数据
s[s.notnull()] # 检测空值
s.isnull().any() # 检查是否存在空值
- s.name 显示名称
- s.sort_values() 根据值排序
- s.sort_index() 根据索引排序
- s.value_counts() 统计每个值出现次数
Series的运算:
在运算中自动对齐不同索引的数据,如果索引不对应,补NaN
- s.add() 加
- s.sub() 减
- s.mul() 乘
- s.div() 除
2.DataFrame
DataFrame是一个【表格型】的数据结构,可以看做是【由Series组成的字典】(共用同一个索引)。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。
- 行索引:index
- 列索引:columns
- 值:values(numpy的二维数组)
1)DataFrame的创建
最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称,以字典的值(一个数组)作为每一列。
此外,DataFrame会自动加上每一行的索引(和Series一样)。
同Series一样,若传入的列与字典的键不匹配,则相应的值为NaN。
index = ["lucy","mery","tom","jack","rose","tony"]
columns = ["python","java"]
data = np.random.randint(0,100,size=(6,2))
df = DataFrame(data=data, index=index, columns=columns)
以字典的形式构造dataframe
dic = {
"python":np.random.randint(0,100,size=6),
"java":np.random.random(size=6),
"name":["lucy","mery","tom","jack","rose","tony"]
}
df2 = DataFrame(data=dic)
从文件中读取DataFrame对象
df = pd.read_excel("文件名.xlsx"sheet_name="partitions",header=1, index_col=None)
- sheet_names 制定sheet的索引或名字
- header 指定哪些行作为列标签读取
- index_col 指定哪些列作为行标签读取
使用Series构造DataFrame
python = Series(data=np.random.randint(0,100,size=5), index=["lucy","mery","tom","jack","rose"], name="Python")
DataFrame(data=python)
2)DataFrame的索引
dic = {
"python":np.random.randint(0,100,size=6),
"java":np.random.random(size=6),
"name":["lucy","mery","tom","jack","rose","tony"]
}
df = DataFrame(data=dic)
DataFrame访问
df.loc[2,"name"] = "JAREY123"
字典访问
df["name"]
属性访问
df.name
以列表作为索引访问,返回的是一个DataFrame对象
df[["java","python"]]
隐式访问,是把dataFrame看成普通的二维数组,所以访问逻辑与二维数组相同
df.iloc[:,[0,1]]
显式索引访问
df.loc[:,"name"]
(1) 对列进行索引
- 通过类似字典的方式
- 通过属性的方式
可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引,且name属性也已经设置好了,就是相应的列名。
(2) 对行进行索引
- 使用.ix[]来进行行索引
- 使用.loc[]加index来进行行索引
- 使用.iloc[]加整数来进行行索引
同样返回一个Series,index为原来的columns。
(3) 对元素索引的方法
- 使用列索引
- 使用行索引(iloc[3,1]相当于两个参数;iloc[[3,3]] 里面的[3,3]看做一个参数)
- 使用values属性(二维numpy数组)
3)DataFrame的运算
(1) DataFrame之间的运算
同Series一样:
在运算中自动对齐相同索引的数据
如果索引不对应,则补NaN
Python 操作符与pandas操作函数的对应表:
Python Operator | Pandas Method(s) |
---|---|
+ |
add() |
- |
sub() , subtract() |
* |
mul() , multiply() |
/ |
truediv() , div() , divide() |
// |
floordiv() |
% |
mod() |
** |
pow() |
(2) Series与DataFrame之间的运算
使用Python操作符:以行为单位操作(参数必须是行),对所有行都有效。(类似于numpy中二维数组与一维数组的运算,但可能出现NaN)
使用pandas操作函数:
- axis=0:以列为单位操作(参数必须是列),对所有列都有效。
- axis=1:以行为单位操作(参数必须是行),对所有行都有效。