1.简介
导入
import pandas as pd
三种数据类型
1.series
>>> x=pd.Series([0.25,0.5,0.75,1.0])
>>> x
0 0.25
1 0.50
2 0.75
3 1.00
dtype: float64
values
>>> x.values
array([0.25, 0.5 , 0.75, 1. ])
index
>>> x.index
RangeIndex(start=0, stop=4, step=1)
2.创建series对象
创建PANDAS的series的公式
>>>pd.Series(data,index=index)
data可以是列表,或者数组,index默认是整数序列
data是字典的时候,index是一个默认排序的字典键
>>> pd.Series({2:'a',1:'b',3:'c'})
2 a
1 b
3 c
dtype: object
显示指定索引,进行筛选
>>> pd.Series({2:'a',1:'b',3:'c'},index=[3,2])
3 c
2 a
dtype: object
3.pandas的dataframe对象
二维数组
通过series的字典创建
>> x1={'ca':1234,'te':2644,'ne':1965,'fl':1955,'il':1288}
>>> x2=pd.Series(x1)
>>> x2
ca 1234
te 2644
ne 1965
fl 1955
il 1288
dtype: int64
>>> y1={'ca':4239,'te':6956,'ne':1412,'fl':1703,'il':1499}
>>> y2=pd.Series(y1)
>>> y2
ca 4239
te 6956
ne 1412
fl 1703
il 1499
dtype: int64
>>> z=pd.DataFrame({'x2':x2,'y2':y2})
>>> z
x2 y2
ca 1234 4239
te 2644 6956
ne 1965 1412
fl 1955 1703
il 1288 1499
通过二维数组创建
>>> pd.DataFrame(np.random.rand(3,2),columns=['foo','bar'],index=['a','b','c'])
foo bar
a 0.596094 0.436694
b 0.843498 0.843321
c 0.243692 0.609265
通过结构化数组创建
>>> A = np.zeros(3,dtype=[('a','i8'),('b','f8')])
>>> A
array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('a', '), ('b', ')])
>>> pd.DataFrame(A)
a b
0 0 0.0
1 0 0.0
2 0 0.0
4.pandas的index的对象
index是一个不可变数组(或有序集合)
交集
>>> a=pd.Index([1,3,5,7,9])
>>> b=pd.Index([2,3,5,7,11])
>>> a&b
Int64Index([3, 5, 7], dtype='int64')
并集
>>> a|b
Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
异或
>>> a^b
Int64Index([1, 2, 9, 11], dtype='int64')