pandas与numpy数据结构

Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。(下面的表格只能截图了,mweb编辑的文章不能直接发布到简书)

pandas数据结构

①Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:_List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。_

②Time- Series:以时间为索引的Series。

③DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。

④Panel :三维的数组,可以理解为DataFrame的容器。

python本身的数据结构

1. list

Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。可以使用append()方法来添加列表项。可以使用 del 语句来删除列表的的元素。

pandas与numpy数据结构_第1张图片
list表达式
pandas与numpy数据结构_第2张图片
list包含的函数
pandas与numpy数据结构_第3张图片
list包含的方法

2.元组

元组与列表类似,不同之处在于元组的元素不能修改。

元组使用小括号,列表使用方括号。

元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可。

元组中只包含一个元素时,需要在元素后面添加逗号;

元组可以使用下标索引来访问元组中的值:

tup2[1:5]: (2, 3, 4, 5)

元组中的元素值是不允许修改的,但我们可以对元组进行连接组合

元组中的元素值是不允许删除的,但我们可以使用del语句来删除整个元组

元组运算


pandas与numpy数据结构_第4张图片
元组运算

3.字典

字典是另一种可变容器模型,且可存储任意类型对象。

字典的每个键值(key=>value)对用冒号(:)分割,每个对之间用逗号(,)分割,整个字典包括在花括号({})中

d = {key1 : value1, key2 : value2 }

键必须是唯一的,但值则不必。

访问字典里的值:把相应的键放入熟悉的方括弧

向字典添加新内容的方法是增加新的键/值对,修改或删除已有键/值对如下实例:

dict = {'Name': 'Zara', 'Age': 7, 'Class': 'First'};

dict['Age'] = 8; # update existing entry

dict['School'] = "DPS School"; # Add new entry

能删单一的元素也能清空字典,清空只需一项操作。

pandas与numpy数据结构_第5张图片
字典内置函数
pandas与numpy数据结构_第6张图片
字典内置方法

Numpy数据结构

1. ndarray 数组

* ndarray是一个通用的同构数据多维容器,即所有元素必须是相同类型

* 每个数组都有一个shape(一个表示各维度大小的元组)和一个dtype(说明数组数据类型) NumPy数组的维数称为秩(rank),一维数组的秩为1,二维数组的秩为2 data=array([[1, 9, 6], [2, 8, 5], [3, 7, 4]])

pandas与numpy数据结构_第7张图片
ndarry属性

基本的索引和切片

arr=np.arange(10)

arr[5:8]切片第6个到第8个元素

视图上的任何修改都会直接反映到源数组上。如arr[5:8]=12,则源数组的第6到第8个元素都会赋值为12.

arr[5:8].copy() 切片副本

arr2d[:2,1:] 切片第0,1行向量与第1,2列向量交组成的数组

names = np.array(['Bob','Joe'])

arr[names == 'Bob'] 布尔型索引

花式索引

arr = np.empty((8,4))

for i in range(8):

arr[i] = i

整数列索引 arr[[4,3,0,6]], arr[[-3,-5,-7]]

多个索引组

arr = np.arange(32).reshape((8,4))

arr[[1,5,7,2],[0,3,1,2]] 得到 array([4, 23, 29, 10])

arr[[1,5,7,2]][:,[0,3,1,2]]

得到

array([[4,7,5,6],

[20,23,21,22],

[28,31,29,30],

[8,11,9,10]])

np.ix_同样可以得到以上结果

arr[np.ix_([1,5,7,2],[0,3,1,2])]

花式索引总是将数据复制到新数组中

其他方法和属性

pandas与numpy数据结构_第8张图片
其他方法和属性

布尔值在计算过程中可以被当做0或1处理

例如,result = 1* (cond1 -cond2) + 2*(cond2 & -cond1) + 3 * -(cond1 | cond2)

数组文件的输入输出

arr=np.arange(10)

np.save('some_array', arr) 将数组以二进制格式,some_array.npy名称保存在磁盘上。

np.load('some_array.npy')加载

np.savez('array_archive.npz', a=arr, b=arr) 将多个数组保存在压缩文件中

存取文本文件

arr = np.loadtxt('array_ex.txt',delimiter=',')将文件中数据加载到二维数组中

np.savetxt执行相反操作

线性代数计算

x.dot(y) 相当于np.dot(x,y)

inv(mat) 对可逆矩阵求逆

……

随机数生成

 * numpy.random模块

 * np.random.normal(size=(4,4))生成标准正态分布的4*4样本数组

 * seed 确定随机数生成器的种子

 * permutation 返回一个序列的随机排列或返回一个随机排列的范围

 * shuffle 对一个序列就地随机排列

 * rand 产生均匀分布的样本值

 * randint 从给定的上下限范围随机取整数

pandas数据结构

1.Series结构 类似于一维数组的对象,索引在左边,值在右边,若不指定索引,会自动创建一个0~N-1的整数型索引 In: obj2 = Series([4,7,-5,3], index=['d','b','a','c']) Out: d 4 b 7 a -5 c 3

pandas与numpy数据结构_第9张图片
series结构

2.Pandas DataFrame结构 DataFrame是一个表格型数据结构,每列可以是不同的值类型(数值、字符串、布尔值等),它可以被看成由Series组成的字典,它既有行索引也有列索引。以一个或多个二维块存放(而不是列表、字典或别的一维数据结构) 构建DataFrame的方法:

pandas与numpy数据结构_第10张图片
DataFrame结构

索引对象

1.pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。index对象是不可以修改的,这样才能使index对象在多个数据结构之间安全共享。

2.重新索引 reindex

   obj2 = obj.reindex(['a','b','c','d','e'])

   按照reindex新索引进行重排,如果某个索引值不存在,就引入缺失值,

    obj.reindex(['a','b','c','d','e'], fill_value=0), 将缺失值赋值为0

   使用ffill可以实现前向值填充:

   obj3 = Series(['blue','pureple','yellow'], index=[0,2,4])

   obj3.reindex(range(6),method='ffill')

   fill/pad 前向填充(或搬运)值

   bfill/backfill 后向填充值

如果只传入一个序列则会重新索引行

使用columns关键字即可重新索引列:

frame.reindex(columns=states)

同时重新索引:frame.reindex(index=['a','b','c','d'], method='ffill', columns=states)

limit 前向或后向填充时的最大填充量

ix使重新索引更加简洁:frame.ix[['a','b','c','d'],states]

1.其他功能

2.汇总和计算描述统计

pandas与numpy数据结构_第11张图片
统计描述

缺失值处理

pandas与numpy数据结构_第12张图片
缺失值处理

层次化索引

data=Series(np.random.randn(10),index=[['a','a','a','b','b','b','c','c','d','d'],[1,2,3,1,2,3,1,2,2,3]] In: data.index Out: Multiindex[('a',1),('a',2)....] 层次化索引在数据重塑和基于分组的操作(如透视表生成)中扮演着重要角色, data.unstack()转化为一个DataFrame,其逆运算是stack data.unstack().stack()

对于DataFrame每条轴都可以有分层索引

frame = DataFrame(np.arange(12).reshape((4,3)), index=[['a','a','b','b'],[1,2,1,2]],columns=[['Ohio','Ohio','Colorado'],['Green','Red','Green']])


数据加载、存储与文件格式

1. 读写文本格式数据

pandas与numpy数据结构_第13张图片
读写文本格式数据

2.逐块读取文本文件 

在处理很大的文件时,可能只想读取文件的一小部分或逐块对文件进行迭代 pd.read_csv(‘ch06/ex6.csv’, nrow=5) 只读取几行 chunker=pd.read_csv(‘ch06/ex6.csv’,chunksize=1000) #设置每次处理行数

tot = Series([])

for piece in chunker:

tot = tot.add(piece['key'].value_counts(), fill_value=0)

tot =tot.ordr(ascending=False)

3.将数据写出到文本格式 

data.to_csv('ch06/out.csv') data.to_csv(sys.stout, sep='|') #指定分隔符 

data.to_csv(sys.stout, na_rep='NULL')

4.手工处理分隔符格式

直接使用Python内置的csv模块

import csv

f = open('cho6/ex7.csv')

reader = csv.reader(f)

for line in reader:

print line

这样得到一系列列表

为时数据格式合乎要求,做如下操作

lines = list(csv.reader(open('cho6/ex7.csv')))

header, values = lines[0],lines[1:]

data_dict = {h: v for h, v in zip(header, zip(*values))}

定义子类处理各种分隔符:

class my_dialect(csv.Dialect):

lineterminator = '\n'

delimiter = ';'

quotechar = '"'

reader = csv.reader(f, diaect=my_dialect)


JSON数据

JSON= JavaScript Object Notation

1.加载json数据

result=json.loads(obj)

2.将Python对象转为json格式

asjson=json.dumps(result)

3.转换为DataFrame结构

siblings = DataFrame(result['siblings'],columns=['name','age'])

4.web信息收集

from lxml.html import parse

from urllib2 import urlopen

parsed =parse(urlopen('http://www.baidu.com'))

doc = parsed.getroot()

获取该页面的所有URL

urls = [lnk.get('href') for lnk in doc.findall('.//a')]

a.pop() # 把最后一个值4从列表中移除并作为pop的返回值

a.append(5) # 末尾插入值,[1, 2, 3, 5]

a.index(2) # 找到第一个2所在的位置,也就是1

a[2] # 取下标,也就是位置在2的值,也就是第三个值3

a += [4, 3, 2] # 拼接,[1, 2, 3, 5, 4, 3, 2]

a.insert(1, 0) # 在下标为1处插入元素0,[1, 0, 2, 3, 5, 4, 3, 2]

a.remove(2) # 移除第一个2,[1, 0, 3, 5, 4, 3, 2]

a.reverse() # 倒序,a变为[2, 3, 4, 5, 3, 0, 1]

a[3] = 9 # 指定下标处赋值,[2, 3, 4, 9, 3, 0, 1]

b = a[2:5] # 取下标2开始到5之前的子序列,[4, 9, 3]

c = a[2:-2] # 下标也可以倒着数,方便算不过来的人,[4, 9, 3]

d = a[2:] # 取下标2开始到结尾的子序列,[4, 9, 3, 0, 1]

e = a[:5] # 取开始到下标5之前的子序列,[2, 3, 4, 9, 3]

f = a[:] # 取从开头到最后的整个子序列,相当于值拷贝,[2, 3, 4, 9, 3, 0, 1]

a[2:-2] = [1, 2, 3] # 赋值也可以按照一段来,[2, 3, 1, 2, 3, 0, 1]

g = a[::-1] # 也是倒序,通过slicing实现并赋值,效率略低于reverse()

a.sort()

print(a) # 列表内排序,a变为[0, 1, 1, 2, 2, 3, 3]

你可能感兴趣的:(pandas)