pandas数据结构知识点

pandas数据结构
1、引言
➢Pandas 是基于NumPy的一-种工具,该工具是为了解决数据分析任务而创建的。
➢Pandas纳入了大量库和一-些标准的数据模型,提供了高效地操作大型数据集所需的工具。
➢Pandas 提供了大量能使我们快速便捷地处理数据的函数和方法。
➢Pandas是Python的一-个数据分析包,最初于2008年4月开发,2009年底开源,目前由PyData开发团队继续开发和维护。
➢Pandas最初被作为金融数据分析I具而开发出来,也为时间序列分析提供了很好的支持。
2、pandas库介绍
◆pandas是python第三方库,提供高性能易用数据类型和分析工具
◆pandas基于numpy实现,常与numpy和matplotlib一同使用
◆pandas中有两大核心数据结构: Series(-维数据)和DataFrame (多特征数据,既有行索引,又有列索引)
3、pandas库介绍
◆Series:
➢–维数组,与Numpy中的一-维array类似。
➢Series、 numpy中的一维array与 Python基本的数据结构List 也很相近,其区别是: List 中的元素可以是不同的数据类型,而array和Series中则只允许存储相同的数据类型。
➢Series可以更有效的使用内存 ,提高运算效率。
◆Time- Series:以时间为索引|的Series。
◆DataFrame :带标签且大小可变的二维表格型数据结构,可以将DataFrame理解为Series的容器。
◆Panel :三维的数组,可以理解为DataFrame的容器。
Series
◆Series是一-种类似于一维数组的对象,它由一维数组(各种numpy数据类型)以及一组与之相关的数据标签(即索引)组成。
◆Series创建函数:

pandas.Series(data,index,dtype,copy)

◆Series是一-种类似于一维数组的对象,它由一维数组(各种numpy数据类型)以及一组与之相关的数据标签(即索引)组成
◆Series的创建:
使用Python数组创建
使用numpy数组创建
使用python字典创建
注意:与字典不同的是: Series允许索弓|重复
◆Series的字符串表现形式为:索引在左边,值在右边
◆如果没有为数据指定索引,则自动创建一个0到N-1 (N为数据的长度)的整数型索引
◆可以通过Series的values和index属性获取其数组表示形式和索弓|对象
◆与普通numpy数组相比,可以通过索引的方式选取Series中的单个或一组值
◆Series中很重要的一个功能是:它会在算术运算中自动对齐不同索引|的数据
◆Series对象本身及其索引都有一个name属性
◆Series的索引可以通过赋值的方式就地修改
DataFrame
◆DataFrame是一个表格型的数据结构, 它含有一-组有序的列, 每列可以是不同的值类型(数值、字符串、布尔值等)
◆DataFrame既有行索弓|也有列索引,它可以被看做由Series组成的字典(共用同-一个索引)
◆跟其他类似的数据结构相比(如R语言的data.frame),DataFrame中面向行和面向列的操作基本上是平衡的
◆DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)

DataFrame特点
◆潜在的列是不同的类型
◆大小可变
◆标记轴((行和列))
◆可以对行和列执行算术运算
DataFrame构造函数

pandas.DataFrame( data, index, columns, dtype, copy)

◆由等长列表或numpy数组组成的字典创建DataFrame
◆DataFrame结果会自动加,上索引(跟Series- -样),且全部会被有序排列
◆通过类似字典标记的方式或属性的方式,可以将DataFrame的列获取为一 个Series
◆返回的Series拥有原DataFrame相同的索引,且其name属性也已经被相应地设置好了
◆列可以通过赋值的方式进行修改
◆例如,给那个空的"delt" 列赋上一个标量值或一组值
◆将列表或数组赋值给某个列时,其长度必须跟DataFrame的长度 相匹配
◆如果赋值的是一个Series,就会精确匹配DataFrame的索引,所有空位都将被填上缺失值
◆为不存 在的列赋值会创建出一个新列
◆关键字de|用于删除列
◆将嵌套字典(也就是字典的字典)传给DataFrame,它就会被解释为:外层字典的键作为列,内层键则作为行索引
◆也可以对上述结果进行转置
◆跟Series-样,values属性也会以二 维ndarray的形式返回DataFrame中的数据
◆如果DataFrame各列的数据类型不同,则数组的数据类型就会选用能兼容所有列的数据类型

你可能感兴趣的:(pandas数据结构知识点)