Pandas是一个免费的Python库常用于数据分析。本库基于Python NumPy 库开发而来。其包含的数据结构有Series(一维数组结构)与 DataFrame(二维数组结构)。
本文主要介绍一些pandas库中常用的功能及函数方法,供开发的过程中参考。此外,本人此时仅是个准研一学生,文章中诸多技术细节可能并不是很严谨,如有错误请评论区指正。
参考:C语言中文网 , 菜鸟教程
pandas.Series( data, index, dtype, name, copy)
Series可以看做一个数组,但不同于一般数组,Series中包含了一些其他内容,比如:
data:一组数据(可以是列表、ndarray 类型)。
index:数据索引标签,如果不指定,默认从 0 开始(被称为隐式索引)。
如果data传入的参数是字典,那么字典中的键就是值的索引。
dtype:数据类型,默认会自己判断。
name:设置名称。
copy:拷贝数据,默认为 False。
对于Series的访问,与python中的列表访问相似。Series可以通过从0开始的下标访问,也可以通过本身设置的索引进行访问。
Series常用属性:
axes: 以列表的形式返回所有行索引标签。
dtype: 返回对象的数据类型。
empty: 返回一个布尔值,判断是否为空。
ndim: 返回输入数据的维数。
但它本身就是个一维数组,不管咋都返回1。(不晓得为啥有这个)
size: 返回输入数据的元素数量。
values: 以 ndarray 的形式返回 Series 对象。
index: 返回一个RangeIndex对象,用来描述索引的取值范围。
隐式索引和显示索引的返回形式不一样。
Series常用方法:
- head() tail()
查看数据, 其参数是返回前(后)n个数据,默认参数为5。- isnull() nonull()
检测缺失值,如果对象中存在空值,则返回相应的布尔值,其中每个元素都会返回相应的值。- 增删改查:
增加:使用新的索引赋值就相当于增加,eg:s[“new”]=002
删除:可以使用del的方法,根据索引删除。
pandas.DataFrame( data, index, columns, dtype, copy)
DataFrame是一个二维的数据结构。其参数含义为:
data: 输入的数据,可以是 ndarray,series,list,dict,标量以及一个 DataFrame。
单列表、嵌套列表、字典嵌套列表、列表嵌套字典都可以创建。
index: 行标签,如果没有传递 index 值,则默认行标签是 np.arange(n),n 代表 data 的元素个数。
columns: 列标签,如果没有传递 columns 值,则默认列标签是 RangeIndex (0, 1, 2, …, n)。
dtype:表示每一列的数据类型。
copy: 默认为 False,表示复制数据 data。
注意:当结构中的某个数据元素为空或者不存在,则显示未NaN
DataFrame操作
DataFrame常用属性&方法
具体使用方法就不在此展开
T: 行和列转置。
axes: 返回一个仅以行轴标签和列轴标签为成员的列表。
dtypes: 返回每列数据的数据类型。
empty: DataFrame中没有数据或者任意坐标轴的长度为0,则返回True。
ndim: 轴的数量,也指数组的维数。
shape: 返回一个元组,表示了 DataFrame 维度。
size: DataFrame中的元素数量。
values: 使用 numpy 数组表示 DataFrame 中的元素值。
head(): 返回前 n 行数据。
tail(): 返回后 n 行数据。
shift(): 将行或列移动指定的步幅长度