pandas使用简介

文章目录

  • 一、pandas是什么?
  • 二、数据结构
    • 1. Series
    • 2.DataFrame
  • 未完待续


一、pandas是什么?

Pandas是一个免费的Python库常用于数据分析。本库基于Python NumPy 库开发而来。其包含的数据结构有Series(一维数组结构)与 DataFrame(二维数组结构)。

本文主要介绍一些pandas库中常用的功能及函数方法,供开发的过程中参考。此外,本人此时仅是个准研一学生,文章中诸多技术细节可能并不是很严谨,如有错误请评论区指正。
参考:C语言中文网 , 菜鸟教程

二、数据结构

1. Series

pandas.Series( data, index, dtype, name, copy)

Series可以看做一个数组,但不同于一般数组,Series中包含了一些其他内容,比如:

data:一组数据(可以是列表、ndarray 类型)。
index:数据索引标签,如果不指定,默认从 0 开始(被称为隐式索引)。
    如果data传入的参数是字典,那么字典中的键就是值的索引。
dtype:数据类型,默认会自己判断。
name:设置名称。
copy:拷贝数据,默认为 False。

对于Series的访问,与python中的列表访问相似。Series可以通过从0开始的下标访问,也可以通过本身设置的索引进行访问。

Series常用属性:

axes: 以列表的形式返回所有行索引标签。
dtype: 返回对象的数据类型。
empty: 返回一个布尔值,判断是否为空。
ndim: 返回输入数据的维数。
   但它本身就是个一维数组,不管咋都返回1。(不晓得为啥有这个)
size: 返回输入数据的元素数量。
values: 以 ndarray 的形式返回 Series 对象。
index: 返回一个RangeIndex对象,用来描述索引的取值范围。
   隐式索引和显示索引的返回形式不一样。

Series常用方法:

  1. head()   tail()
    查看数据, 其参数是返回前(后)n个数据,默认参数为5。
  2. isnull() nonull()
    检测缺失值,如果对象中存在空值,则返回相应的布尔值,其中每个元素都会返回相应的值。
  3. 增删改查:
    增加:使用新的索引赋值就相当于增加,eg:s[“new”]=002
    删除:可以使用del的方法,根据索引删除。

2.DataFrame

pandas.DataFrame( data, index, columns, dtype, copy)

DataFrame是一个二维的数据结构。其参数含义为:

data: 输入的数据,可以是 ndarray,series,list,dict,标量以及一个 DataFrame。
     单列表、嵌套列表、字典嵌套列表、列表嵌套字典都可以创建。
index: 行标签,如果没有传递 index 值,则默认行标签是 np.arange(n),n 代表 data 的元素个数。
columns: 列标签,如果没有传递 columns 值,则默认列标签是 RangeIndex (0, 1, 2, …, n)。
dtype:表示每一列的数据类型。
copy: 默认为 False,表示复制数据 data。

注意:当结构中的某个数据元素为空或者不存在,则显示未NaN

DataFrame操作

  1. 列索引读取:
    通过s[“列名”,“列名”]的方法可以获取到某列或某几列。
  2. 列索引添加:
    与Series的添加相似,通过新的列索引进行添加。
    除了此方法也可以通过insert(loc, column, value, allow_duplicates=False)方法添加。
    其中loc指的是从0开始的第几列
    column指的是列标签(列名)
    allow_duplicates指是否允许列重名,默认为否。
  3. 列索引删除:
    del 和 pop() 都能够删除 DataFrame 中的数据列,eg:
    del d[“列名”]
    d.pop(“列名”)
  4. 添加数据行:
    使用append()函数添加,其参数为 DataFrame or Series/dict-like object, or list of these(参考官方文档)

DataFrame常用属性&方法

具体使用方法就不在此展开
 
T:  行和列转置。
axes:  返回一个仅以行轴标签和列轴标签为成员的列表。
dtypes:  返回每列数据的数据类型。
empty:  DataFrame中没有数据或者任意坐标轴的长度为0,则返回True。
ndim:  轴的数量,也指数组的维数。
shape:  返回一个元组,表示了 DataFrame 维度。
size:  DataFrame中的元素数量。
values:  使用 numpy 数组表示 DataFrame 中的元素值。
head():  返回前 n 行数据。
tail():  返回后 n 行数据。
shift():  将行或列移动指定的步幅长度


未完待续

你可能感兴趣的:(python,scikit-learn,数据挖掘)