机器学习numpy与pandas基础--pandas

2、pandas

Pandas引入约定:
from pandas import Series,DataFrame
import pandas as pd

2.1pandas数据结构

pandas数据结构介绍;

  • Series:由一组数据(各种numpy数据类型)以及一组与之相关的数据标签(索引)组成
  • DateFrame:一种表格类型的数据结构,既有行索引,也有列索引。每列可以是不同的值类型(数值、字符串、布尔值),可以看作是Series组成的字典。

2.1.1Series

通过一维数组创建Series:
机器学习numpy与pandas基础--pandas_第1张图片
通过字典的方式创建Series:
机器学习numpy与pandas基础--pandas_第2张图片
Series应用于NumPy数组运算:
NumPy数组运算在Series中均可使用,而且索引与相对应的数值映射不会改变。
机器学习numpy与pandas基础--pandas_第3张图片

Series自动对齐:
机器学习numpy与pandas基础--pandas_第4张图片
不同Series之间进行算术运算,会自动对齐不同索引的数据。

Series缺失值检测:

  • pandas中的isnull和notnull函数可用于Series缺失值检测
  • isnull和notnull都返回一个布尔类型的Series。
    机器学习numpy与pandas基础--pandas_第5张图片
    Series及其索引的name属性:
    Series对象本身及其索引都有一个name属性,可赋值设置。

2.1.2DataFrame

通过二维数组创建DataFrame:
机器学习numpy与pandas基础--pandas_第6张图片
通过字典的方式创建DataFrame:
机器学习numpy与pandas基础--pandas_第7张图片
索引对象:

  • 不管是Series对象还是DataFrame对象,都有索引对象
  • 索引对象负责管理轴标签和其他元数据
  • 通过索引可从Series或者DataFrame中取值以及赋值
  • Series或者DataFrame中自动对齐功能是依靠索引完成

通过索引从Series中取值:
机器学习numpy与pandas基础--pandas_第8张图片
通过索引从DataFrame中取值:
机器学习numpy与pandas基础--pandas_第9张图片

2.2pandas基本功能

汇总和计算描述统计:

  • 常用的数学和统计方法
  • 相关系数和协方差
  • 唯一值、值计数以及成员资格
    机器学习numpy与pandas基础--pandas_第10张图片
    机器学习numpy与pandas基础--pandas_第11张图片
    相关系数与协方差:
    机器学习numpy与pandas基础--pandas_第12张图片
    机器学习numpy与pandas基础--pandas_第13张图片
    唯一值、值计数以及成员资格:
  • unique:用于获取Series唯一值数组
  • value_counts:用于计算一个Series中各值出现的频率
  • isin:可用于选取Series中或者DataFrame中列的数据的子集
    机器学习numpy与pandas基础--pandas_第14张图片
    机器学习numpy与pandas基础--pandas_第15张图片

2.3处理缺失数据

  • 缺失值检测
  • 过滤缺失数据
  • 填充缺失数据
    机器学习numpy与pandas基础--pandas_第16张图片
    机器学习numpy与pandas基础--pandas_第17张图片
    机器学习numpy与pandas基础--pandas_第18张图片
    机器学习numpy与pandas基础--pandas_第19张图片

2.4层次化索引

机器学习numpy与pandas基础--pandas_第20张图片
机器学习numpy与pandas基础--pandas_第21张图片
机器学习numpy与pandas基础--pandas_第22张图片

你可能感兴趣的:(Python,python,pandas)