pandas数据预处理

pandas数据预处理

  • pandas及其数据结构
    • pandas简介
      • Series数据结构及其创建
      • DataFrame数据结构及其创建
  • 利用pandas导入导出数据
    • 导入外部数据
      • 导入数据文件
    • 导出外部数据
      • 导出数据文件
  • 数据概览及预处理
    • 数据概览分析
      • 利用DataFrame的常用属性
      • 利用DataFrame的常用方法
    • 数据清洗
      • 缺失值处理
        • 删除法
        • 替换法
      • 重复值处理
        • 去重
      • 异常值检测与处理
      • 数据抽取与合并
        • 数据抽取
        • 数据合并
      • 数据增删改
      • 数据转换
  • 数据的描述性统计分析
    • 数据排序
    • 常见数据计算
      • 数值型特征的描述性统计
      • 类别型特征的描述统计
  • 分组统计分析
    • 数据分组
    • 分组聚合

pandas及其数据结构

pandas简介

pandas是Python语言的一个第三方库,开放源码,提供高性能、易于使用的数据结构和数据分析工具。pandas是一个强大的分析结构化数据的工具集,基于numpy实现的。
pandas数据预处理_第1张图片

Series数据结构及其创建

pandas的核心是Series和DataFrame两大数据结构

  • Series数据结构是用于存储一个序列的一维数组,而DataFrame数据结构则是用于存储复杂数据的二维数据结构。
  • Series是一种类似于一维数组的对象,它是由一组数据,这组数据可以是Numpy中任意类型的数据,以及一组与之相关的数据标签组成。
  • Series对象的内部结构是由两个相互关联的数组组成,即数值和索引。
    pandas数据预处理_第2张图片
    Series类型是带索引的一维数组对象。包含了一个值序列,并且包含了数据标签,称为索引(index),可通过索引来访问数组中的数据。
    Series的创建格式:
    pandas.Series(data[, index])
    函数中的参数:
    data是输入给Series构造器的数据。
    index是Series对象中数据的标签(即索引)。
    例如:
    pandas数据预处理_第3张图片
    pandas数据预处理_第4张图片
    pandas数据预处理_第5张图片
    pandas数据预处理_第6张图片
    pandas数据预处理_第7张图片
    pandas数据预处理_第8张图片

DataFrame数据结构及其创建

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。
分别有行索引和列索引。
常用于表达二维数组,也可以表达多维数组。DataFrame的创建格式:
pandas数据预处理_第9张图片
pandas.DataFrame(data[,index[,columns]])
函数中的参数说明:

  • data是输入给DataFrame构造器的数据,见下页。
  • Index是DataFrame对象中行索引的标签。
  • columns是DataFrame对象中列索引的标签。
    pandas数据预处理_第10张图片
    pandas数据预处理_第11张图片
    pandas数据预处理_第12张图片

利用pandas导入导出数据

导入外部数据

导入数据文件

pandas数据预处理_第13张图片
pandas数据预处理_第14张图片
pandas数据预处理_第15张图片

导出外部数据

导出数据文件

pandas数据预处理_第16张图片

数据概览及预处理

数据概览分析

数据概览是在数据分析之前对数据的规模、数据的类型及数据的质量等进行概览性的分析
pandas数据预处理_第17张图片

利用DataFrame的常用属性

pandas数据预处理_第18张图片

利用DataFrame的常用方法

pandas数据预处理_第19张图片
pandas数据预处理_第20张图片
pandas数据预处理_第21张图片

数据清洗

数据清洗是通过预处理,剔除数据中的噪声,恢复数据完整性和一致性
pandas数据预处理_第22张图片

缺失值处理

删除法

pandas数据预处理_第23张图片

替换法

pandas数据预处理_第24张图片

重复值处理

去重

pandas数据预处理_第25张图片

异常值检测与处理

pandas数据预处理_第26张图片

数据抽取与合并

数据抽取

pandas数据预处理_第27张图片

数据合并

pandas数据预处理_第28张图片
pandas数据预处理_第29张图片
pandas数据预处理_第30张图片
pandas数据预处理_第31张图片
pandas数据预处理_第32张图片
pandas数据预处理_第33张图片

数据增删改

pandas数据预处理_第34张图片
pandas数据预处理_第35张图片
pandas数据预处理_第36张图片

数据转换

pandas数据预处理_第37张图片

数据的描述性统计分析

数据排序

pandas数据预处理_第38张图片
pandas数据预处理_第39张图片

常见数据计算

pandas数据预处理_第40张图片

数值型特征的描述性统计

pandas数据预处理_第41张图片

类别型特征的描述统计

pandas数据预处理_第42张图片
pandas数据预处理_第43张图片

分组统计分析

数据分组

pandas数据预处理_第44张图片
pandas数据预处理_第45张图片

分组聚合

pandas数据预处理_第46张图片
pandas数据预处理_第47张图片
pandas数据预处理_第48张图片

你可能感兴趣的:(python数据分析,pandas,数据分析,python)