Python数据分析与处理---Pandas库介绍

一、Pandas概述

Pandas是数据分析三大剑客之一,是Python的核心数据分析库,它提供了快速、灵活、明确的数据结构,能够简单、直观、快速地处理各种类型的数据,具体介绍如下所示

Pandas能够处理以下类型的数据:

1.与SQL或Excel表类似的数据

2.有序和无序(非固定频率)的时间序列数据

3.带行、列标签的矩阵数据

4.任意其他形式的观测、统计数据集

Pandas提供的两个主要数据结构类Series(一维)与DataFrame(二维),可以处理金融、统计、社会科学、工程等领域里的大多数典型案例,并且Pandas是基于NumPy开发的,可以与其他第三方科学计算库完美集成

Pandas的功能很多,它的优势如下:

1.处理浮点与非浮点数据里的缺失数据,表示为NaN

2.大小可变,例如插入或删除DataFrame等多维对象的列

3.自动、显式数据对齐,显式地将对象与一组标签对齐,也可以忽略标签,在Series、DataFrame计算时自动与数据对齐

4.强大、灵活的分组统计(groupby)功能,即数据聚合、数据转换

5.把Python和NumPy数据结构里不规则、不同索引的数据轻松地转换为DataFrame对象

6.智能标签,对大型数据集进行切片、花式索引、子集分解等操作

7.直观地合并(merge)、连接(join)数据集

8.灵活地重塑(reshape)、透视(pivot)数据集

9.成熟的导入、导出工具,导入文本文件(CSV等支持分隔符的文件)、Excel文件、数据库等来源的数据,导出Excel文件、文本文件等,利用超快的HDF5格式保存或加载数据

10.时间序列;支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列共功能

二、安装Pandas

1.pip命令进行安装

pip install Pandas

2.通过Pycharm编辑器安装

Python数据分析与处理---Pandas库介绍_第1张图片另外,还需要注意以下一点:Pandas有一些依赖库

例如,当通过Pandas读取Excel文件时,如果只安装Pandas模块,还需要安装xlrd和xlwt模块

三、轻松导入Excel数据

1.打开Pycharm,在代码编辑窗口编写如下代码,并运行

Python数据分析与处理---Pandas库介绍_第2张图片

 read_excel()方法:读取数据表

head()方法:输出前5行数据

运行窗口中可以看到,pandas读取到了我们表格中的数据

四、小结

本章介绍了Python的数据处理三剑客之一Pandas库,也是作为数据处理场景中最重要的一个库,以及pandas读取excel文件的简单用法,下一节将会为大家介绍pandas最为重要的两个类:Series和DataFrame

你可能感兴趣的:(数据分析,python,数据挖掘)