一、Pandas概述
Pandas是数据分析三大剑客之一,是Python的核心数据分析库,它提供了快速、灵活、明确的数据结构,能够简单、直观、快速地处理各种类型的数据,具体介绍如下所示
Pandas能够处理以下类型的数据:
1.与SQL或Excel表类似的数据
2.有序和无序(非固定频率)的时间序列数据
3.带行、列标签的矩阵数据
4.任意其他形式的观测、统计数据集
Pandas提供的两个主要数据结构类Series(一维)与DataFrame(二维),可以处理金融、统计、社会科学、工程等领域里的大多数典型案例,并且Pandas是基于NumPy开发的,可以与其他第三方科学计算库完美集成
Pandas的功能很多,它的优势如下:
1.处理浮点与非浮点数据里的缺失数据,表示为NaN
2.大小可变,例如插入或删除DataFrame等多维对象的列
3.自动、显式数据对齐,显式地将对象与一组标签对齐,也可以忽略标签,在Series、DataFrame计算时自动与数据对齐
4.强大、灵活的分组统计(groupby)功能,即数据聚合、数据转换
5.把Python和NumPy数据结构里不规则、不同索引的数据轻松地转换为DataFrame对象
6.智能标签,对大型数据集进行切片、花式索引、子集分解等操作
7.直观地合并(merge)、连接(join)数据集
8.灵活地重塑(reshape)、透视(pivot)数据集
9.成熟的导入、导出工具,导入文本文件(CSV等支持分隔符的文件)、Excel文件、数据库等来源的数据,导出Excel文件、文本文件等,利用超快的HDF5格式保存或加载数据
10.时间序列;支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列共功能
二、安装Pandas
1.pip命令进行安装
pip install Pandas
2.通过Pycharm编辑器安装
例如,当通过Pandas读取Excel文件时,如果只安装Pandas模块,还需要安装xlrd和xlwt模块
三、轻松导入Excel数据
1.打开Pycharm,在代码编辑窗口编写如下代码,并运行
read_excel()方法:读取数据表
head()方法:输出前5行数据
运行窗口中可以看到,pandas读取到了我们表格中的数据
四、小结
本章介绍了Python的数据处理三剑客之一Pandas库,也是作为数据处理场景中最重要的一个库,以及pandas读取excel文件的简单用法,下一节将会为大家介绍pandas最为重要的两个类:Series和DataFrame