【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门

文章目录

  • 1.3 pandas快速入门
    • 1.3.1 安装导入
    • 1.3.2 准备数据集
    • 1.3.3 读取数据
    • 1.3.4 查看数据
    • 1.3.5 验证数据
    • 1.3.6 建立索引
    • 1.3.7 数据选取
    • 1.3.8 排序
    • 1.3.9 分组聚合
    • 1.3.10 数据转换
    • 1.3.11 增加列
    • 1.3.12 统计分析
    • 1.3.13 绘图
    • 1.3.14 导出

1.3 pandas快速入门

1.3.1 安装导入

首先安装pandas库,打开终端执行以下命令:

pip install pandas matplotlib
# 国内源
pip install pandas matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成后,在终端启动jupyter notebook,导入Pandas, 按惯例起别名pd:

import pandas as pd

1.3.2 准备数据集

数据集(Data set / dataset), 又称资料集、数据集合或资料集合, 是一种由数据组成的集合,简单理解成一个excel表格。
常用数据集team.xlsx(下载网址:https://www.gairuo.com/file/data/dataset/team.xlsx)

1.3.3 读取数据

将数据读取到Pandas里,变量名用df(DataFrame的缩写), 它是Pandas二维数据的基础结构。

df = pd.read_excel('team.xls') # 原文是team.xlsx,但是我的xlrd包一直无法读取.xlsx文件,因此改了文件类型
# 如果是csv, 使用pd.read_csv(), 还支持很多类型的数据读取

变量df的内容:

  1. 自动增加了第一列,是Pandas为数据增加的索引,从0开始,程序不知道我们真正的业务索引,往往需要后面重新指定,使它有一定的业务意义;
  2. 由于数据量大,自动隐藏了中间部分,只显示前后5条;
  3. 底部显示行数和列数。
    【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第1张图片

1.3.4 查看数据

【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第2张图片
随机查看5条的结果如下所示:
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第3张图片

1.3.5 验证数据

【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第4张图片
df.info()显示有数据类型、索引情况、行列数和各字段数据类型、内存占用等:
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第5张图片
df.describe()会计算出各数字字段的总数(count)、平均数(mean)、标准差(std)、最小值(min)、四分位数和最大值(max):

【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第6张图片

1.3.6 建立索引

以上数据真正业务意义上的索引是name列,所以需要使它成为索引:
在这里插入图片描述
其中,可选参数inplace=True会将指定好索引的数据再赋值给df使索引生效,否则索引不会生效。
注意,这里并没有修改原本的Excel文件,从读取数据后就已经和它没有关系了,我们处理的是内存中的df变量。
将name建立索引之后,就没有从0开始的数字索引了:
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第7张图片

1.3.7 数据选取

(1) 选择列
返回的是Series类型数据,可以理解成数列,它也是带索引的,之前建立的索引在这里发挥了作用,否则我们的索引是一个数字,无法知道与之对应的是谁的数据。
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第8张图片
选择多列的可以用以下方法:
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第9张图片
dd.loc[X, y]是一个非常强大的数据选择函数,其中X代表行,y代表列,行和列都支持条件表达式,也支持类似列表的切片(如果要用自然索引,需要用df.iloc[])。

(2)选择行
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第10张图片
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第11张图片
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第12张图片
(3)指定行和列
同时给定行和列的显示范围:
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第13张图片
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第14张图片
(4)条件选择
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第15张图片

1.3.8 排序

在这里插入图片描述

1.3.9 分组聚合

【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第16张图片

1.3.10 数据转换

原数据表:
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第17张图片

对数据表进行转置:
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第18张图片
对数据表展开:
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第19张图片
对数据表使用unstack:
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第20张图片

1.3.11 增加列

【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第21张图片

1.3.12 统计分析

根据数据分析目标,使用以下函数:
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第22张图片

1.3.13 绘图

Pandas利用plot()调用matplotlab快速绘制出数据可视化图形。注意,第一次使用plot()时可能需要执行两次才能显示图形。
plot()可以快速绘制折线图
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第23张图片
选择要展示的数据,再绘图:
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第24张图片
使用plot.bar绘制柱形图
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第25张图片
plot.barh绘制横向柱状图
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第26张图片
对数据聚合计算后,可以绘制多条折线图:
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第27张图片
使用pie绘制饼图
【学习笔记】《深入浅出Pandas》第1章:pandas简介及快速入门_第28张图片

1.3.14 导出

在这里插入图片描述
导出的文件位于notebook文件的同一目录下。

参考文献:《深入浅出Pandas:利用python进行数据处理与分析》

你可能感兴趣的:(pandas,学习,python)