图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)

ShowMeAI研究中心

  • 作者:韩信子@ShowMeAI
  • 教程地址:http://www.showmeai.tech/tutorials/33
  • 本文地址:http://www.showmeai.tech/article-detail/143
  • 声明:版权所有,转载请联系平台与作者并注明出处
  • 收藏ShowMeAI查看更多精彩内容

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第1张图片

n维数组是NumPy的核心概念,大部分数据的操作都是基于n维数组完成的。本系列内容覆盖到1维数组操作、2维数组操作、3维数组操作方法,本篇讲解Numpy与2维数组操作。

一、向量初始化

NumPy中曾有一个专用的matrix类来代表矩阵,后来被弃用,现在NumPy中的矩阵和2维数组表示同一含义。

(1)矩阵初始化

矩阵初始化的语法与向量是类似的:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第2张图片

如上要使用双括号,这里的(3,2)是第1个参数表示矩阵维度,第2个位置参数(可选)是为dtype(也接受整数)保留的。

(2)随机矩阵生成

随机矩阵的生成也与向量类似:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第3张图片

(3)二维数组索引

二维数组的索引语法要比嵌套列表更方便:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第4张图片

“view”表示数组切片时并未进行任何复制,在修改数组后,相应更改也将反映在切片中。

二、轴参数

在很多矩阵运算操作中,NumPy可以实现跨行或跨列的操作。为了适用任意维数的数组,NumPy引入了axis的概念。
axis参数的值实际上就是维度值,如第一个维是axis=0 ,第二维是axis=1,依此类推。因此,在2维数组中,axis=0指列方向,axis=1指行方向。

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第5张图片

三、矩阵运算

除了+,-,_,/,//和*_等数组元素的运算符外,NumPy提供了@ 运算符计算矩阵乘积:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第6张图片

类似一维向量中的广播机制,NumPy同样可以通过广播机制实现向量与矩阵,或两个向量之间的混合运算,如下图所示:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第7张图片

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第8张图片

注意,上图最后一个示例是对称的逐元素乘法。使用矩阵乘法@可以计算非对称线性代数外积,两个矩阵互换位置后计算内积:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第9张图片

四、行向量与列向量

在NumPy的2维数组中,行向量和列向量是被区别对待的。通常NumPy会尽可能使用单一类型的1维数组(例如,2维数组a的第j列a[:, j]是1维数组)。默认情况下,一维数组在2维操作中被视为行向量,因此,将矩阵乘行向量时,使用形状(n,)或(1,n)的向量结果一致。有多种方法可以从一维数组中得到列向量,但并不包括transpose:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第10张图片

使用reshape操作添加新的axis可以更新数组形状和索引,也可以将1维数组转化为2维列向量:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第11张图片

其中,-1表示在reshape是该维度自动决定,方括号中的None等同于np.newaxis,表示在指定位置添加一个空轴。
总结一下,NumPy中共有三种类型的向量:1维数组,2维行向量和2维列向量。以下是两两类型转换图:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第12张图片

根据广播规则,一维数组被隐式解释为二维行向量,因此通常不必在这两个数组之间进行转换,对应图中阴影化区域。
严格来说,除一维外的所有数组的大小都是一个向量(如a.shape == [1,1,1,5,1,1]),因此NumPy的输入类型是任意的,但上述三种最为常用。可以使用np.reshape将一维矢量转换为这种形式,使用np.squeeze可将其恢复。这两个功能都通过view发挥作用。

五、矩阵操作

矩阵的拼接有以下两种方式:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第13张图片

图示操作仅适用于矩阵堆叠或向量堆叠,而一维数组和矩阵的混合堆叠只有通过vstack才可实现,hstack会导致维度不匹配错误。因为前文提到将一维数组作为行向量,而不是列向量。为此,可以将其转换为行向量,或使用专门的column_stack函数执行此操作:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第14张图片

与stack对应的是split,可以对矩阵进行切分处理:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第15张图片

矩阵复制有两种方式:

  • tile类似粘贴复制;
  • repeat相当于分页打印。

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第16张图片

delete可以删除特定的行或列:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第17张图片

相应插入操作为insert:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第18张图片

与hstack一样,append函数无法自动转置1D数组,因此需要重新调整向量形状或添加维数,或者使用column_stack:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第19张图片

如果仅仅是向数组的边界添加常量值,pad函数是足够的:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第20张图片

六、Meshgrids网格

广播机制使得meshgrids变得容易。例如需要下图所示(但尺寸大得多)的矩阵:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第21张图片

上述两种方法由于使用了循环,因此都比较慢。MATLAB通过构建meshgrid处理这种问题。

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第22张图片

meshgrid函数接受任意一组索引,通过mgrid切片和indices索引生成完整的索引范围,然后,fromfunction函数根据I和J实现运算。
在NumPy中有一种更好的方法,无需在内存中存储整个I和J矩阵(虽然meshgrid已足够优秀,仅存储对原始向量的引用),仅存储形状矢量,然后通过广播规实现其余内容的处理:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第23张图片

如果没有indexing =’ij’参数,那么meshgrid将更改参数的顺序,即J,I=np.meshgrid(j,i)——一种用于可视化3D绘图的“ xy”模式(祥见该文档)。
除了在二维或三维网格上初始化函数外,网格还可以用于索引数组:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第24张图片

以上方法在稀疏网格中同样适用。

七、矩阵统计

就像sum函数,NumPy提供了矩阵不同轴上的min/max, argmin/argmax, mean/median/percentile, std/var等函数。

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第25张图片

np.amin等同于np.min,这样做同样是为了避免from numpy import *可能的歧义。
2维及更高维中的argmin和argmax函数分别返回最小和最大值的索引,通过unravel_index函数可以将其转换为二维坐标:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第26张图片

all和any同样也可作用于特定维度:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第27张图片

八、矩阵排序

虽然在前文中,axis参数适用于不同函数,但在二维数组排序中影响较小:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第28张图片

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第29张图片

我们通常不需要上述这样的排序矩阵,axis不是key参数的替代。但好在NumPy提供了其他功能,这些功能允许按一列或几列进行排序:
1、a[a [:,0] .argsort()]表示按第一列对数组进行排序:

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第30张图片

其中,argsort返回排序后的原始数组的索引数组。
可以重复使用该方法,但千万不要搞混:
a = a[a[:,2].argsort()]
a = a[a[:,1].argsort(kind='stable')]
a = a[a[:,0].argsort(kind='stable')]

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第31张图片

2、函数lexsort可以像上述这样对所有列进行排序,但是它总是按行执行,并且排序的行是颠倒的(即从下到上),其用法如下:

  • a[np.lexsort(np.flipud(a[2,5].T))],首先按第2列排序,然后按第5列排序;
  • a[np.lexsort(np.flipud(a.T))],从左到右依次排序各列。

图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第32张图片

其中,flipud沿上下方向翻转矩阵(沿axis = 0方向,与a [::-1,…]等效,其中…表示“其他所有维度”),注意区分它与fliplr,fliplr用于1维数组。

3、sort函数还有一个order参数,但该方法极不友好,不推荐学习。

4、在pandas中排序也是不错的选择,因为在pandas中操作位置确定,可读性好且不易出错:

  • pd.DataFrame(a).sort_values(by=[2,5]).to_numpy(),先按第2列排序,再按第5列排序。
  • pd.DataFrame(a).sort_values().to_numpy(),按从左到右的顺序对所有列进行排序。

一键运行所有代码

图解数据分析系列 配套的所有代码,可前往ShowMeAI 官方 GitHub,下载后即可在本地 Python 环境中运行。能访问 Google 的宝宝也可以直接借助 Google Colab一键运行与交互学习!

下载数据分析速查表

Awesome cheatsheets | ShowMeAI速查表大全 系列包含『编程语言』『AI技能知识』『数据科学工具库』『AI垂直领域工具库』四个板块,追平到工具库当前最新版本,并跑通了所有代码。点击 官网GitHub 获取~

数据分析相关速查表(部分)

内容 速查表(部分) Github代码
Python 3速查表 Python 3速查表 一键运行速查表代码 - Python
Numpy 速查表 图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第33张图片 一键运行速查表代码 - Numpy
Pandas 速查表 Pandas 速查表 一键运行速查表代码 - Pandas
Matplotlib 速查表 图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)_第34张图片 一键运行速查表代码 - Matplotlib
Seaborn 速查表 Seaborn 速查表 一键运行速查表代码 - Seaborn

拓展参考资料

  • 利用Python进行数据分析·第2版
  • w3schools pandas tutorial
  • Kaggle的Pandas入门教程
  • 十分钟入门 Pandas
  • Pandas可视化教程
  • Pandas官方教程
  • Seaborn官方教程

ShowMeAI图解数据分析系列推荐(数据科学家入门)

  • 图解数据分析(1) | 数据分析介绍
  • 图解数据分析(2) | 数据分析思维
  • 图解数据分析(3) | 数据分析的数学基础
  • 图解数据分析(4) | 核心步骤1 - 业务认知与数据初探
  • 图解数据分析(5) | 核心步骤2 - 数据清洗与预处理
  • 图解数据分析(6) | 核心步骤3 - 业务分析与数据挖掘
  • 图解数据分析(7) | 数据分析工具地图
  • 图解数据分析(8) | Numpy - 统计与数据科学计算工具库介绍
  • 图解数据分析(9) | Numpy - 与1维数组操作
  • 图解数据分析(10) | Numpy - 与2维数组操作
  • 图解数据分析(11) | Numpy - 与高维数组操作
  • 图解数据分析(12) | Pandas - 数据分析工具库介绍
  • 图解数据分析(13) | Pandas - 核心操作函数大全
  • 图解数据分析(14) | Pandas - 数据变换高级函数
  • 图解数据分析(15) | Pandas - 数据分组与操作
  • 图解数据分析(16) | 数据可视化原则与方法
  • 图解数据分析(17) | 基于Pandas的数据可视化
  • 图解数据分析(18) | 基于Seaborn的数据可视化

ShowMeAI系列教程精选推荐

  • 大厂技术实现:推荐与广告计算解决方案
  • 大厂技术实现:计算机视觉解决方案
  • 大厂技术实现:自然语言处理行业解决方案
  • 图解Python编程:从入门到精通系列教程
  • 图解数据分析:从入门到精通系列教程
  • 图解AI数学基础:从入门到精通系列教程
  • 图解大数据技术:从入门到精通系列教程
  • 图解机器学习算法:从入门到精通系列教程
  • 机器学习实战:手把手教你玩转机器学习系列
  • 深度学习教程:吴恩达专项课程 · 全套笔记解读
  • 自然语言处理教程:斯坦福CS224n课程 · 课程带学与全套笔记解读
  • 深度学习与计算机视觉教程:斯坦福CS231n · 全套笔记解读

你可能感兴趣的:(图解数据分析,从入门到精通系列,python,数据分析,矩阵,numpy,数组)