阅读笔记:利用Python进行数据分析第2版——第4章 Numpy基础:数组和矢量计算

阅读了本书第4章,将其中需要注意的点和重要的知识点简单整理了下。

  1. 大小相等的数组之间的任何算术运算都会将运算应用到元素级。
  2. 数组与标量的算术运算会将标量值传播到各个元素。
  3. 大小相同的数组之间的比较会生成布尔值数组。
  4. 不同大小的数组之间的运算叫做广播( broadcasting),当你将一个标量值赋值给一个切片时( 如arr[5:8]=12),该值会自动传播( 也就说后面将会讲到的“广播”)到整个选区。
  5. 跟列表最重要的区别在于,数组切片是原始数组的视图。 这意味着数据不会被复制,视图上的任何修改都会直接反映到源数组上。
  6. 如果你想要得到的是ndarray切片的一份副本而非视图, 就需要明确地进行复制操作, 例如arr[5:8].copy()
  7. 注意,三维数组切片时,arr3d[:][1]arr3d[:,1]的结果不一致切勿混淆。
In [50]: arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
In [51]: arr3d[0]
Out[51]:
array([[1, 2, 3],
       [4, 5, 6]])

In [52]: arr3d[0][1]
Out[52]: array([4, 5, 6])

In [53]: arr3d[:][1]
Out[53]:
array([[ 7,  8,  9],
       [10, 11, 12]])

In [54]: arr3d[:,1]
Out[54]:
array([[ 4,  5,  6],
       [10, 11, 12]])
  1. 对切片表达式的赋值操作也会被扩散到整个选区。
  2. 通过布尔型索引选取数组中的数据,将总是创建数据的副本,即使返回一模一样的数组也是如此。
  3. 注意:Python关键字andor在布尔型数组中无效。要使用&与|。
  4. 记住,花式索引跟切片不一样,它总是将数据复制到新数组中。
  5. 转置是重塑的一种特殊形式,它返回的是源数据的视图(不会进行任何复制操作)。
  6. 对于高维数组,transpose需要得到一个由轴编号组成的元组才能对这些轴进行转置( 比较费脑子)。
  7. 通用函数( 即ufunc)是一种对ndarray中的数据执行元素级运算的函数。 你可以将其看做简单函数(接受一个或多个标量值,并产生一个或多个标量值)的矢量化包装器。
    Ufuncs可以接受一个out可选参数, 这样就能在数组原地进行操作:
np.sqrt(arr)
np.exp(arr)
np.maximum(x, y)
np.sqrt(arr, arr)
  1. NumPy数组使你可以将许多种数据处理任务表述为简洁的数组表达式(否则需要编写循环)。用数组表达式代替循环的做法,通常被称为矢量化。 一般来说,矢量化数组运算要比等价的纯Python方式快上一两个数量级( 甚至更多),尤其是各种数值计算。在后面内容中(见附录A)我将介绍广播,这是一种针对矢量化计算的强大手段。
  2. numpy.where函数是三元表达式x if condition else y的矢量化版本。result = np.where(cond, xarr, yarr)np.where的第二个和第三个参数不必是数组,它们都可以是标量值。在数据分析工作中,where通常用于根据另一个数组而产生一个新的数组。
    注意:传递给where的数组大小可以不相等,甚至可以是标量值。
  3. 可以通过数组上的一组数学函数对整个数组或某个轴向的数据进行统计计算。sum、mean以及标准差std等聚合计算(aggregation,通常叫做约简( reduction))既可以当做数组的实例方法调用,也可以当做顶级NumPy函数使用。
    mean和sum这类的函数可以接受一个axis选项参数,用于计算该轴向上的统计值,最终结果是一个少一维的数组:
arr = np.random.randn(5, 4)
arr.mean(axis=1)  # 计算行的平均值
arr.sum(axis=0)  # 计算列的和

axis=0可以理解为沿着轴为0的方向(二维矩阵中即向下的方向),axis=1可以理解为沿着轴为1的方向(二维矩阵中即向右的方向)
对于在axis取不同值的时候如何计算,可以参照这个文章:Python之NumPy(axis=0/1/2…)的透彻理解——通过np.sum(axis=?)实例进行说明,便于记忆。
18. 顶级方法np.sort返回的是数组的已排序副本,而就地排序则会修改数组本身。
19. np.unique用于找出数组中的唯一值并返回已排序的结果。

names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
np.unique(names)  # 等价于下面的纯Python代码
sorted(set(names))
  1. NumPy能够读写磁盘上的文本数据或二进制数据。 np.savenp.load是读写磁盘数组数据的两个主要函数。默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中的,如果文件路径末尾没有扩展名.npy,则该扩展名会被自动加上。然后就可以通过np.load读取磁盘上的数组:
arr = np.arange(10)
np.save('some_array')
np.load('some_array.npy')

通过np.savez可以将多个数组保存到一个未压缩文件中,将数组以关键字参数的形式传入即可,加载.npz文件时,会得到一个类似字典的对象,该对象会对各个数组进行延迟加载:

np.savez('array_archive.npz', a=arr, b=arr)
arch = np.load('array_archive.npz')
arch['b']  # array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
np.savez_compressed('arrays_compressed.npz', a=arr, b=arr)  # 数据压缩
  1. 线性代数:x.dot(y)等价于np.dot(x, y),@符(类似Python 3.5)也可以用作中缀运算符,进行矩阵乘法。numpy.linalg中有一组标准的矩阵分解运算以及诸如求逆和行列式之类的东西。它们跟MATLAB和R等语言所使用的是相同的行业标准线性代数库,如BLAS、LAPACK、Intel MKL(Math Kernel Library,可能有,取决于你的NumPy版本)等。
np.dot(x, np.ones(3))
x @ np.ones(3)

阅读笔记:利用Python进行数据分析第2版——第4章 Numpy基础:数组和矢量计算_第1张图片

  1. numpy.random模块对Python内置的random进行了补充,增加了一些用于高效生成多种概率分布的样本值的函数。这些都是伪随机数, 是因为它们都是通过算法基于随机数生成器种子,在确定性的条件下生成的。你可以用NumPy的np.random.seed更改随机数生成种子:
samples = np.random.normal(size=(4, 4))
np.random.seed(1234)

numpy.random的数据生成函数使用了全局的随机种子。要避免全局状态,你可以使用numpy.random.RandomState,创建一个与其它隔离的随机数生成器:

rng = np.random.RandomState(1234)
rng.randn(10)

阅读笔记:利用Python进行数据分析第2版——第4章 Numpy基础:数组和矢量计算_第2张图片阅读笔记:利用Python进行数据分析第2版——第4章 Numpy基础:数组和矢量计算_第3张图片
参考资料:
[1] Python之NumPy(axis=0/1/2…)的透彻理解——通过np.sum(axis=?)实例进行说明

你可能感兴趣的:(学习笔记,python,数据分析,numpy)