Numpy是一个开源的Python科学计算基础库,也是目前Python用于科学计算和数据分析的最基础的第三方库,本文的主要内容是基于中国大学mooc(慕课)中的“Python数据分析与可视化”课程ndarray的使用基础进行整理和总结。
Numpy提供了众多功能,主要包含如下:
虽然Python中已经具有类似功能的列表和元组供用户使用,为什么还需要Numpy呢?使用Numpy中N维数组对象ndarray代替Python中的列表/字典等进行科学计算的优势在于:
ndarray是一个多维数组对象,由两部分构成:
ndarray 的两个基本概念:
ndarray的基本运算属性:
ndarray实例如下:
import numpy as np
a = np.array([[1,2,3,4],
[5,6,7,8]])
a.ndim
2
a.shape
(2, 4)
a.size
8
a.dtype
dtype('int32')
a.itemsize
4
此处a.itemsize = 4表示数据a中每个元素由4个字节构成。
ndarray数组可以由非同质对象构成,但是非同质对象无法有效发挥Numpy的优势,应该尽量避免使用,如下例所示:
b = np.array([[1,2,3,4,5],
[6,7,8,9]])
b.shape
(2,)
b.dtype
dtype('O')
b
array([list([1, 2, 3, 4, 5]), list([6, 7, 8, 9])], dtype=object)
b.size
2
由上可以,当ndarray不同质时,元素为对象类型(Object)。
x = np.array([1,2,3,4])
print(x)
[1 2 3 4]
y = np.array((1,2,3,4))
print(y)
[1 2 3 4]
z = np.array([[1,2],
[3,4],
(5,6)])
print(z)
[[1 2]
[3 4]
[5 6]]
np.arange:类似range()函数,返回ndarray类型,元素从0到n-1
np.arange(8)
array([0, 1, 2, 3, 4, 5, 6, 7])
np.ones(shape):根据shape生成一个全1数组,shape是元组类型
np.ones((3,4))
array([[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 1.]])
np.zeros(shape):根据shape生成一个全0数组,shape是元组类型
np.zeros((2,3))
array([[0., 0., 0.],
[0., 0., 0.]])
np.full(shape,val):根据shape生成一个数组,所有元素值都是val
np.full((3,5),3.5)
array([[3.5, 3.5, 3.5, 3.5, 3.5],
[3.5, 3.5, 3.5, 3.5, 3.5],
[3.5, 3.5, 3.5, 3.5, 3.5]])
np.eye(n):创建一个正方的n*n单位矩阵,对角线为1,其余为0
np.eye(3)
array([[1., 0., 0.],
[0., 1., 0.],
[0., 0., 1.]])
np.ones_like(a):根据数组a的形状生成一个全为1的数组;
np.zeros_like(a):根据数组a的形状生成一个全为0的数组;
np.full_like(a,val):根据数组a的形状生成一个数组,每个元素的值都是val;
np.linspace(a,b,c):根据起止数据等间地填充数据,形成数组,a表示起始位置,b是最后一个元素的值,c是元素个数;
d = np.linspace(1,15,5)
d
array([ 1. , 4.5, 8. , 11.5, 15. ])
e = np.linspace(1,15,5,endpoint=False)
e
array([ 1. , 3.8, 6.6, 9.4, 12.2])
endpoint表示是否取最后一个元素的值,False表示舍去。
np.concatenate():将两个或多个数组合并成为一个新的数组;
f = np.concatenate((d,e))
f
array([ 1. , 4.5, 8. , 11.5, 15. , 1. , 3.8, 6.6, 9.4, 12.2])
对于创建的ndarray数组,可以对其进行维度变换和元素类型变换。
.reshape(shape):不改变数组元素,返回一个shape形状的数组,原数组不变;
a = np.ones((2,3,4))
a.reshape((3,8))
array([[1., 1., 1., 1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1., 1., 1., 1.]])
a
array([[[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 1.]],
[[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 1.]]])
.resize(shape):与.reshape()功能一致,但是修改原数组;
a.resize((3,8))
a
array([[1., 1., 1., 1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1., 1., 1., 1.]])
.swapaxes(ax1,ax2):将数组中n个维度中的指定两个维度互换;
.flatten():对数组进行降维,返回折叠后的一维数组,原数组不变;
a.flatten()
array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1.])
new_a = a.astype(new_type)
b = np.ones((2,3),dtype = np.int)
b
array([[1, 1, 1],
[1, 1, 1]])
b.astype(np.float)
array([[1., 1., 1.],
[1., 1., 1.]])
a.tolist()
b.tolist()
[[1, 1, 1], [1, 1, 1]]
索引:获取数组中特定元素的过程
切片:获取数组元素子集的过程
一维数组的索引和切片与列表类似
a = np.array([1,2,3,4,5,6,7,8,9])
a[2]
3
a[1:7:2]
array([2, 4, 6])
a = np.arange(24).reshape(2,3,4)
a
array([[[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]],
[[12, 13, 14, 15],
[16, 17, 18, 19],
[20, 21, 22, 23]]])
a[1,2,3]
23
a[0,1,3]
7
a[-1,-2,-3]
17
切片
a[:,1,-1]
array([ 7, 19])
a[:,1:3,:]
array([[[ 4, 5, 6, 7],
[ 8, 9, 10, 11]],
[[16, 17, 18, 19],
[20, 21, 22, 23]]])
a[:,:,::2]#每个维度可以使用步长跳跃切片
array([[[ 0, 2],
[ 4, 6],
[ 8, 10]],
[[12, 14],
[16, 18],
[20, 22]]])
等价于数组中的每一个元素都与这个元素进行运算。
a = np.arange(24).reshape(2,3,4)
a
array([[[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]],
[[12, 13, 14, 15],
[16, 17, 18, 19],
[20, 21, 22, 23]]])
a.mean()
11.5
a = a/a.mean()
a
array([[[0. , 0.08695652, 0.17391304, 0.26086957],
[0.34782609, 0.43478261, 0.52173913, 0.60869565],
[0.69565217, 0.7826087 , 0.86956522, 0.95652174]],
[[1.04347826, 1.13043478, 1.2173913 , 1.30434783],
[1.39130435, 1.47826087, 1.56521739, 1.65217391],
[1.73913043, 1.82608696, 1.91304348, 2. ]]])
a
array([[[0. , 0.08695652, 0.17391304, 0.26086957],
[0.34782609, 0.43478261, 0.52173913, 0.60869565],
[0.69565217, 0.7826087 , 0.86956522, 0.95652174]],
[[1.04347826, 1.13043478, 1.2173913 , 1.30434783],
[1.39130435, 1.47826087, 1.56521739, 1.65217391],
[1.73913043, 1.82608696, 1.91304348, 2. ]]])
c,d = np.modf(a)
c
array([[[0. , 0.08695652, 0.17391304, 0.26086957],
[0.34782609, 0.43478261, 0.52173913, 0.60869565],
[0.69565217, 0.7826087 , 0.86956522, 0.95652174]],
[[0.04347826, 0.13043478, 0.2173913 , 0.30434783],
[0.39130435, 0.47826087, 0.56521739, 0.65217391],
[0.73913043, 0.82608696, 0.91304348, 0. ]]])
d
array([[[0., 0., 0., 0.],
[0., 0., 0., 0.],
[0., 0., 0., 0.]],
[[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 2.]]])
a = np.array([-1,0,1])
np.sign(a)
array([-1, 0, 1])