NumPy 是 Python 语言的一个第三方库,其支持大量高维度数组与矩阵运算。此外,NumPy 也针对数组运算提供大量的数学函数。机器学习涉及到大量对数组的变换和运算,NumPy 就成了必不可少的工具之一。
import numpy as np
np.__version__
'1.15.1'
创建数组
NumPy 的主要对象是多维数组 Ndarray。在 NumPy 中维度 Dimensions 叫做轴 Axes,轴的个数叫做秩 Rank。注意,numpy.array 和 Python 标准库 array.array 并不相同,前者更为强大,这也就是我们学习 NumPy 的重要原因之一。
np.array([1, 2, 3])
array([1, 2, 3])
上方数组是一个秩为 1 的数组,因为它只有一个轴,而轴的长度为 3。
np.array([(1, 2, 3), (4, 5, 6)])
array([[1, 2, 3], [4, 5, 6]])
np.zeros((3, 4))
array([[0., 0., 0., 0.],
[0., 0., 0., 0.],
[0., 0., 0., 0.]])
np.ones((2, 3, 4))
array([[[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 1.]],
[[1., 1., 1., 1.],
[1., 1., 1., 1.],
[1., 1., 1., 1.]]])
full函数,创建任意大小的数组并填充任意数字
np.full((3, 4), 2)
array([[2, 2, 2, 2],
[2, 2, 2, 2],
[2, 2, 2, 2]])
np.arange(5)
array([0, 1, 2, 3, 4])
np.arange(6).reshape(2, 3)
array([[0, 1, 2],
[3, 4, 5]])
np.eye(3)
array([[1., 0., 0.],
[0., 1., 0.],
[0., 0., 1.]])
np.random.rand(2, 3)
array([[0.38257919, 0.63590106, 0.64884528],
[0.09064574, 0.32850939, 0.94661844]])
np.random.randint(5, size = (2, 3))
array([[2, 3, 4],
[3, 2, 4]])
a = np.array([10, 20, 30, 40, 50])
b = np.arange(1, 6)
a, b
(array([10, 20, 30, 40, 50]), array([1, 2, 3, 4, 5]))
sum
a = np.array([[1, 2],
[3, 4]])
np.sum(a)
10
np.sum(a, axis=0) # axis=0 表示对每一列求和
array([4, 6])
np.sum(a, axis=1) # axis=0 表示对每一行求和
array([3, 7])
mean
np.mean(a) # 求取平均值
2.5
tile
a
array([[1, 2],
[3, 4]])
np.tile(a, (1, 2)) # 将数组a变成一行俩列
array([[1, 2, 1, 2],
[3, 4, 3, 4]])
np.tile(a, (2, 1))
array([[1, 2],
[3, 4],
[1, 2],
[3, 4]])
argsort
a = np.array([[3, 6, 4, 11],
[5, 10, 1, 3]])
a.argsort() # 将元素按照行从小到大排序,返回对应位置元素的下标
array([[0, 2, 1, 3],
[2, 3, 0, 1]], dtype=int64)
# 按照列排序
a.argsort(axis=0)
array([[0, 0, 1, 1],
[1, 1, 0, 0]], dtype=int64)
a + b
array([11, 22, 33, 44, 55])
a - b
array([ 9, 18, 27, 36, 45])
a * b
array([ 10, 40, 90, 160, 250])
a / b
array([10., 10., 10., 10., 10.])
A = np.array([[1, 2],
[3, 4]])
B = np.array([[5, 6],
[7, 8]])
A * B
array([[ 5, 12],
[21, 32]])
np.dot(A, B)
array([[19, 22],
[43, 50]])
np.mat(A) * np.mat(B)
matrix([[19, 22],
[43, 50]])
A.T
array([[1, 3],
[2, 4]])
np.linalg.inv(A)
array([[-2. , 1. ],
[ 1.5, -0.5]])
a = np.array([[1, 2, 3],
[4, 5, 6],
[7, 8, 9]])
b = np.array([1, 2, 3])
# 在a的每一行都加上b
a + np.tile(b, (3, 1))
array([[ 2, 4, 6],
[ 5, 7, 9],
[ 8, 10, 12]])
# 可直接简写为a+ b, numpy自动实现广播功能,当参与运算的操作数的维度不一样时
a + b
array([[ 2, 4, 6],
[ 5, 7, 9],
[ 8, 10, 12]])
a = np.array([[1, 2, 3, 4],
[5, 6, 7, 8],
[9, 10, 11, 12]])
3.1 取出某个确定的值
# 表示第二行,第三列的数, 逗号前表示一维,逗号后表示二维,以此类推
a[1, 2]
7
3.2 取出某个范围的值
# 冒号表示所取的范围,跟列表的索引用法一样,
# 逗号用来区分每个维度,下面的代码表示[取倒数第二行到最后一行, 第二列到第三列
a[-2:, 1:3]
array([[ 6, 7],
[10, 11]])
3.3 给某个范围的数进行运算
# 给a数组的第二列上的每个数加上10
a[np.arange(3), 1] += 10
a
array([[ 1, 12, 3, 4],
[ 5, 16, 7, 8],
[ 9, 20, 11, 12]])
np.arange(10) # 从0开始生成10个数
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
np.arange(3, 7) # 还可以生成特定范围的数
array([3, 4, 5, 6])
# 还可以这样写, 相当于,一个行对应一个列
a[[0, 1, 2], [1, 1, 1]] += 10
a
array([[ 1, 22, 3, 4],
[ 5, 26, 7, 8],
[ 9, 30, 11, 12]])
3.4 获取数组中大于或小于某个确定值的数值
result_index = a > 10
result_index
array([[False, False, False, False],
[False, False, False, False],
[False, False, True, True]])
a[result_index]
array([11, 12])
# 这样写即可
a[a > 10]
array([11, 12])
4.1 使用dtype函数查看数组的数据类型
a = np.array([1, 2, 3])
a.dtype
dtype('int32')
a = np.array([1.1, 2.2])
a.dtype
dtype('float64')
a = np.array([1, 1.2])
a.dtype
dtype('float64')
a = np.array([1.1, 2.2], dtype = np.int64) # 将数据类型转换为整数,直接去掉小数部分
a
array([1, 2], dtype=int64)
a.dtype
dtype('int64')
4.2使用astype转换数据类型
a = np.array(['1.2', '1.3', '1.4'], dtype = np.string_)
a
array([b'1.2', b'1.3', b'1.4'], dtype='|S3')
a.astype(np.float)
array([1.2, 1.3, 1.4])