目录
一、生成Numpy数组
工具
1、从已有数据中创建数组
2、利用 random 模块生成数组
3、创建特定形状的多维数组
4、利用 arange、linspace 函数生成数组
二、获取元素
1、指定索引标签
2、random.choice函数可以从指定的样本中进行随机抽取数据
三、NumPy的算术运算
1、对应元素相乘
2、点积运算
四、数组变形
1、更改数组的形状
2、合并数组
五、批量处理(mini-batch)
1、如何把大数据拆分成多个批次呢?可采用如下步骤:
2、range() 函数可创建一个整数列表,一般用在 for 循环中:
六、通用函数
七、广播机制
1、数字与向量的乘法
2、进行运算的两个矩阵相应维度的大小要么相同,要么其中有一个为 1
3、(2,)与(2,1)的区别如下:
4、shape用法的详细举例
直接对 Python 的基础数据类型(如列表list、元组tuple等) 进行转换来生成 ndarray:
(1)将列表或嵌套列表转换成 ndarray:np.array(list)
(2)将元组或嵌套元组转换成多维 ndarray:np.array(tuple)
表1 np.random模块常用函数
示例:
为了每次生成同一份数据,可以指定一个随机种子,使用shuffle函数打乱生成的随机数:
import numpy as np
np.random.seed(123) #123是一个标识,数字一样时,生成的随机数始终不变
nd4 = np.random.randn(2,3) #随机生成2行3列标准正态的随机数
print(nd4)
np.random.shuffle(nd4) #打乱顺序
print("随机打乱后数据:")
print(nd4)
print(type(nd4)) #输出nd4的形状
输出结果:
[[-1.0856306 0.99734545 0.2829785 ]
[-1.50629471 -0.57860025 1.65143654]]
随机打乱后数据:
[[-1.50629471 -0.57860025 1.65143654]
[-1.0856306 0.99734545 0.2829785 ]]
表2 NumPy 数组创建函数
补充:
np.diag([1,2.3]) 三阶对角矩阵,以1,2,3作为对角线上的元素,其余均为0
保存数据&下载数据:
import numpy as np
nd9 =np.random.random([5, 5])
np.savetxt(X=nd9, fname='./test1.txt')
nd10 = np.loadtxt('./test1.txt')
print(nd10)
(1)arange的用法
arange([start,] stop[,step,], dtype=None) #注意:[start,stop)左闭右开
其中start 与 stop 指定范围,start 默认为 0,步长 step 可为小数,默认为1
(2)linspace的用法
np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None
linspace可以根据输入的指定数据范围以及等份数量,自动生成一个线性等分向量,其中endpoint (包含终点)默认为 True,等分数量num默认为 50。如果将retstep设置为 True,则会返回一个带步长的 ndarray。
import numpy as np
print(np.linspace(0, 1, 10))
#[0. 0.11111111 0.22222222 0.33333333 0.44444444 0.55555556
# 0.66666667 0.77777778 0.88888889 1. ]
因为 linspace 必定会包含数据起点和终点,那么步长则为(1-0) / 9 = 0.11111111
如图所示:左边为表达式,右边为表达式获取的元素。注意不同的边界,表示不同的表达式。
注意: [ 行 , 列 ] ,“ :”左闭右开
import numpy as np
from numpy import random as nr
a=np.arange(1,25,dtype=float)
c1=nr.choice(a,size=(3,4)) #size指定输出数组形状
c2=nr.choice(a,size=(3,4),replace=False) #replace缺省为True,即可重复抽取。
#下式中参数p指定每个元素对应的抽取概率,缺省为每个元素被抽取的概率相同。
c3=nr.choice(a,size=(3,4),p=a / np.sum(a))
print("随机可重复抽取")
print(c1)
print("随机但不重复抽取")
print(c2)
print("随机但按制度概率抽取")
print(c3)
- np.multiply 函数:用于数组或矩阵对应元素相乘
- A*B与np.multiply(A,B)运算结果一致
- 也可以和单一数值(或称为标量)进行运算
print(A*2.0)
print(A/2.0)
X1=np.array([[1,2],[3,4]])
X2=np.array([[5,6,7],[8,9,10]])
X3=np.dot(X1,X2)
print(X3)
运算过程:
表3 NumPy中改变向量形状的一些函数
表4 NumPy 数组合并方法
[说明]
①append、concatnate以及stack都有一个 axis 参数,用于控制数组合并是按行还是按列。axis=0按行;axis=1按列。
②对于append和concatnate,待合并的数组必须有相同的行数或列数(满足一个即可)。
③stack、hstack、dstack待合并的数组必须具有相同的形状( shape)。
(1)append
合并一维数组
[1, 2, 3] 和 [4, 5, 6]
合并后 [1 2 3 4 5 6]
合并多维数组
[[0 1]
[2 3]]
和
[[0 1]
[2 3]]按行合并后的结果:
[[0 1]
[2 3]
[0 1]
[2 3]]按列合并后的结果:
[[0 1 0 1]
[2 3 2 3]]
(2)concatenate 沿指定轴连接数组或矩阵
(3)stack 沿指定轴堆叠数组或矩阵
import numpy as np
a =np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])
print(np.stack((a, b), axis=0))
输出结果:
[[[1 2]
[3 4]]
[[5 6]
[7 8]]]
(1)得到数据集
(2)随机打乱数据
(3)定义批大小
(4)批处理数据集
以下我们通过一个示例来具体说明:
import numpy as np
#生成10000个形状为2X3的矩阵
data_train = np.random.randn(10000,2,3)
#这是一个3维矩阵,第一个维度为样本数,后两个是数据形状
print(data_train.shape)
#(10000,2,3)
#打乱这10000条数据
np.random.shuffle(data_train)
#定义批量大小
batch_size=100
#进行批处理
for i in range(0,len(data_train),batch_size):
x_batch_sum=np.sum(data_train[i:i+batch_size])
print("第{}批次,该批次的数据之和:{}".format(i,x_batch_sum))
最后5行结果:
第9500批次,该批次的数据之和:17.63702580438092
第9600批次,该批次的数据之和:-1.360924607368387
第9700批次,该批次的数据之和:-25.912226239266445
第9800批次,该批次的数据之和:32.018136957835814
第9900批次,该批次的数据之和:2.9002576614446935
【说明】
批次从0开始,所以最后一个批次是9900。
函数语法:
range(start, stop[, step])
参数说明:
start: 计数从 start 开始。默认是从 0 开始。例如range(5)等价于range(0, 5);
stop: 计数到 stop 结束,但不包括 stop。例如:range(0, 5) 是[0, 1, 2, 3, 4]没有5
step:步长,默认为1。例如:range(0, 5) 等价于 range(0, 5, 1)
表5 NumPy几个常用通用函数
点击查看什么是广播机制?
import numpy as np
a = np.array([1, 2, 3])
b = 2
ret = a * b
# array([2, 4, 6])
首先,将标量 b 扩充成像 a 相同大小的张量,然后挨个元素做乘法。
import numpy as np
a = np.array([1, 2, 3])
b = np.array([2, 2, 2])
ret = a * b
# array([2, 4, 6])
举个例子来说,一个张量维度是 3x4x5,另一个张量的维度是 3x1x5,根据条件,这两个张量可以成功触发广播机制;如果另一个张量维度是 3x5x4 就不能触发广播机制。
import numpy as np
a = np.random.rand(3, 4, 5) # Generate a array of size is (3,4,5)
b = np.random.rand(3, 1, 5)
ret = a * b
# Run successfully
# ret.size = (3, 4, 5)
b = np.random.rand(3, 5, 4)
ret = a * b
# ValueError: operands could not be broadcast together with shapes (3,4,5) (3,5,4)
numpy.ndarray.shape是返回一个数组维度的元组。
ndarray.shape:数组的维度。为一个表示数组在每个维度上大小的整数元组。例如二维数组中,表示数组的“行数”和“列数”。
ndarray.shape返回一个元组,这个元组的长度就是维度的数目,即ndim属性。
一般情况下: