Python本身含有列表(list)和数组(array),但对于大数据来说,这些结构是有很多不足的。
list的元素可以是任何对象,因此列表中所保存的是对象的指针。
array对象可以直接保存数值,但是由于它不支持多维,在上面的函数也不多,因此也不适合做数值运算。
Numpy提供了两种基本的对象:
直接对Python的基础数据类型(如列表、元组等)进行转换来生成ndarray:
1)将列表转换成ndarray:
import numpy as np
list1 = [2, 3, 4, 5]
nd1 = np.array(list1)
2)嵌套列表可以转换成多维ndarray:
import numpy as np
list2 = [[2, 3, 4, 5], [6, 7, 8, 9]]
nd2 = np.array(list2)
把上面示例中的列表换成元组也同样适用。
np.random 模块常用函数:
函数 | 描述 |
---|---|
np.random.random | 0到1之间随机数 |
np.random.uniform | 均匀分布的随机数 |
np.random.randn | 标准正态分布的随机数 |
np.random.normal | 正态分布 |
np.random.randint | 随机整数 |
np.random.shuffle | 随机打乱顺序 |
np.random.seed | 设置随机数种子 |
random_sample | 生成随机的浮点数 |
参数初始化时,有时需要生成一些特殊矩阵,如全是0或1的数组或矩阵,这时我们可以利用np.zeros、np.ones、np.diag来实现。
函数 | 描述 |
---|---|
np.zeros((3,4)) | 创建3 x 4的元素全为0的数组 |
np.ones((3,4)) | 创建3 x 4的元素全为1的数组 |
np.empty((2,3)) | 创建2 x 3的空数组,但是空数据中的值不是0,是未初始化的垃圾值 |
np.zeros_like(ndarr) | 以ndarr 相同维度创建元素全为0数组 |
np.ones_like(ndarr) | 以ndarr 相同维度创建元素全为1数组 |
np.empty_like(ndarr) | 以ndarr 相同维度创建空数组 |
np.eye(5) | 创建一个5 x 5矩阵,对角线为1,其余为0 |
np.full((3,5), 666) | 创建3 x 5的元素全为666的数组 |
将数据保存起来,再读取:
nd = np.random.random([5, 5])
np.savetxt(X = nd, fname = './test.txt')
nd1 = np.loadtxt('./test.txt')
# arange([start,] stop[, step,], dtype=None)
print(np.arange(1, 4, 0.5))
# [1. 1.5 2. 2.5 3. 3.5]
start, stop指定范围; stop设定步长。start默认为0, step可以使小数。
np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
linspace根据输入的指定数据范围和等份数量,自动生成一个线性等分向量。
如果retstep=True,会返回带步长的ndarray。
linspace必定会包含数据起点和重点。
np.random.seed(2020)
nd = np.random.random([10])
nd[3]
nd[3:6]
nd[1:6:2] # 截取固定间隔数据
nd[::-2] # 倒序取数
# 截取一个多维数组的一个区域内数据
nd2 = np.arange(25).reshape([5,5])
nd2[1:3,1:3]
# 截取一个多维数组中,数值在一个值域之内的数据
nd2[(nd2>3)&(nd2<10)]
# 截取多维数组中指定的行,如2,3行
nd2[[1,2]] # nd2[1:3,:]
# 截取多为数组中指定的列
nd2[:,1:3]
如random.choice从指定样本中随机抽取数据。
from numpy import random as nr
a = np.arange(1,25,dtype=float)
# 随机可重复抽取
c1 = nr.choice(a, size=(3,4))
# 随机不重复抽取
c2 = nr.choice(a, size=(3,4),replace=False) #replace默认为True,可重复抽取
#随机按制度概率抽取
c3 = nr.choice(a, size=(3,4), p=a/np.sum(a))
np.multiply(A, B)
# 或者A*B
A, B之间的对应元素相乘遵守广播规则。
由此,数组通过一些激活函数后,输出与输入的形式一致。
x = np.random.rand(2,3)
def softmoid(x):
return 1/(1 + np.exp(-x))
def relu(x):
return np.maximum(0, x)
def softmax(x):
return np.exp(x)/np.sum(np.exp(x))
np.dot(x1, x2)
x1, x2对应维度的元素个数必须保持一致。
在矩阵或者数组的运算中,经常会遇到需要把多个向量或矩阵按某轴方向合并,或展平(如在卷积或循环神经网络中,在全连接层之前,需要把矩阵展平)的情况。
函数 | 描述 |
---|---|
arr.reshape | 改变向量维度,不改变向量本身 |
arr.resize | 改变向量维度,改变向量本身 |
arr.T | 对向量进行转置 |
arr.ravel | 对向量展平,即将多维数组变成1维,不会产生原数组的副本 |
arr.flatten | 对向量展平,即将多维数组变成1维,返回原数组的副本 |
arr.squeeze | **只能对维数为1的维度降维。**对多维数组使用不会产生影响 |
arr.transpose | 对高维矩阵队形轴兑换 |
注意:
reshape: 指定维度时可以只指定一个,其他用-1代替
ravel:arr.ravel(‘F’) 按照列优先展平,否则默认按行优先
flatten:把矩阵转换为向量,这种需求经常出现在卷积网络和全连接层之间。
squeeze:比如(3,1)——> (3, ) ,(3, 1, 2, 1)——> (3,2)
transpose:对高维矩阵进行轴对换,在深度学习中常使用,比如讲图片RGB顺序改成GBR。
arr = np.arange(24).reshape(2,3,4)
print(arr.shape) # (2,3,4)
print(arr.transpose(1,2,0).shape) # (3,4,2)
函数 | 描述 |
---|---|
np.append | 内存占用大 |
np.concatenate | 没有内存问题 |
np.stack | 沿着新的轴加入一系列数组 |
np.hstack | 堆栈数组垂直顺序(行) |
np.vstack | 堆栈数组垂直顺序(列) |
np.dstack | 堆栈数组按顺序深入(沿第3维) |
np.vsplit | 将数组分解成垂直的多个子数组的列表 |
注意:
示例:
a = np.array([1,2,3])
b = np.array([4,5,6])
c = np.append(a, b)
print(c)
# [1 2 3 4 5 6]
a = np.arange(4).reshape(2,2)
b = np.arange(4).reshape(2,2)
# 按行合并
c = np.append(a, b, axis=0)
print(c)
'''[[0 1]
[2 3]
[0 1]
[2 3]]
'''
d = np.append(a, b, axis=1)
print(d)
'''[[0 1 0 1]
[2 3 2 3]]
'''
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])
c = np.concatenate((a, b), axis=0)
print(c)
d = np.concatenate((a, b.T), axis=1)
print(d)
'''
[[1 2]
[3 4]
[5 6]]
[[1 2 5]
[3 4 6]]
'''
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])
c = np.stack((a, b), axis=0)
print(c)
print(c.shape)
'''
[[[1 2]
[3 4]]
[[5 6]
[7 8]]]
(2, 2, 2)
'''
在深度学习中,由于源数据都比较大,所以通常需要用到批处理。如利用批量来计算梯度的随机梯度法(SGD)就是一个典型应用。
一次处理一条记录无法充分发挥GPU、Numpy的平行处理优势。因此,在实际使用中往往采用 批量处理(Mini-Batch) 的方法。
如何把大数据拆分成多个批次呢?
1. 得到数据集
2. 随机打乱数据
3. 定义批大小
4. 批处理数据集
示例:
# 生成10000个形状为2*3的矩阵
data = np.random.randn(10000, 2 , 3)
# 3维矩阵,第1个维度是样本数,后两个是数据形状
print(data.shape)
# (10000, 2, 3)
# 打乱数据
np.random.shuffle(data)
# 定义批量大小
batch_size = 100
# 进行批处理
for i in range(0, len(data), batch_size):
x_batch_sum = np.sum(data[i:i+batch_size])
print(f"第{i}批次,该批次的数据之和为{x_batch_sum}.")
批次从0开始,最后5行结果如下:
# 第9500批次,该批次的数据之和为14.58947150077857.
# 第9600批次,该批次的数据之和为42.03495509156134.
# 第9700批次,该批次的数据之和为28.81790516315437.
# 第9800批次,该批次的数据之和为20.004793932616554.
# 第9900批次,该批次的数据之和为9.329281850375956.
Numpy的另一个对象通用函数(ufunc,universal function),它是一种能对数组的每个元素进行操作的函数。
许多ufunc函数都是用C语言级别实现的,因此它们的计算速度非常快。
此外,它们比math模块中的函数更灵活。math模块的输入一般是标量,但Numpy中的函数可以是向量或矩阵,而利用向量或矩阵可以避免使用循环语句,这点在机器学习、深度学习中非常重要。下表为Numpy中常用的几个通用函数。
函数 | 使用方法 |
---|---|
sqrt | 计算序列化数据的平方根 |
sin, cos | 三角函数 |
abs | 绝对值 |
dot | 矩阵运算 |
log, log10, log2 | 对数 |
exp | 指数 |
cumsum, cumproduct | 累计求和、求积 |
sum | 求和 |
mean | 求均值 |
median | 求中位数 |
std | 求标准差 |
var | 求方差 |
corrcoef | 求相关系数 |
充分使用Python的Numpy库中的内建函数(Built-in Function)来实现计算的向量化,可大大地提高运行速度。Numpy库中的内建函数使用了SIMD指令。
如果使用GPU,其性能将更强大,不过Numpy不支持GPU。PyTorch支持GPU。在深度学习算法中,一般都使用向量化矩阵进行运算。
Numpy的Universal functions中要求输入的数组shape是一致的,当数组的shape不相等时,则会使用广播机制。
可归纳为以下4条规则:
示例:
目的:A+B,其中A为4×1矩阵,B为一维向量(3,)。
A = np.arange(0, 40, 10).reshape(4,1) # A.shape: (4,1)
B = np.arange(0, 3) # B.shape: (3,)
C = A + B
print(C)
print(C.shape)
'''
[[0 1 2]
[10 11 12]
[20 21 22]
[30 31 32]]
'''
想了解更多内容,可登录Numpy官网(http://www.Numpy.org/)查看更多内容。
本文根据《Python深度学习:基于PyTorch》第一章内容总结。
一起加油鸭ヾ(◍°∇°◍)ノ゙