转载自公众号:PythonCircle
今天给大家分享一个数据分析处理数据的常见的库:Numpy。这个库是 Python 数据分析的基础,它提供的数据结构比 Python 自身的更高效。我们知道 Python 有自带的列表数据结构。Numpy 库和 list 列表有什么区别呢?
python list 列表保存的是对象的指针,比如 [0,1,2] 需要保存 3 个指针和 3 个整数的对象,这样就很浪费内存了。
那 Numpy 是怎么存数据的呢?Numpy 是储存在一个连续的内存块中,节约了计算资源。
小技巧
避免采用隐式拷贝,多用就地操作,比如你想打印 5 个 b,有两种方法:
# 方法1b = 5b*=5print(b)# 方法2b = 5a=b*5print(a)
两种方法结果是一样的,但是性能相差很大,方法 1 性能更优,上篇文章讲到的性能方面和这类似
image
Numpy 库安装
直接使用 pip 命令安装,简单方便。
pip install numpy
ndarray对象
NumPy 数组的维数称为秩(rank),一维数组的秩为 1,二维数组的秩为 2,以此类推。在 NumPy 中,每一个线性的数组称为是一个轴(axes),秩其实是描述轴的数量。比如说,二维数组相当于是一个一维数组,而这个一维数组中每个元素又是一个一维数组。所以这个一维数组就是 NumPy 中的轴(axes),而轴的数量——秩,就是数组的维数。
ndarray 内部由以下内容组成:
一个指向数据(内存或内存映射文件中的一块数据)的指针。
数据类型 dtype,描述在数组中的固定大小值的格子。
一个表示数组形状(shape)的元组,表示各维度大小的元组。
创建数组
import numpy as np
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(a)
# 结果
[[1 2 3]
[4 5 6]
[7 8 9]]
用 shape 属性获得数组的大小。
import numpy as np
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(a.shape)
# 结果
(3, 3)
更改数组的元素,把元素中 5 换成 0,直接用下标。
import numpy as np
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
a[1, 1] = 0
print(a)
# 结果
[[1 2 3]
[4 0 6]
[7 8 9]]
通过 dtype 获得元素的属性。
import numpy as np
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(a.dtype)
# 结果
int32
结构数组
比如我想统计一个班的学生姓名、语文、数学、英语成绩,当然我们可以通过下标来获取,当这样不够高效。用 Numpy 怎么操作呢?我们得先用 dtype 定义好自定义的数据结构。
import numpy as np
studenttype = np.dtype({
'names': ['name', 'chinese', 'math', 'english'],
'formats': ['S32', 'i', 'i', 'i']
})
然后我们用 array 定义真实数据的数组时,把 stype 元素属性定义为上面自定义的数据结构,这样就可以调用自定义的数据结构了。
students = np.array([('zhangsan', 85, 72, 56), ('lisi', 88, 90, 68),
('wangwu', 78, 66, 88)], dtype=studenttype)
我们把需要的值全部取出来,这里我们取出全部的值。
name = students[:]['name']
chinese = students[:]['chinese']
math = students[:]['math']
english = students[:]['english']
数据提取出来之后我们就可以对数据进行处理了,比如,我们要求这三个学生各科成绩的平均值。在 Numpy 库中,mean() 用来求平均值。
print(np.mean(chinese))
print(np.mean(math))
print(np.mean(english))
# 结果
83.66666666666667
76.0
70.66666666666667
很多伙伴可能觉得很繁琐,但是这种通过自己自定义的数据结构更方便,特别是针对庞大的数据量,整理数据的能力也更高效。
ufun运算
ufun 是 universal function 的缩写,对数组中的每个元素进行函数式的操作,计算速度快,因为很多 ufun 函数都是采用 C 语言实现的。
创建连续数组
两种函数可以创建,第一种用 arange 函数创建,格式:arange(初始值,终值,步长),其中终值是开区间,不包括其值。
import numpy as np
b = np.arange(1, 8, 2)
print(b)
# 结果
[1 3 5 7]
第二种用 linspace 函数创建,格式:linspace(初始值,终值,元素个数),其中终值是闭区间,包括其值。
import numpy as np
b = np.linspace(1, 7, 4)
print(b)
# 结果
[1. 3. 5. 7.]
算法运算
可以对数组进行基本的加减乘除、取余运算。
加减乘除运算
用上面两个函数创建的数组举例。
import numpy as np
b = np.linspace(1, 7, 4)
c = np.arange(1, 8, 2)
print(np.add(b, c)) # 加法运算
print(np.subtract(b, c)) # 减法运算
print(np.multiply(b, c)) # 乘法运算
print(np.divide(b, c)) # 除法运算
print(np.mod(b, c)) # 取余运算
# 结果
[ 2. 6. 10. 14.]
[0. 0. 0. 0.]
[ 1. 9. 25. 49.]
[1. 1. 1. 1.]
[0. 0. 0. 0.]
计算数组中最大值、最小值、平均值,标准差、方差。
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(a.max()) # 数组中最大值
print(a.min()) # 数组中最小值
print(a.mean()) # 数组中平均值
print(a.std()) # 数组中标准差
print(a.var()) # 数组中方差
# 结果
9
1
5.0
2.581988897471611
6.666666666666667
数据分析的基础库 Numpy 库的基本用法就介绍到这里。