统计运算
NumPy提供了一个N维数组类型ndarray,它描述了 相同类型 的“items”的集合。(NumPy provides an N-dimensional array type, the ndarray, which describes a collection of “items” of the same type.)
用ndarray进行存储:
import numpy as np
# 创建ndarray
score = np.array(
[[80, 89, 86, 67, 79],
[78, 97, 89, 67, 81],
[90, 94, 78, 67, 74],
[91, 91, 90, 67, 69],
[76, 87, 75, 67, 86],
[70, 79, 84, 67, 84],
[94, 92, 93, 67, 64],
[86, 85, 83, 67, 80]])
score
返回结果:
array([[80, 89, 86, 67, 79],
[78, 97, 89, 67, 81],
[90, 94, 78, 67, 74],
[91, 91, 90, 67, 69],
[76, 87, 75, 67, 86],
[70, 79, 84, 67, 84],
[94, 92, 93, 67, 64],
[86, 85, 83, 67, 80]])
如果想要知道学生成绩最大的分数,或者做小分数应该怎么做?
在数据挖掘/机器学习领域,统计指标的值也是我们分析问题的一种方式。
常用的指标如下:
进行统计的时候,axis 轴的取值并不一定,Numpy中不同的API轴的值都不一样,在这里,axis 0代表列, axis 1代表行去进行统计
# 接下来对于前四名学生,进行一些统计运算
# 指定列 去统计
temp = score[:4, 0:5]
print("前四名学生,各科成绩的最大分:{}".format(np.max(temp, axis=0)))
print("前四名学生,各科成绩的最小分:{}".format(np.min(temp, axis=0)))
print("前四名学生,各科成绩波动情况:{}".format(np.std(temp, axis=0)))
print("前四名学生,各科成绩的平均分:{}".format(np.mean(temp, axis=0)))
结果:
前四名学生,各科成绩的最大分:[96 97 72 98 89]
前四名学生,各科成绩的最小分:[55 57 45 76 77]
前四名学生,各科成绩波动情况:[16.25576821 14.92271758 10.40432602 8.0311892 4.32290412]
前四名学生,各科成绩的平均分:[78.5 75.75 62.5 85. 82.25]
如果需要统计出某科最高分对应的是哪个同学?
print("前四名学生,各科成绩最高分对应的学生下标:{}".format(np.argmax(temp, axis=0)))
结果:
前四名学生,各科成绩最高分对应的学生下标:[0 2 0 0 1]
import numpy as np
ar = np.arange(6).reshape(2, 3)
print('ar = ', ar)
# 统计运算
print('ar.mean() = ', ar.mean()) # 求平均值
print('按列求平均值:np.mean(ar, axis=0) = ', np.mean(ar, axis=0)) # 按列求平均值
print('按行求平均值:np.mean(ar, axis=1) = ', np.mean(ar, axis=1)) # 按行求平均值
print('ar.max() = ', ar.max()) # 求最大值
print('按列求最大值:np.max(ar, axis=0) = ', np.max(ar, axis=0)) # 按列求最大值
print('按行求最大值:np.max(ar, axis=1) = ', np.max(ar, axis=1)) # 按行求最大值
print('ar.min() = ', ar.min()) # 求最小值
print('按列求最小值:np.min(ar, axis=0) = ', np.min(ar, axis=0)) # 按列求最小值
print('按行求最小值:np.min(ar, axis=1) = ', np.min(ar, axis=1)) # 按行求最小值
print('ar.std() = ', ar.std()) # 求标准差
print('按列求标准差:np.std(ar, axis=0) = ', np.std(ar, axis=0)) # 按列求标准差
print('按列求标准差:np.std(ar, axis=1) = ', np.std(ar, axis=1)) # 按列求标准差
print('ar.var() = ', ar.var()) # 求方差
print('按列求方差:np.var(ar, axis=0) = ', np.var(ar, axis=0)) # 按列求方差
print('按行求方差:np.var(ar, axis=1) = ', np.var(ar, axis=1)) # 按行求方差
print('ar.sum() = ', ar.sum()) # 求和,np.sum()
print('按列求和:np.sum(ar, axis=0) = ', np.sum(ar, axis=0)) # 求和,np.sum() → axis为0,按列求和
print('按行求和:np.sum(ar, axis=1) = ', np.sum(ar, axis=1)) # 求和,np.sum() → axis为1,按行求和
打印结果:
ar = [
[0 1 2]
[3 4 5]
]
ar.mean() = 2.5
按列求平均值:np.mean(ar, axis=0) = [1.5 2.5 3.5]
按行求平均值:np.mean(ar, axis=1) = [1. 4.]
ar.max() = 5
按列求最大值:np.max(ar, axis=0) = [3 4 5]
按行求最大值:np.max(ar, axis=1) = [2 5]
ar.min() = 0
按列求最小值:np.min(ar, axis=0) = [0 1 2]
按行求最小值:np.min(ar, axis=1) = [0 3]
ar.std() = 1.707825127659933
按列求标准差:np.std(ar, axis=0) = [1.5 1.5 1.5]
按列求标准差:np.std(ar, axis=1) = [0.81649658 0.81649658]
ar.var() = 2.9166666666666665
按列求方差:np.var(ar, axis=0) = [2.25 2.25 2.25]
按行求方差:np.var(ar, axis=1) = [0.66666667 0.66666667]
ar.sum() = 15
按列求和:np.sum(ar, axis=0) = [3 5 7]
按行求和:np.sum(ar, axis=1) = [ 3 12]