利用python数据分析——Numpy基础:通用函数、利用数组进行数据处理

文章目录

  • 1 通用函数
  • 2 利用数组进行数据处理
    • 2.1 np.meshgrid() 函数
    • 2.2 将条件逻辑表述为数组运算
    • 2.3 数学和统计方法
    • 2.4 用于布尔型数组的方法

1 通用函数

通用函数(ufunc)是一种对ndarray 中的数据执行元素级运算的函数。

  • 比如说sqrtexp
In [137]: arr = np.arange(10)
In [138]: arr
Out[138]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
In [139]: np.sqrt(arr)
Out[139]: 
array([ 0.    ,  1.    ,  1.4142,  1.7321,  2.    ,  2.2361,  2.4495,
        2.6458,  2.8284,  3.    ])
In [140]: np.exp(arr)
Out[140]: 
array([    1.    ,     2.7183,     7.3891,    20.0855,    54.5982,
         148.4132,   403.4288,  1096.6332,  2980.958 ,  8103.0839])
  • 还有一些函数,例如add或maximum,接收2个数组。(也叫作二元ufunc),并返回一个结果数组:
In [141]: x = np.random.randn(8)
In [142]: y = np.random.randn(8)
In [143]: x
Out[143]: 
array([-0.0119,  1.0048,  1.3272, -0.9193, -1.5491,  0.0222,  0.7584,
       -0.6605])
In [144]: y
Out[144]: 
array([ 0.8626, -0.01  ,  0.05  ,  0.6702,  0.853 , -0.9559, -0.0235,
       -2.3042])
In [145]: np.maximum(x, y)
Out[145]: 
array([ 0.8626,  1.0048,  1.3272,  0.6702,  0.853 ,  0.0222,  0.7584,   
       -0.6605])
  • 有些ufunc可以返回多个数组(但是不多)。例如modf是可以返回浮点数数组的小数和整数部分:
In [146]: arr = np.random.randn(7) * 5
In [147]: arr
Out[147]: array([-3.2623, -6.0915, -6.663 ,  5.3731,  3.6182,  3.45  ,  5.0077])
In [148]: remainder, whole_part = np.modf(arr)
In [149]: remainder
Out[149]: array([-0.2623, -0.0915, -0.663 ,  0.3731,
0.6182,  0.45  ,  0.0077])
In [150]: whole_part
Out[150]: array([-3., -6., -6.,  5.,  3.,  3.,  5.])

2 利用数组进行数据处理

NumPy 数组可以使得 多种数据处理任务表述为简洁的 数组表达式(否则需要编写循环)。

用数组表达式代替循环的做法,通常被称为矢量化。

2.1 np.meshgrid() 函数

np.meshgrid() 函数指的是,根据所给的向量返回坐标矩阵。

举例:
给的横坐标是[1,2,3], 纵坐标是 [7, 8]
返回的是

[array([ [1,2,3] [1,2,3] ]), array([ [7,7,7] [8,8,8] ])]

也就是代表了六个点,(1, 7) (2, 7) (3, 7) (1, 8) (2, 8) (3, 8)

#coding:utf-8
import numpy as np
# 坐标向量
a = np.array([1,2,3])
# 坐标向量
b = np.array([7,8])
# 从坐标向量中返回坐标矩阵
# 返回list,有两个元素,第一个元素是X轴的取值,第二个元素是Y轴的取值
res = np.meshgrid(a,b)
#返回结果: [array([ [1,2,3] [1,2,3] ]), array([ [7,7,7] [8,8,8] ])]

  • 再举一个例子:如果想要在一组网格上计算函数 sqrt(x^2 + y^2)
In [155]: points = np.arange(-5, 5, 0.01) # 1000 equally spaced points
In [156]: xs, ys = np.meshgrid(points, points)
In [157]: ys
Out[157]: 
array([[-5.  , -5.  , -5.  , ..., -5.  , -5.  , -5.  ],
       [-4.99, -4.99, -4.99, ..., -4.99, -4.99, -4.99],
       [-4.98, -4.98, -4.98, ..., -4.98, -4.98, -4.98],
       ..., 
       [ 4.97,  4.97,  4.97, ...,  4.97,  4.97,  4.97],
       [ 4.98,  4.98,  4.98, ...,  4.98,  4.98,  4.98],
       [ 4.99,  4.99,  4.99, ...,  4.99,  4.99,  4.99]])
  • 现在,对该函数的求值运算就好办了,把这两个数组当做两个浮点数那样编写表达式即可:
In [158]: z = np.sqrt(xs ** 2 + ys ** 2)
In [159]: z
Out[159]: 
array([[ 7.0711,  7.064 ,  7.0569, ...,  7.0499,  7.0569,  7.064 ],
       [ 7.064 ,  7.0569,  7.0499, ...,  7.0428,  7.0499,  7.0569],
       [ 7.0569,  7.0499,  7.0428, ...,  7.0357,  7.0428, 7.0499],
       ..., 
       [ 7.0499,  7.0428,  7.0357, ...,  7.0286,  7.0357,  7.0428],
       [ 7.0569,  7.0499,  7.0428, ...,  7.0357,  7.0428,  7.0499],
       [ 7.064 ,  7.0569,  7.0499, ...,  7.0428,  7.0499,  7.0569]])

2.2 将条件逻辑表述为数组运算

  • numpy.where 函数是三元表达式 x if condition else y 的矢量化版本。

首先,初始化两个值数组和一个布尔数组:

In [165]: xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
In [166]: yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
In [167]: cond = np.array([True, False, True, True, False])
  • 要求是根据cond中的值,选取xarr和yarr中的值:当cond为True时,选择xarr的值,否则从y中选取。

推导式方法:

In [168]: result = [(x if c else y)
   .....:           for x, y, c in zip(xarr, yarr, cond)]
In [169]: result
Out[169]: [1.1000000000000001, 2.2000000000000002, 1.3, 1.3999999999999999, 2.5]
  • 上面的推导式对于大数组的处理不是很快(因为所有的工作由Python完成);而且无法用于多维数组。

  • 可以使用 np.where()

In [170]: result = np.where(cond, xarr, yarr)
In [171]: result
Out[171]: array([ 1.1,  2.2,  1.3,  1.4,  2.5])
  • 在数据分析工作中,where通常用于根据另一个数组而产生一个新的数组。

举例,首先初始化一个arr数组。

In [172]: arr = np.random.randn(4, 4)
In [173]: arr
Out[173]: 
array([[-0.5031, -0.6223, -0.9212, -0.7262],
       [ 0.2229,  0.0513, -1.1577,  0.8167],
       [ 0.4336,  1.0107,  1.8249, -0.9975],
       [ 0.8506, -0.1316,  0.9124,  0.1882]])

然后,用arr>0 这个矢量表达式,得到一个bool数组。(这一步的工作不是必要的,是为了方便理解王np.where()函数)


In [174]: arr > 0
Out[174]: 
array([[False, False, False, False],
       [ True,  True, False,  True],
       [ True,  True,  True, False],
       [ True, False,  True,  True]], dtype=bool)
  • 需求:对于一个矩阵,希望将所有正数替换为2,所有负数替换为-2.

In [175]: np.where(arr > 0, 2, -2)
Out[175]: 
array([[-2, -2, -2, -2],
       [ 2,  2, -2,  2],
       [ 2,  2,  2, -2],
       [ 2, -2,  2,  2]])
  • 将标量和数组结合起来。还是刚刚的例子,只要将所有正值替换为2,其余数不变。
In [176]: np.where(arr > 0, 2, arr) # set only positive values to 2
Out[176]: 
array([[-0.5031, -0.6223, -0.9212, -0.7262],
       [ 2.    ,  2.    , -1.1577,  2.    ],
       [ 2.    ,  2.    ,  2.    , -0.9975],
       [ 2.    , -0.1316,  2.    ,  2.    ]])

2.3 数学和统计方法

  • 感觉对我有用的方法是:argminargmaxcumsumcumprod
    利用python数据分析——Numpy基础:通用函数、利用数组进行数据处理_第1张图片
    利用python数据分析——Numpy基础:通用函数、利用数组进行数据处理_第2张图片

2.4 用于布尔型数组的方法

在上面这些方法中,布尔值会被强制转换为1(True)和0(False)。因此,sum经常被用来对布尔型数组中的True值计数:

In [190]: arr = np.random.randn(100)
In [191]: (arr > 0).sum() # Number of positive values
Out[191]: 42
  • any用于测试数组中是否存在一个或多个True,而all则检查数组中所有值是否都是True:
In [192]: bools = np.array([False, False, True, False])
In [193]: bools.any()
Out[193]: True
In [194]: bools.all()
Out[194]: False

你可能感兴趣的:(python语言的学习,numpy,python,数据分析)