numpy.ma
子模块通过引入掩码数组提供了一种解决数据缺失或无效问题的安全、便捷的方法。numpy.ma
子模块的主体是MaskedArray
类,他是numpy.ndarray
的派生类,可以把numpy.ma
子模块当做ndarray
来用,且无须考虑数组的无效值是否会给操作带来无法预制的意外
import numpy as np
import numpy.ma as ma
掩码数组子模块的ma.array()
函数和Numpy
的np.array()
函数类似,可以直接将列表生成掩码数组,默认mask参数为False,生成的数组类型是MaskedArray
类。数组掩码梳理后,无论是查找最大值、最小值,还是计算均值、方差,都不用再担心数据是否无效的问题了
import numpy as np
import numpy.ma as ma
a = ma.array([0, 1, 2, 3], mask=[0, 0, 1, 0]) # 指定第3个元素无效
print(a)
print(type(a))
print(a.min(), a.max(), a.mean(), a.var())
ma.asarray()
函数可以将普通的NumPy数组转成掩码数组。新生成的掩码数组不会对原数组中的np.nan
或np.inf
做掩码处理,但是会相应调整填充值(fill_value)
import numpy as np
import numpy.ma as ma
a = np.arange(5)
print(ma.asarray(a))
a = np.array([1, np.nan, 2, np.inf, 3]) # 包含特殊值的数组
print(ma.asarray(a))
ma.asarray()
函数不会对原数组中的np.nan
或np.inf
做掩码处理,ma.masked_invalid()
函数则可以实现这个功能
import numpy as np
import numpy.ma as ma
a = np.array([1, np.nan, 2, np.inf, 3])
print(ma.masked_invalid(a))
有时需要将数组中的某个给定值设置为无效(掩码),ma.masked_equal()
函数可以实现这个功能
import numpy as np
import numpy.ma as ma
a = np.arange(3).repeat(2)
print(ma.masked_equal(a, 1)) # 对数组元素1做掩码
有时需要将数组中符合条件的某些特定值设置为无效(掩码),掩码数组子模块提供了若干函数实现条件掩码。这些可能的筛选条件包括大于、大于等于、小于、小于等于、区间内、区间外等6中。
import numpy as np
import numpy.ma as ma
a = np.arange(8)
print(ma.masked_greater(a, 4)) # 掩码大于4的元素
print(ma.masked_greater_equal(a, 4)) # 掩码大于等于4的元素
print( ma.masked_less(a, 4)) # 掩码小于4的元素
print(ma.masked_less_equal(a, 4)) # 掩码小于等于4的元素
print(ma.masked_inside(a, 2, 5)) # 掩码 [2,5]之间的元素
print(ma.masked_outside(a, 2, 5)) # 掩码 [2,5]之外的元素
a和b是两个结构相同的数组,如果用a>5
的条件对数组b掩码,上面那些函数就失效了。这种情况可以使用ma.masked_where()
函数,该函数也可以对数组自身掩码
import numpy as np
import numpy.ma as ma
a = np.arange(8)
b = np.random.random(8)
print( ma.masked_where(a>5, b)) # 用a>5的条件掩码数组b
因为掩码数组MaskedArray
类是numpy.ndarray
的派生类,所以那些用在普通NumPy数组上的索引和切片操作也依然有效
import numpy as np
import numpy.ma as ma
a = np.array([1, np.nan, 2, np.inf, 3])
a = ma.masked_invalid(a)
print(a[0], a[1], a[-1])
print(a[1:-1])
掩码数组内置方法的使用和普通数组没有区别。使用NumPy命名空间的函数则要慎重,如果掩码数组子模块有对应函数,应优先使用数组子模块的对应函数。例如,对掩码数组求正弦,如果使用np.sin()
函数,会发出警告信息;如果使用ma.sin()
函数,则无任何问题
import numpy as np
import numpy.ma as ma
a = np.array([1, np.nan, 2, np.inf, 3])
a = ma.masked_invalid(a)
print(a.min(), a.max(), a.mean(), a.var())
#print(np.sin(a)) # 虽然可以执行,但会弹出警告
print(ma.sin(a)) # 这才是正确的用法
任何情况下,我们都可以通过掩码数组的data属性来获得掩码数组的数据视图,其类型就是np.ndarray
数组。另外,还可以使用掩码数组的__array__()
函数或ma.getdata()
函数来获取掩码数组的数据视图。上述三种方法获得数据视图的操作,本质上都是操作掩码的数组本身。如果需要数据视图副本,需使用copy()
函数
import numpy as np
import numpy.ma as ma
a = ma.array([1, np.nan, 2, np.inf, 3])
print(a)
x = a.data
y = a.__array__()
z = ma.getdata(a)
w = np.copy(a.__array__()) # 复制数据视图
print(x)
print(y)
print(z)
print(w)
a[-1] = 9
print(x)
print(y)
print(z)
print(w)
通过掩码数组的mask属性可以查看当前数组的掩码情况,其代码如下。通常,数组的掩码是一个布尔型数组,或是一个布尔值
import numpy as np
import numpy.ma as ma
a = ma.masked_invalid(np.array([1, np.nan, 2, np.inf, 3]))
print(a.mask)
如果要对数组切片掩码或对数组的某个元素掩码,直接令该切片或该元素等于ma.masked
常量即可
import numpy as np
import numpy.ma as ma
a = ma.masked_invalid(np.array([1, np.nan, 2, np.inf, 3]))
print(a.mask)
print(a)
a[:2] = ma.masked
print(a)
如果要撤销对数组切片或数组中的某个元素的掩码,只需要对该切片或该元素做赋值操作即可
import numpy as np
import numpy.ma as ma
a = ma.masked_invalid(np.array([1, np.nan, 2, np.inf, 3]))
a[1] = 1.5
a[2:4] = 5
print(a)