whiten(obs, check_finite=True)
我遇到这个函数是在k-means聚类之前,主要作用是去除数据中的冗余信息。
obs: n维数组
// obs : ndarray
obj = x = np.array([[1.9, 2.3, 1.7],
[1.5, 2.5, 2.2],
[0.8, 0.6, 1.7]])
check_finite : bool, optional
默认为True,主要用来检查数据中是否包含无穷数,True为检查,False不检查。
这个函数的返回值是一个和obs形状一样的n维数组,它是obs中每一个元素除以自己所在行的标准差后得来。看下面实验代码应该很好理解。
from scipy.cluster.vq import whiten
import numpy as np
x = np.array([[1.9, 2.3, 1.7],
[1.5, 2.5, 2.2],
[0.8, 0.6, 1.7]])
x_std = np.std(x, axis=0)
print('x =', x)
print('x_std =', x_std)
y = whiten(x)
print('y =', y)
print('y_std =', x / x_std)
x = [[1.9 2.3 1.7]
[1.5 2.5 2.2]
[0.8 0.6 1.7]]
x_std = [0.45460606 0.85244746 0.23570226]
y = [[4.17944278 2.69811351 7.21248917]
[3.29956009 2.93273208 9.33380951]
[1.75976538 0.7038557 7.21248917]]
y_std = [[4.17944278 2.69811351 7.21248917]
[3.29956009 2.93273208 9.33380951]
[1.75976538 0.7038557 7.21248917]]
我在k-means之前做 z = whiten(z) 操作,这里 z 是一维的,然后一直报错:
TypeError: 'numpy.float64' object does not support item assignment
后来通过阅读源码,发现如果数据是一维的且每个元素都是相等的,那么就会报错。原因是当数据是一维的,算出来标准差之后保存的变量不是一个数组,是一个np.float64的数,当寻找这个原本应该是数组的变量中值为0的索引时,就会报错,因为一个float64的数哪里来的索引呢。实验如下:
from scipy.cluster.vq import whiten
import numpy as np
x = np.array([1, 1, 1, 1])
x_std = np.std(x, axis=0)
print('x =', x)
y = whiten(x)
print('y =', y)
报错:
Traceback (most recent call last):
x = [1 1 1 1]
File "E:/share/leetcode/test/script.py", line 7, in <module>
y = whiten(x)
File "C:\Users\hj_01\AppData\Local\Programs\Python\Python37\lib\site-packages\scipy\cluster\vq.py", line 136, in whiten
std_dev[zero_std_mask] = 1.0
TypeError: 'numpy.float64' object does not support item assignment