sparse中的稀疏矩阵类共有以下几种:coo_matrix()、bsr_matrix()、csr_matrix()、lil_matrix()、dia_matrix()、dok_matrix()、spmatrix()这几种
其中coo_matrix()是最容易理解的一种形式。
例如,
r=np.array([0,0,2,2,2,3,6,3,4])
c=np.array([0,0,2,2,2,4,5,6,3])
data=np.array([1,1,1,1,1,1,1,1,1])
sparse.coo_matrix((data, (r,c)), shape=(7,7)).todense()
输出的稀疏矩阵如下:
matrix([[2, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0],
[0, 0, 3, 0, 0, 0, 0],
[0, 0, 0, 0, 1, 0, 1],
[0, 0, 0, 1, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 1, 0]])
数组r中的元素和它对应下标的c列表中的元素组成了非零数字在稀疏矩阵中的坐标,r和c的第一个元素都是0,说明矩阵坐标(0,0)位置有非零数字,这个数字是几呢?这就要看data数组了。由于data的数值都是1,(0,0)出现两次,那么(0,0)位置的数值就是1+1=2。这里我们用r,c,data三个数组配合coo_matrix构造了一个稀疏矩阵。稀疏矩阵在计算机中的coo形式存储就是这个的逆过程。
在做特征工程的过程中,对于那些取值是多个类别的变量,经常要用到One-Hot编码,其结果就是得到稀疏矩阵X。现在要在数据集X的基础上加上一些做过一个列变量变换的数据集features,features不是稀疏矩阵,要合并X和feature就需要进行如下操作:
if sparse.issparse(X): #判断X是否稀疏
features = sparse.lil_matrix(features) 将features数据集用lil_matrix()稀疏化
X = sparse.hstack((X, features), 'csr') 横向合并X和稀疏后的features,并存储为csr格式