scipy.sparse模块解决稀疏矩阵的存储问题

最近在做腾讯算法广告大赛,样本数高达1100多W,这个时候用numpy矩阵存储特征向量会出现memory error,而且特征本身是稀疏的,也就是大部分元素都为0。查了一些资料后发现scipy库中的sparse模块能很好的解决这个问题,先附上scipy.sparse的文档网址:https://docs.scipy.org/doc/scipy/reference/sparse.html。
scipy.sparse模块解决稀疏矩阵的存储问题_第1张图片

稀疏矩阵:coo_matrix

coo_matrix是以COOrdinate格式保存矩阵的一种数据结构,官方文档如下:
scipy.sparse模块解决稀疏矩阵的存储问题_第2张图片
它可以将array或者list结构转成稀疏矩阵存储:
这里写图片描述
scipy.sparse模块解决稀疏矩阵的存储问题_第3张图片
这里写图片描述
coo_matrix中的toarray()可以将稀疏矩阵转换成np.array的格式。coo_matrix的优势不仅在于能够方便地存储大型稀疏矩阵,而且在于它能够直接传入lightgbm模型进行训练,lightgbm模型特地针对稀疏矩阵的情况进行了优化,所以即使是大型的稀疏特征向量,它也能够很快地进行训练。

coo_matrix元素访问

coo_matrix的存储方式比较特殊,无法直接访问其中的元素,需要转成csc_matrix或者csr_matrix格式才能访问:
scipy.sparse模块解决稀疏矩阵的存储问题_第4张图片

稀疏矩阵的保存和加载

save_npz函数和load_npz函数分别可以实现coo_matrix的保存和加载功能,保存的格式是npz:
scipy.sparse模块解决稀疏矩阵的存储问题_第5张图片

稀疏矩阵的拼接

横向拼接:hstack函数
纵向拼接:vstack函数
scipy.sparse模块解决稀疏矩阵的存储问题_第6张图片

你可能感兴趣的:(python,scipy,稀疏矩阵,memory,error,numpy)