Spark的稀疏矩阵Sparse vector

1.表示形式
稀疏向量:(4,[0,2,3],[1.0,3.0,4.0])
对应原始向量:(1.0,0.0,3.0,4.0)
稀疏向量分成三个对应元素:(size,indices,values)
说明:其中size是原始向量的长度,indices是原始向量中非零位置的索引下标,values是原始向量中非零下标对应的值,其中indices和values两个数组的长度必须一致。
2.Spark的使用方法
(1)Vector.sparse(4,(0,2,3),(1.0,3.0,4.0))
(2)Vector.sparse(4,(0,1.0),(2,3.0),(3,4.0))
3.Flink的使用方法

import org.apache.flink.ml.math.SparseVector
SparseVector.fromCOO(4, Array((0,1.0),(2,3.0),(3,4.0)))

你可能感兴趣的:(spark机器学习)