Spark-MLlib机器学习相关的数据类型

Spark-MLlib机器学习相关的数据类型,位于 org.apache.sparkmllib包内。


1、Vector 

数学向量,MLlib既支持稠密向量也支持稀疏向量。

稠密向量: 向量的每一位都存储下来。

稀疏向量:存储非零位以节约空间


2、LabeledPoint

表示带标签的数据点,包含一个特征向量与一个标签。


3、Model

训练算法的结果,通过predict()方法对新的数据进行预测


附:操作向量的基本实例

object VectorsTest {
  def main(args: Array[String]): Unit = {

    //创建稠密向量
    val denseVec1 = Vectors.dense(1, 2, 3)
    val denseVec2 = Vectors.dense(Array(1.0, 2.0, 3.0))

    println(denseVec1)
    println(denseVec2)

    //创建稀疏向量
    val sparseVec1 = Vectors.sparse(4, Array(0, 2), Array(1.0, 2.0))
    println(sparseVec1)
  }
}



你可能感兴趣的:(spark)