学习MLlib

                半监督学习ppt

  1. MLlib数据类型

    1. MLlib支持保存在本地的,或者由RDD所表示的分布式向量和矩阵。代数运算由Breeze和jblas支持。

    2. 本地向量:元素为double类型,支持dense和sparse。Vector -> (DenseVector, SparseVector)

    3. LabeledPoint:是一个本地向量,加上从0,1,2···的标签,支持从LIBSVM文件加载。

    4. 本地矩阵:Matrix -> (DenseMatrix),保存为以列为主的一维数组

    5. 分布式矩阵: (RowMatrix, IndexedRowMatrix, CoordinateMatrix)

  2. MLlib数据统计

    1. colStats返回每一列的最大值,最小值,均值,方差,非零元素个数

    2. corr求向量或矩阵的相关函数

    3. sampleByKey分层抽样,假设检验,随机数生成

你可能感兴趣的:(学习MLlib)