spark(58) -- SparkMllib -- SparkMllib的基础数据类型

1. SparkMllIb数据类型简介

 MLLIB支持很多种机器学习算法中类型,主要有向量和矩阵两种类型。
有下面四种分类:
(1)Local vector本地向量集,主要向Spark提供一组可进行操作的数据集合。
(2)Labeled Point向量标签,让用户能够分类不同的数据集合。
(3)Local matrix本地矩阵,将数据集合以矩阵形式存储在本地计算机中。
(4)Distribute matrix分布式矩阵。将数据集以矩阵的形式存储在分布式的计算机中。

2. Spark的LocalVector本地向量详解及实战

 本地向量主要由两种类型构成:
(1)稀疏型数据集spares
(2)密集型数据集(dense)。
 假设一个向量(9,5,2,7),按密集型数据格式可以设置为(9,5,2,7)进行存储,数据集被作为一个集合的形式整体存储。按稀疏性方式存储,可以按向量的大小存储为(4,Array(0,1,2,3),Array(9,5,2,7)).

import org.apache.spark.mllib

你可能感兴趣的:(大数据学习,机器学习,spark)