Spark Machine Learning Library(MLlib)

MLlib: Spark机器学习(ML)库, 包含:

ML 算法:分类classification, 回归regression, 聚类clustering, 协同过滤 collaborative filtering

特征化:特征提取,转换,降维度,选择性

管道Pipeline: 用于构造、评价以及调节Pipeline

持久化:保存、加载算法、模型以及管道

工具:线性代数、统计、数据处理等

基于DataFrame的API 作为主要机器学习API

Spark 2.0之后,原在spark.mllib包中的基于RDD的API进入仅维护的阶段,之后会以在spark.ml包中基于DataFrame API为主要的机器学习API。

Dataset是一种分布式数据集合。Dataset作为一种新的接口添加到Spark1.6中。

DataFrame是Dataset管理的一系列内容,可以类似于数据库中管理的表。

在Scala API 中, DataFrame 标记为 Dataset[Row].




你可能感兴趣的:(Spark,ML)