『青云志』QingCloud Spark 服务新增 1.6.0 版本

Spark 是继 Hadoop 之后新一代的大数据分布式处理平台。它是一个基于内存、容错型的分布式计算引擎,与 Hadoop MapReduce 相比,计算速度要快 100 倍。 Spark 卓越的用户体验以及统一的技术堆栈基本上解决了大数据领域所有的核心问题,使得 Spark 迅速成为当前最为热门的大数据基础平台。

Spark 提供了多语言支持包括 Scala 、 Python 、 Java 、 R 等,特别适合迭代计算和交互式操作。它在 RDD(Resilient Distributed Dataset,一个容错的、并行的数据结构)基础之上提供了 Spark Streaming 流式计算,结构化数据处理组件 SparkSQL,机器学习库 MLlib 以及图计算 GraphX 等。

青云QingCloud Spark 服务目前已经支持 Spark 1.6.0 版本。相比之前的版本,1.6.0 主要变化包括:性能的提升、新的 Dataset API 以及增加了一些机器学习算法

具体体现在:Spark Core/SQL 更新了一些 API 包括新增 Dataset API ;性能有极大提升比如 Parquet 、SQL 查询等。Spark Streaming 更新了一些 API 包括 Python Streaming Listener API ;增加一些信息在 UI 上的显示。

MKlib 在以下几个方面增加了新的算法和新的模型,如:

  • Survival analysis
  • Normal equation for least squares
  • Online hypothesis testing
  • New feature transformers (ChiSqSelector, QuantileDiscretizer, SQL transformer)
  • Bisecting K-Means clustering

通过青云QingCloud Spark 服务,用户能够在 2-3 分钟内创建一个 Spark 集群。除此之外,青云QingCloud 提供的 Spark 还包括在线伸缩、监控和告警等功能,可以帮助用户更好地管理集群。

目前青云QingCloud 提供的版本包括:1.4.1 、1.5.0 和 1.6.0 ,同时 QingCloud 也会一直保持 Spark 最新的三个版本供用户选择使用。更多相关内容可点击阅读原文。

相关技术内容推荐:

如何在云计算平台上部署 Spark 集群?
一场万人参加的大数据课堂讲了些什么?

你可能感兴趣的:(『青云志』QingCloud Spark 服务新增 1.6.0 版本)