Spark是什么?(翻译自Learning.Spark.Lightning-Fast.Big.Data.Analysis)

Spark是一个集群计算平台,它的设计理念是快速和通用。

在速度方面,Spark继承了流行的MapReduce模型,但支持更多类型的计算,包括交互查询和流处理。在处理大数据集的时候,速度是非常重要的,它意味着你是交互式的研究数据,花几分钟甚至几小时去等待结果。Spark提高速度的方式之一是内存计算,但是,对于运行在硬盘上的复杂应用程序,Spark依旧比MapReduce快。

在通用性方面,Spark被设计成能适合很多应用场景,包括批处理应用,迭代算法,交互查询和流处理,而这些场景,在之前,是需要由不同的分布式系统去处理的。通过在同一个系统中同时支持这些应用场景,Spark让结合着些不同处理类型变得容易和便宜,而且,结合这些不同类型的处理方式在产品数据分析过程中是很必要的。此外,它减少了维护不同工具的负担。

Spark被设计得很友好,它提供了简单的Python,Java,Scala API,支持SQL ,并且提供了丰富的内置库。它还紧密的集成了其它大数工具。特别的,Spark能运行在Hadoop集群上,并能访问任何Hadoop数据源,包括Cassandra。

你可能感兴趣的:(spark)