摘要: spark2.0已经发布,本期整理了一些spark的好文(包括最佳实践、原理等)推荐给大家。
E-Mapreduce团队
1.4版本(已经发布)
1.4.1版本(正在研发)
1.5.0版本 (正在研发)
1.6.0版本
Apache Spark 2.0.0 发布,APIs 更新
该版本主要更新APIs,支持SQL 2003,支持R UDF ,增强其性能。
spark2.0技术预览,更易用、更快速、更智能
spark2.0统一了streaming与batch的api,引入了dataset,另外就是tungsten等性能优化,让spark成为更加优秀的分布式计算引擎。
Spark 分析与+ MongoDB 提供数据库即服务
MongoDB的快速部署,是其大受欢迎的主要原因。在其年度会议上,这个NoSQL数据库背后的公司展示了一系列的改进,包括与Spark分析的互联。
飞一般的感觉!当Spark遇到Redis~
一些内存数据结构比其他数据结构来得更高效;如果充分利用Redis,Spark运行起来速度更快。
变不可能为可能,Tachyon帮助Spark变小时级任务到秒
Tachyon就可以帮你让这些数据长期处于内存中并且在不同应用之间共享。
Spark多数据源计算实践及其在GrowingIO的实践
本文主要介绍如何使用Apache Spark中的DataSource API以实现多个数据源混合计算的实践。
用Spark进行大数据处理之机器学习篇
讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。
Spark Streaming图片处理案例介绍
本文首先介绍了流式处理框架的设计原理、Spark Streaming 的工作原理,然后通过一个基于 Spark Streaming 编写的读取、分析、写入图片的示例帮助读者加深了解 Spark Streaming 的工作原理。