开源大数据周刊-第16期

摘要: spark2.0已经发布,本期整理了一些spark的好文(包括最佳实践、原理等)推荐给大家。

阿里云E-Mapreduce动态

E-Mapreduce团队

1.4版本(已经发布)

  • 作业运行失败报警
  • 作业并行提交
  • 添加sqoop、shell类型的作业

1.4.1版本(正在研发)

  • 完善失败报警
  • 完善定时任务,增加小时、分钟定时任务

1.5.0版本 (正在研发)

  • 集群整体运行情况的仪表盘
  • 集群状态监控报警

1.6.0版本

  • 交互式查询(支持hive、spark)

资讯

Apache Spark 2.0.0 发布,APIs 更新
该版本主要更新APIs,支持SQL 2003,支持R UDF ,增强其性能。

spark2.0技术预览,更易用、更快速、更智能
spark2.0统一了streaming与batch的api,引入了dataset,另外就是tungsten等性能优化,让spark成为更加优秀的分布式计算引擎。

Spark 分析与+ MongoDB 提供数据库即服务
MongoDB的快速部署,是其大受欢迎的主要原因。在其年度会议上,这个NoSQL数据库背后的公司展示了一系列的改进,包括与Spark分析的互联。

飞一般的感觉!当Spark遇到Redis~
一些内存数据结构比其他数据结构来得更高效;如果充分利用Redis,Spark运行起来速度更快。

变不可能为可能,Tachyon帮助Spark变小时级任务到秒
Tachyon就可以帮你让这些数据长期处于内存中并且在不同应用之间共享。

Spark多数据源计算实践及其在GrowingIO的实践
本文主要介绍如何使用Apache Spark中的DataSource API以实现多个数据源混合计算的实践。

用Spark进行大数据处理之机器学习篇
讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。

Spark Streaming图片处理案例介绍
本文首先介绍了流式处理框架的设计原理、Spark Streaming 的工作原理,然后通过一个基于 Spark Streaming 编写的读取、分析、写入图片的示例帮助读者加深了解 Spark Streaming 的工作原理。

你可能感兴趣的:(云栖社区开源大数据周刊)