开源大数据周刊-第37期

摘要: [阿里云E-MapReduce动态] E-MapReduce 2.3.1镜像主版本发布基础镜像CentOS 6.5内核版本升级到2.6.32-642;并支持job failover 资讯 2017年数据领域的八大发展趋势 在2017年数据社区将会有大量的机会出现,并伴随一些危机性的挑战,

阿里云E-MapReduce动态

  • E-MapReduce 2.3.1镜像主版本发布基础镜像CentOS 6.5内核版本升级到2.6.32-642;并支持job failover

资讯

  • 2017年数据领域的八大发展趋势
    在2017年数据社区将会有大量的机会出现,并伴随一些危机性的挑战,下面是对上述问题的纵观。
  • 大数据统一编程模型Apache Beam成为顶级开源项目
    美国时间 1 月 10 日,Apache 软件基金会对外宣布,万众期待的Apache Beam在经历了近一年的孵化之后终于毕业。这一顶级Apache 开源项目终于成熟。
  • Spark 2.1.0发布,是时候升级spark了!
    Spark 2.1.0是2.x分支中的第二个重要的发布版本(第一个是2.0.x),在该版本中,structured streaming有重大改进,增加了event mark watermark机制和对kafka 0.10.0的支持等特性,为其用于生产环境又迈进一步。除此之外,Spark其他重大改进集中在易用性、稳定性和改进等方面,解决了1200多个ticket(包括新功能、bug fix以及性能改进等)。

技术

  • ElasticSearch与大数据的不解情缘
    ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
  • HBase原理-数据读取流程解析
    和写流程相比,HBase读数据是一个更加复杂的操作流程,这主要基于两个方面的原因:其一是因为整个HBase存储引擎基于LSM-Like树实现,因此一次范围查询可能会涉及多个分片、多块缓存甚至多个数据存储文件;其二是因为HBase中更新操作以及删除操作实现都很简单,更新操作并没有更新原有数据,而是使用时间戳属性实现了多版本
  • Flink运行时之基于Netty的网络通信
    本文以及接下来的几篇文章将介绍Flink运行时TaskManager间进行数据交换的核心部分——基于Netty通信框架远程请求ResultSubpartition。作为系列文章的第一篇,先列出一些需要了解的基础对象。
  • 基于Spark GraphX实现微博二度关系推荐
    图计算是近几年大数据领域非常受关注的热点,社交网络中的好友关系推荐是一种典型图计算场景,本文是微博关系项目团队在二度关系计算中的一些实践,供高可用架构读者参考。

你可能感兴趣的:(云栖社区开源大数据周刊)