开源大数据周刊-第34期

摘要：阿里云E-MapReduce实践使用E-MapReduce服务处理阿里云文件存储（NAS）的数据文件存储是阿里云今年新推出的存储服务，因为它提供标准的文件访问协议，用户无需对现有应用做任何修改，即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统

阿里云E-MapReduce实践

使用E-MapReduce服务处理阿里云文件存储（NAS）的数据

文件存储是阿里云今年新推出的存储服务，因为它提供标准的文件访问协议，用户无需对现有应用做任何修改，即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。E-MapReduce服务是阿里云上的开源大数据解决方案，可以帮用户构建基于Hadoop等开源组件的大数据平台。今天我给大家介绍一个使用场景，可以将E-MapReduce的Hadoop作业和文件存储（NAS）结合在一起，发挥分布式存储和分布式计算在一起的威力。

资讯

15家大数据企业获融资，聚合数据融资3.6亿元
近日，基础数据服务商“聚合数据”在北京对外宣布获得3.6亿元人民币C轮融资，此轮融资由邱坚强先生领投，袁永刚先生、太浩创投、东合资本，以及前期投资人参与跟投。据资料显示，邱坚强为森马服饰副董事长，森马投资总经理;袁永刚先生为东山精密董事长。聚合数据是国内最早开始做数据服务的平台之一，平台上的数据接口包括生活、健康、出行、金融、通讯、位置、充值等多个行业领。
放眼世界，看医疗大数据
在大数据的浪潮中，中国的精准医学把握时代的趋势，高瞻远瞩，几乎与世界发达国家同步开启精准医学研究。让我们放眼看世界，了解一下其他国家和地区精准医疗的举措。
阿里云发布数据库产品HybridDB
HybridDB(ApsaraDB HybridDB)是一款在线MPP大规模并行处理数据仓库的服务。它基于 Pivotal 公司的开源数据库项目 Greenplum Database 开发，并由阿里云数据库团队在云计算架构下深度扩展。
轻量级大规模机器学习算法库Fregata开源
Fregata是TalkingData开源的大规模机器学习算法库，基于Spark，目前支持Spark 1.6.x, 很快会支持Spark 2.0。目前Fregata包括了Logistic Regression, Softmax, 和Random Decision Trees三种算法。

技术

一次 Spark SQL 性能提升10倍的经历
本文是综合了自己在学习spark过程中的理解记录＋对参考文章中的一些理解＋个人实践spark过程中的一些心得而来，介绍了一个Spark SQL性能优化的整个过程。
大数据处理系统关键层次架构
本文系统介绍了大数据处理系统关键层次架构。
以Flink为例，消除流处理常见的六大谬见
我们在思考流处理问题上花了很多时间，更酷的是，我们也花了很多时间帮助其他人认识流处理，以及如何在他们的组织里应用流处理来解决数据问题。我们首先要做的是纠正人们对流处理(作为一个快速变化的领域，这里有很多误见值得我们思考)的错误认识。在这篇文章里，我们选出了其中的六个作为例子。因为我们对Apache Flink比较熟悉，所以我们会基于Flink来讲解这些例子。

开源大数据周刊-第34期

阿里云E-MapReduce实践

资讯

技术

你可能感兴趣的:(云栖社区开源大数据周刊)