开源大数据周刊-第44期

摘要：阿里云E-MapReduce实践 E-MapReduce的HBase集群间迁移 E-MapReduce提供HBase服务，本文介绍了几种HBase集群间迁移的方法。 E-MapReduce中Spark 2.x读写MaxCompute数据最新的aliyun-emapreduce-sdk将MaxCompute数据以DataSource的方式接入Spark 2.x，用户可以使用类似Spark 2.x中读写json/parquet/csv的方式来访问MaxCompute。

阿里云E-MapReduce实践

E-MapReduce的HBase集群间迁移
E-MapReduce提供HBase服务，本文介绍了几种HBase集群间迁移的方法。
E-MapReduce中Spark 2.x读写MaxCompute数据
最新的aliyun-emapreduce-sdk将MaxCompute数据以DataSource的方式接入Spark 2.x，用户可以使用类似Spark 2.x中读写json/parquet/csv的方式来访问MaxCompute。

资讯

数据API经济与大规模数据流通：从水的寓言说起
近期数据API接口服务逐渐兴起，正因数据API服务允许需求方“挑数据”，并具备“开箱即用”以及降低交易成本与门槛等优点，将会成为数据能力开放与交易流通的重要手段。但数据API从当前的实践来看远非完美，运营不慎会导致类似金融领域洗钱行为的“洗数”活动出现，并在隐私保护、计费方面存在不足，因此本文提出了“增强型数据交换导向API”的概念，使得数据API经济能在深思熟虑的顶层设计下运行。本文将从一个寓言故事引出上述探讨。
对农业大数据资源目录体系的一点思考
笔者对农业大数据资源的目录体系做了一些思考和探索，从多个维度和领域对农业大数据进行了初步的规划分类，并对技术实现思路进行了初步的考虑。
基于MIT研发出脑控机器人：可使用脑波为机器人纠错
麻省理工学院的计算机科学和人工智能实验室(CSAIL)的团队和波士顿大学打造出了一种反馈系统，让人类仅用大脑就可以迅速纠正机器人犯下的错误，这款 MIT 研发出的反馈系统能够让人类操作者仅通过大脑信号就能实时纠正机器人做出的选择。
（技术）基于Hadoop的数据仓库Hive 基础知识
Hive是基于Hadoop的数据仓库工具，可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理，提供了类似于SQL语言的查询语言–HiveQL，可通过HQL语句实现简单的MR统计，Hive将HQL语句转换成MR任务进行执行。
（技术）Flink-CEP论文与源码解读之状态与状态转换
Flink的CEP设计与实现重度参考了论文《Efficient Pattern Matching over Event Streams》。该文章结合论文谈了Flink CEP的设计。
（技术）Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势
文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。
（技术）从0到1认识 Spark SQL Catalyst
本文主要介绍SparkSQL的优化器系统Catalyst。

开源大数据周刊-第44期

阿里云E-MapReduce实践

资讯

你可能感兴趣的:(云栖社区开源大数据周刊)