Hadoop周刊—第 168 期

Hadoop周刊第 168 期

启明星辰平台和大数据整体组编译

2016年5月1日

Kafka峰会本周在旧金山召开，不容置疑本周期刊将有大量的Kafka内容。除此以外，还有大量关于Impala性能、Kudu、Druid方面的文章。在其他新闻部分，Apache Apex成为了Apache的顶级项目，Qubole开源了其StreamX项目。

技术新闻

本文快速浏览了如何在可能或不可能创建新数据分区的情况下操作Spark RDD。尤其`mapValues`和`filter`会保存分区而`map`却不会。

https://medium.com/@corentinanjuna/apache-spark-rdd-partitioning-preservation-2187a93bc33e

本文介绍了如何使用Conda构建独立的Python环境（例如pandas插件），以便做为Spark job的一部分装载到集群节点。经过这样的处理，就能在没有python原生包被安装在主操作系统上的情况下运行PySpark job。这种方案同样适用于SparkR。

http://quasiben.github.io/blog/2016/4/15/conda-spark/

Datadog博客有三篇监控Kafka的系列文章。第一篇详细概括了broker、producer、consumers、ZooKeeper的关键度量指标。第二篇介绍了怎样在JConsole和其他工具上通过JMX查看指标，第三篇介绍了Datadog集成方面的知识。

https://www.datadoghq.com/blog/monitoring-kafka-performance-metrics/

Salesforce撰文介绍了Kafka在他们组织内的成长史。最初，他们借助Kafka驱动了操作指标分析功能，渐渐地成为一个驱动众多系统的大平台。Salesforce运用Kafka在多个数据中心运行，并使用MirrorMaker在集群间复制和聚合数据。

https://medium.com/salesforce-engineering/expanding-visibility-with-apache-kafka-e305b12c4aba#.5k7j921o3

Metamarkets博客有一篇关于优化大规模分布式系统的有趣博文。Druid，他们的分布式数据仓库，最近增加了一种"先进先出"的查询模式，并在重型负载大集群间进行了测试。根据他们的假设，推测任何可能发生和收集到有趣的的指标。

https://metamarkets.com/2016/impact-on-query-speed-from-forced-processing-ordering-in-druid/

Google Cloud Big Data博客撰文介绍了BigQuery的内部存储格式，容器，以及其它使得存储数据更有效率的优化措施。

https://cloud.google.com/blog/big-data/2016/04/inside-capacitor-bigquerys-next-generation-columnar-storage-format

Apache Kudu（孵化中）博客概述了最近使用YCSB工具对系统性能分析和调优的结果。

http://getkudu.io/2016/04/26/ycsb.html

Impala 2.5无论是TPC基准测试还是其它方面均有显著的性能提升。提升项包括运行时过滤器，LLVM代码生成器对`SORT`和`DECIMAL`的支持，更快的metadata-only查询，等等。

http://blog.cloudera.com/blog/2016/04/apache-impala-incubating-in-cdh-5-7-4x-faster-for-bi-workloads-on-apache-hadoop/

本文介绍了，为支持高可用性，如何对Hive Metastore配置MariaDB的。

https://developer.ibm.com/hadoop/blog/2016/04/26/bigsql-ha-configure-ha-hive-metastore-db-using-mariadb10-1/

Altiscale博客撰文介绍了寻找NodeGroup相关bug的过程（跟进三月的文章）。如果你因没找到Hadoop（或其他分布式系统）的bug根结而气馁，不要叹气。本文告诉你这的确困难，甚至需要程序员在销售Hadoop服务的企业干活才能搞定。

https://www.altiscale.com/blog/part-1-2-investigation-analysis-and-resolution-of-nodegroup-performance-issues-on-bare-metal-hardware-clusters/

Netflix现在运行了超过4000个Kafka broker，横跨36个集群。在云中运行Kafka需要一些权衡，团队平衡了开销和数据丢失（日数据丢失小于0.01%）。本文分享了团队在AWS中运行Kafka的经验，主要是一些典型问题，部署策略（小集群、隔离的zookeeper集群），集群级容错，支持AWS availability zones，Kafka UI可视化等等。

http://techblog.netflix.com/2016/04/kafka-inside-keystone-pipeline.html

Amazon大数据博客撰文介绍了如何从Amazon EMR加密数据存放在S3中。这种集成方式同时支持客户端和服务器端加密（借助于Amazon KMS）。

http://blogs.aws.amazon.com/bigdata/post/TxBQTAF 3X7VLEP/Process-Encrypted-Data-in-Amazon-EMR-with-Amazon-S3-and-AWS-KMS

TubeMogul介绍了他们大数据平台的历史，该平台每月支撑万亿次数据分析请求。该团队很早就运用Amazon EMR，导入了Storm实时处理技术，最终把大数据服务落在了Qubole上。

https://www.tubemogul.com/engineering/the-big-data-lifecycle-at-tubemogul/

Caffe，深度学习框架，与Spark进行了集成—CaffeOnSpark。MapR公司撰文介绍了如何在MapR YARN上运行，文章还包括了采用的性能优化手段。

https://www.mapr.com/blog/distributed-deep-learning-caffe-using-mapr-cluster

其他新闻

Apache Apex，大数据流式处理和批处理系统，现在成为了Apache软件基金会的顶级项目。Apex去年8月进入孵化器。

https://blogs.apache.org/foundation/entry/the_apache_ software_foundation_announces90

Heroku Kafka，是一个分支于Heroku的Kafka管理服务。最近接近发布beta版。

https://blog.heroku.com/archives/2016/4/26/announcing-heroku-kafka-early-access

MapR博客上的一篇文章强调为什么性别多样性是重要的，还提到了大数据论坛中的女性，本文旨在鼓励女性投身于这一领域。“大数据论坛中的女性”研讨会本周由MapR组织在圣何塞召开。

https://www.mapr.com/blog/case-women-big-data

产品发布

StreamX是一个来自Qubole的开源项目，它能从Kafka拷贝数据到Amazon S3这样的目标存储中。Qubole把StreamX作为一种管理服务提供。

http://www.qubole.com/blog/big-data/streamx/

SnappyData是一个为OLAP和OLTP查询流式数据的新平台（和公司）。SnappyData由Apache Spark和GemFire的内存存储技术驱动。

http://www.infoworld.com/article/3062022/sql/apache-spark-powers-live-sql-analytics-in-snappydata.html

http://www.snappydata.io/

Apache Geode（孵化中）发布了1.0.0-incubating.M2版本，它是一个分布式数据平台，瞄准高性能和低延迟。新版本提供了广域网下的点对点连接等新特性。

http://mail-archives.apache.org/mod_mbox/incubator-geode-dev/201604.mbox/%3CCAFh%2B7k2eiK2TMGK sLqrY9CZDjxjYwiuTQ4QGUVC2s3geyJYwnA% 40mail.gmail.com%3E

Apache Knox发布了0.9.0版，它是Hadoop的REST API网关。新版本为Ranger和Ambari提供了UI界面支持，以及一些其它的提升和bug修复。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCACRbFyjRF7zShb-NQ29d3FJ0hKZ57ts0Qfo31ffuNODpskwqPQ @mail.gmail.com%3E

活动

中国

无

Hadoop周刊—第 168 期

你可能感兴趣的:(Hadoop周刊—第 168 期)