Hadoop周刊—第 168 期

Hadoop周刊—第 168 期

 

Hadoop周刊 168

 

 

启明星辰平台和大数据整体组编译

 

 

201651

 

Kafka峰会本周在旧金山召开,不容置疑本周期刊将有大量的Kafka内容。除此以外,还有大量关于Impala性能、KuduDruid方面的文章。在其他新闻部分,Apache Apex成为了Apache的顶级项目,Qubole开源了其StreamX项目。

 

技术新闻

本文快速浏览了如何在可能或不可能创建新数据分区的情况下操作Spark RDD。尤其`mapValues``filter`会保存分区而`map`却不会。

https://medium.com/@corentinanjuna/apache-spark-rdd-partitioning-preservation-2187a93bc33e

 


本文介绍了如何使用Conda构建独立的Python环境(例如pandas插件),以便做为Spark job的一部分装载到集群节点。经过这样的处理,就能在没有python原生包被安装在主操作系统上的情况下运行PySpark job。这种方案同样适用于SparkR

http://quasiben.github.io/blog/2016/4/15/conda-spark/

 

Datadog博客有三篇监控Kafka的系列文章。第一篇详细概括了brokerproducerconsumersZooKeeper的关键度量指标。第二篇介绍了怎样在JConsole和其他工具上通过JMX查看指标,第三篇介绍了Datadog集成方面的知识。

https://www.datadoghq.com/blog/monitoring-kafka-performance-metrics/

 

Salesforce撰文介绍了Kafka在他们组织内的成长史。最初,他们借助Kafka驱动了操作指标分析功能,渐渐地成为一个驱动众多系统的大平台。Salesforce运用Kafka在多个数据中心运行,并使用MirrorMaker在集群间复制和聚合数据。

https://medium.com/salesforce-engineering/expanding-visibility-with-apache-kafka-e305b12c4aba#.5k7j921o3

 

Metamarkets博客有一篇关于优化大规模分布式系统的有趣博文。Druid,他们的分布式数据仓库,最近增加了一种"先进先出"的查询模式,并在重型负载大集群间进行了测试。根据他们的假设,推测任何可能发生和收集到有趣的的指标。

https://metamarkets.com/2016/impact-on-query-speed-from-forced-processing-ordering-in-druid/

 

Google Cloud Big Data博客撰文介绍了BigQuery的内部存储格式,容器,以及其它使得存储数据更有效率的优化措施。

https://cloud.google.com/blog/big-data/2016/04/inside-capacitor-bigquerys-next-generation-columnar-storage-format

 

Apache Kudu(孵化中)博客概述了最近使用YCSB工具对系统性能分析和调优的结果。

http://getkudu.io/2016/04/26/ycsb.html

 

Impala 2.5无论是TPC基准测试还是其它方面均有显著的性能提升。提升项包括运行时过滤器,LLVM代码生成器对`SORT``DECIMAL`的支持,更快的metadata-only查询,等等。

http://blog.cloudera.com/blog/2016/04/apache-impala-incubating-in-cdh-5-7-4x-faster-for-bi-workloads-on-apache-hadoop/

 

本文介绍了,为支持高可用性,如何对Hive Metastore配置MariaDB的。

https://developer.ibm.com/hadoop/blog/2016/04/26/bigsql-ha-configure-ha-hive-metastore-db-using-mariadb10-1/

 

Altiscale博客撰文介绍了寻找NodeGroup相关bug的过程(跟进三月的文章)。如果你因没找到Hadoop(或其他分布式系统)的bug根结而气馁,不要叹气。本文告诉你这的确困难,甚至需要程序员在销售Hadoop服务的企业干活才能搞定。

https://www.altiscale.com/blog/part-1-2-investigation-analysis-and-resolution-of-nodegroup-performance-issues-on-bare-metal-hardware-clusters/

 

Netflix现在运行了超过4000Kafka broker,横跨36个集群。在云中运行Kafka需要一些权衡,团队平衡了开销和数据丢失(日数据丢失小于0.01%)。本文分享了团队在AWS中运行Kafka的经验,主要是一些典型问题,部署策略(小集群、隔离的zookeeper集群),集群级容错,支持AWS availability zonesKafka UI可视化等等。

http://techblog.netflix.com/2016/04/kafka-inside-keystone-pipeline.html

 

Amazon大数据博客撰文介绍了如何从Amazon EMR加密数据存放在S3中。这种集成方式同时支持客户端和服务器端加密(借助于Amazon KMS)。

http://blogs.aws.amazon.com/bigdata/post/TxBQTAF 3X7VLEP/Process-Encrypted-Data-in-Amazon-EMR-with-Amazon-S3-and-AWS-KMS

 

TubeMogul介绍了他们大数据平台的历史,该平台每月支撑万亿次数据分析请求。该团队很早就运用Amazon EMR,导入了Storm实时处理技术,最终把大数据服务落在了Qubole上。

https://www.tubemogul.com/engineering/the-big-data-lifecycle-at-tubemogul/

 

Caffe,深度学习框架,与Spark进行了集成—CaffeOnSparkMapR公司撰文介绍了如何在MapR YARN上运行,文章还包括了采用的性能优化手段。

https://www.mapr.com/blog/distributed-deep-learning-caffe-using-mapr-cluster

 

其他新闻

Apache Apex,大数据流式处理和批处理系统,现在成为了Apache软件基金会的顶级项目。Apex去年8月进入孵化器。

https://blogs.apache.org/foundation/entry/the_apache_ software_foundation_announces90

 

Heroku Kafka,是一个分支于HerokuKafka管理服务。最近接近发布beta版。

https://blog.heroku.com/archives/2016/4/26/announcing-heroku-kafka-early-access

 

MapR博客上的一篇文章强调为什么性别多样性是重要的,还提到了大数据论坛中的女性,本文旨在鼓励女性投身于这一领域。大数据论坛中的女性研讨会本周由MapR组织在圣何塞召开。

https://www.mapr.com/blog/case-women-big-data

 

产品发布

StreamX是一个来自Qubole的开源项目,它能从Kafka拷贝数据到Amazon S3这样的目标存储中。QuboleStreamX作为一种管理服务提供。

http://www.qubole.com/blog/big-data/streamx/

 

SnappyData是一个为OLAPOLTP查询流式数据的新平台(和公司)。SnappyDataApache SparkGemFire的内存存储技术驱动。

http://www.infoworld.com/article/3062022/sql/apache-spark-powers-live-sql-analytics-in-snappydata.html

http://www.snappydata.io/

 

Apache Geode(孵化中)发布了1.0.0-incubating.M2版本,它是一个分布式数据平台,瞄准高性能和低延迟。新版本提供了广域网下的点对点连接等新特性。

http://mail-archives.apache.org/mod_mbox/incubator-geode-dev/201604.mbox/%3CCAFh%2B7k2eiK2TMGK sLqrY9CZDjxjYwiuTQ4QGUVC2s3geyJYwnA% 40mail.gmail.com%3E

 

Apache Knox发布了0.9.0版,它是HadoopREST API网关。新版本为RangerAmbari提供了UI界面支持,以及一些其它的提升和bug修复。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCACRbFyjRF7zShb-NQ29d3FJ0hKZ57ts0Qfo31ffuNODpskwqPQ @mail.gmail.com%3E

 

活动

中国

你可能感兴趣的:(Hadoop周刊—第 168 期)