Hadoop周刊—第 175 期

Hadoop周刊第 175 期

启明星辰平台和大数据总体组编译

2016年6月19日

Hadoop峰会已过去一周了，我们已看到有多个产品（项目）敲定了发布时间。所以在技术新闻部分，有关于Hadoop Kerberos认证的内容另外还有Salsify应用Avro的文章。在产品发布部分，包括Yandex新近开源的列式数据库在内的多个项目均有新版本发布。

技术新闻

OpenCore博客撰文示范了多种Hadoop Kerberos认证协议调试工具。尤其示范了如何使用UserGropuInformation的“main()”方法导出一些有用的调试信息。

http://www.opencore.com/blog/2016/5/user-name-handling-in-hadoop/

YARN系列文章的第四部分，Cloduera博客介绍了如何配置公平调度队列。尤其对资源约束设置、队列安置策略和抢占进行了详解。

http://blog.cloudera.com/blog/2016/06/untangling-apache-hadoop-yarn-part-4-fair-scheduler-queue-basics/

Salsify基于Apache Kafka构建了一个异步微服务架构，并采用Apache Avro进行数据序列化。该应用使用Ruby开发，他们创建了多个新工具使得Avro能和Ruby语言很好的配合。本文介绍了这些工具和它们的价值：avro-builder用于定义记录、基于postgres的模式注册表，avromatic则从avro schema生成模型。

http://blog.salsify.com/engineering/adventures-in-avro

Apache Drill可以动态推断模式，还支持多模式(但相互兼容)数据。这种组合使得一些有趣的用例得以实现，例如跨多个不同模式的json文件查询。MapR博客探究了这些特性并进行了示范。

https://www.mapr.com/blog/sql-query-mixed-schema-data-using-apache-drill

本教程展示了如何将Druid与Apache Kafka结合构建流式分析和可视化（借助Pivot，Druid的web UI）应用。

http://www.confluent.io/blog/building-a-streaming-analytics-stack-with-apache-kafka-and-druid

Apache Beam（孵化中）博客撰文介绍了他们在连接Apache Flink批处理集群方面的成果。Beam是一个开源SDK，最初来自于Google，用于暴露后端未知数据管道API。

http://beam.incubator.apache.org/blog/2016/06/13/flink-batch-runner-milestone.html

Cask Hydrator是一个通过UI界面采用拖拽方式构建数据管道的工具。本教程也演示了如何使用Hydrator把数据从MySQL导入到HDFS。

http://blog.cask.co/2016/06/bringing-relational-data-into-data-lakes/

Databricks撰文介绍了即将发布的Apache Spark 2.0中新的SQL子查询功能。有趣的是，本文以手册形式呈现，最直截了当的展现了代码和范例数据。

https://databricks.com/blog/2016/06/17/sql-subqueries-in-apache-spark-2-0.html

Apache Kudu（孵化中）博客撰写了在单集群节点使用Raft的文章，借此动态扩展到多主节点集群。

http://getkudu.io/2016/06/17/raft-consensus-single-node.html

其他新闻

本文指出Apache Spark社区如果不用心经营，可能会重走因碎片化导致Apache Hadoop生态系统混乱的老路。举例来说，最新版本的CDH和HDP支持不同版本的Spark。

https://techcrunch.com/2016/06/12/spark-fragmentation-undermines-community/

New Stack撰写了一篇关于Concord的文章，Concord是一个构建在Apache Mesos上新的流式处理框架（公开测试状态）。Concord使用C++开发，支持动态拓扑（无需停机实现管道的增加和减少）。

http://thenewstack.io/concord-leverages-mesos-high-performance-stream-processing/

随着Databricks社区版的正式发布，Databricks发布了使用Databricks编写Apache Spark应用程序系列教程的第一篇。

https://databricks.com/blog/2016/06/15/an-introduction-to-writing-apache-spark-applications-on-databricks.html

Hadoop圣何塞峰会于几周前召开，期间举行了题为“大数据行业中的女性”专场午宴。Hortonworks博客特意采访了午宴主持人Hortonworks CMO：Ingrid Burton。

http://hortonworks.com/blog/summer-hortonworks-part-2-wibd-assertive-innovative-take-risks/

产品发布

Apache SystemML（孵化中）最近发布了0.10.0版。SystemML是一个机器学习框架，由多个项目在背后支撑，包括Apache Spark和Apache Hadoop。本次发布包括新的Spark Matrix Block类型、支持深度学习、性能上的提升、新的KNN算法等等。

http://systemml.apache.org/0.10.0-incubating/release_notes.html

Apache Mahout，另一个机器学习框架发布了0.12.2版。本次发布向着集成Apache Zeppelin可视化和支持notebook的目标迈进了一步。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201606.mbox/%3CCAOtpBjgBAuQs5FiX5X_5A+Rd-A1fVz0R7SKttGe4cJuCLRiGww@mail.gmail.com%3E

Qubole宣布他们的HBase-as-a-Service已经在AWS上提供。它为长时运行集群提供了许多漂亮的特性。支持Hannibal和其它监控工具，集成了Apache Zeppelin，并能通过节点引导程序与OpenTSDB和Apache Phoenix配置。

https://www.qubole.com/blog/product/quboles-hbase-as-a-service-is-generally-available-on-aws/

Altiscale发布了Altiscale Insight Cloud实时版。本系统由Apache HBase和Spark Streaming支撑。

https://www.altiscale.com/blog/announcing-the-altiscale-insight-cloud-real-time-edition/

`hs2client`是一个为Apache Hive和Apache Impala（孵化中）提供的新C++库。除了支持C++，这个库还绑定了python，可以在pandas中把数据读到DataFrame。

http://blog.cloudera.com/blog/2016/06/announcing-hs2client-a-fast-new-c-python-thrift-client-for-impala-and-hive/

MapR在其发行版中支持了Apache Spark 2.0开发者预览版。

https://www.mapr.com/blog/spark-20-now-developer-preview-mode-mapr-platform

Apache Beam发布了其0.1.0孵化版，是本项目加入Apache孵化器以来首次发布。

http://beam.incubator.apache.org/beam/release/2016/06/15/first-release.html

Yandex开源了ClickHouse，一个列式分析数据库。本系统为横向和纵向扩展而生。支持复杂数据类型（例如数组）和近似查询。该团队还发布了与其它数据库相比的基准测试结果。

https://clickhouse.yandex/

活动

中国

Hadoop周刊—第 175 期

你可能感兴趣的:(Hadoop周刊—第 175 期)