Hadoop周刊—第 171 期

Hadoop周刊第 171 期

启明星辰平台和大数据总体组编译

2016年5月22日

本周，包括LinkedIn新开源项目在内的几个项目都有版本发布。在技术新闻和其他新闻方面，多篇文章回顾了Apache: Big Data North America会议，另外有一组跨越多个不同数据系统分析纽约出租车数据的系列文章。

技术新闻

Databricks博客分析了Apache Spark中两种逼近算法。之一，“approxCountDistict”是用来评估不同值的数量；之二，“approxQuantile”用于生成逼近百分比。本文介绍了算法和可视化精度不同的残差。

https://databricks.com/blog/2016/05/19/approximate-algorithms-in-apache-spark-hyperloglog-and-quantiles.html

本教程描述了如何使用Apache Hadoop HDFS、Apache Solr、Hue存储、索引、查询DICOM格式的医学影像。文章贯穿了加载和获取数据的整个步骤。

http://blog.cloudera.com/blog/2016/05/how-to-process-and-index-medical-images-with-apache-hadoop-and-apache-solr/

MapR Streams是一个API兼容Apache Kafka的系统。本文在宏观上比较了MapR Streams和Kafka的异同。同时阐明了Kafka Streams怎样和MapR Streams扯上关系的。

https://www.mapr.com/blog/apache-kafka-and-mapr-streams-terms-techniques-and-new-designs

本文在我看来是最清晰介绍Paxos的文章之一，Paxos为分布式系统构建了一致性协议。本文用绘图计算机和分布式拍卖示范了这个协议。

http://ifeanyi.co/posts/understanding-consensus/

基于Apache: Big Data North America会议上的一篇演讲。Datanami窥探了即将发布的Apache Hadoop 3的新特性。包括，shell脚本重写、任务集本地优化、内存大小自动伸缩能力、支持HDFS erasure codings。本文着重在erasure codings上，文章密切关注了erasure codings在存储效率方面的提升（3x磁盘消耗降低到1.5x）。

http://www.datanami.com/2016/05/18/hadoop-3-poised-boost-storage-capacity-resilience-erasure-coding/

这篇演讲来自于PyData柏林会议，描述了Apache Arrow和Feather文件格式，探究了数据在跨语言/框架互操作性的工作机制。

http://www.slideshare.net/wesm/python-data-ecosystem-thoughts-on-building-for-the-future

发布了两个来自于不同会议与Apache Kafka有关的演讲视频。第一个讨论了Kafka的安全特性，第二个探索了Kafka如何跨系统共享数据。

https://www.oreilly.com/learning/securing-apache-kafka

https://www.infoq.com/presentations/event-streams-kafka

这篇博客集成了数篇利用Amazon Redshift、Google BigQuery、Postgres、Presto数据系统加载/查询纽约出租车数据的文章。除了原始基准测试，还详细介绍了如何处理故障、优化、比较替代方案（AWS的S3与HDFS比）。

http://tech.marksblogg.com/all-billion-nyc-taxi-rides-redshift.html

O'Reilly撰文介绍了通过Kafka、Flink、Elasticsearch、Kibana怎样实现kappa架构。文章概述了lambda和kappa架构，介绍了主要的架构组件，以及怎样设置使用贝叶斯模型发现新奇事物。

http://www.oreilly.com/ideas/applying-the-kappa-architecture-in-the-telco-industry

其他新闻

本文列举了最近在Apache: Big Data North America会议上提到的几个大数据生态系统项目。有不少是我们没纳入视线的内容。

http://www.datanami.com/2016/05/11/open-source-tour-de-force-apache-big-data-2016/

Pivotal博客有一篇关于大数据和敏捷开发有趣的文章。大数据系统往往停留在非敏捷的世界，例如在装载数据前需求要收集到位，模型要定义好。本文认为，没有在云环境中经过长期验证的话，要对这种方式进行约束（有限的能力和性能、竖井式数据等）。

https://blog.pivotal.io/big-data-pivotal/features/when-it-comes-to-big-data-cloud-and-agility-go-hand-in-hand

Databricks发布了他们记录的网络会议视频“Apache Spark MLlib: From Quick Start to Scikit-Learn”。除了视频内容，他们还在会议中解答了八个常见问题。

https://databricks.com/blog/2016/05/18/spark-mllib-from-quick-start-to-scikit-learn.html

Hortonworks博客回顾了Apache Storm的历史。2011年开源，2013年进入Apache孵化器，2014年成为顶级项目，今年初发布了1.0版。本文论述了每个里程碑的主要技术进步。

http://hortonworks.com/blog/brief-history-apache-storm/

HBaseCon本周在旧金山召开。这次会议，Apple、Yahoo、Facebook都有演讲材料。

http://hbasecon.com

MapR发图庆祝了过去一年中Apache Drill取得的成绩。一年中发布了7个版本，完成了多个里程碑。

https://www.mapr.com/blog/happy-anniversary-apache-drill-what-difference-year-makes

Datanami发布了在Apache: Big Data North America会议上，ASF总监Jim Jagielski和ODPi项目总监John Mertic的问答录，如大家所料，主要话题还是ASF和ODPi的关系。

http://www.datanami.com/2016/05/20/apache-foundation-keeps-eyes-wide-open-odpi/

产品发布

LinkedIn开源了Ambry，他们的ObjectStore分布式系统。Ambry代码已提交到github，这篇博文介绍了Ambry的服务承诺，设计目标，体系架构和接口。

https://engineering.linkedin.com/blog/2016/05/introducing-and-open-sourcing-ambry---linkedins-new-distributed-

由apache HAWQ（孵化中）驱动的Pivotal HDB 本周发布了2.0版，HDB为Hadoop提供了分析数据库。

https://blog.pivotal.io/big-data-pivotal/products/fail-fast-and-ask-more-questions-of-your-data-with-hdb-2-0

Apache Mahout本周发布了0.12.1版，Mahout是一个机器学习和数据挖掘系统。本次发布旨在推进Flink与Mahout的集成。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCAOtpBjhshagyLN3Qnt0xRnc7YbnMVJjTS4piVXL7LiS2pQguXw@mail.gmail.com%3E

Apache Tajo发布了0.11.3版。Tajo是Hadoop的数据仓库。本次发布修正了5个bug。

http://tajo.apache.org/releases/0.11.3/announcement.html

MongoDB为Apache Spark发布了新的MongoDB Connector。除了对应Spark的Hadoop InputFormat shim外，该Connector还有其他特性。最后，还解释了MongoDB一些关键特性。

https://www.mongodb.com/blog/post/mongodb-connector-for-apache-spark-announcing-early-access-program-and-new-spark-training

http://rosslawley.co.uk/introducing-a-new=mongodb-spark-connector/

SyncSort发布了DMX-h v9，支持Kafka以及新的智能执行框架。

http://insidebigdata.com/2016/05/20/syncsorts-latest-innovations-simplify-integration-of-streaming-data-in-spark-kafka-and-hadoop-for-real-time-analytics/

活动

中国

无

Hadoop周刊—第 171 期

你可能感兴趣的:(Hadoop周刊—第 171 期)