Hadoop周刊—第 171 期

Hadoop周刊—第 171 期

 

Hadoop周刊 171

 

 

启明星辰平台和大数据总体组编译

 

 

2016522

 

本周,包括LinkedIn新开源项目在内的几个项目都有版本发布。在技术新闻和其他新闻方面,多篇文章回顾了Apache: Big Data North America会议,另外有一组跨越多个不同数据系统分析纽约出租车数据的系列文章。

 

技术新闻

Databricks博客分析了Apache Spark中两种逼近算法。之一,“approxCountDistict”是用来评估不同值的数量;之二,“approxQuantile”用于生成逼近百分比。本文介绍了算法和可视化精度不同的残差。

https://databricks.com/blog/2016/05/19/approximate-algorithms-in-apache-spark-hyperloglog-and-quantiles.html

 

本教程描述了如何使用Apache Hadoop HDFSApache SolrHue存储、索引、查询DICOM格式的医学影像。文章贯穿了加载和获取数据的整个步骤。

http://blog.cloudera.com/blog/2016/05/how-to-process-and-index-medical-images-with-apache-hadoop-and-apache-solr/

 

MapR Streams是一个API兼容Apache Kafka的系统。本文在宏观上比较了MapR StreamsKafka的异同。同时阐明了Kafka Streams怎样和MapR Streams扯上关系的。

https://www.mapr.com/blog/apache-kafka-and-mapr-streams-terms-techniques-and-new-designs

 

本文在我看来是最清晰介绍Paxos的文章之一,Paxos为分布式系统构建了一致性协议。本文用绘图计算机和分布式拍卖示范了这个协议。

http://ifeanyi.co/posts/understanding-consensus/

 

基于Apache: Big Data North America会议上的一篇演讲。Datanami窥探了即将发布的Apache Hadoop 3的新特性。包括,shell脚本重写、任务集本地优化、内存大小自动伸缩能力、支持HDFS erasure codings。本文着重在erasure codings上,文章密切关注了erasure codings在存储效率方面的提升(3x磁盘消耗降低到1.5x)。

http://www.datanami.com/2016/05/18/hadoop-3-poised-boost-storage-capacity-resilience-erasure-coding/

 

这篇演讲来自于PyData柏林会议,描述了Apache ArrowFeather文件格式,探究了数据在跨语言/框架互操作性的工作机制。

http://www.slideshare.net/wesm/python-data-ecosystem-thoughts-on-building-for-the-future

 

发布了两个来自于不同会议与Apache Kafka有关的演讲视频。第一个讨论了Kafka的安全特性,第二个探索了Kafka如何跨系统共享数据。

https://www.oreilly.com/learning/securing-apache-kafka

https://www.infoq.com/presentations/event-streams-kafka

 

这篇博客集成了数篇利用Amazon RedshiftGoogle BigQueryPostgresPresto数据系统加载/查询纽约出租车数据的文章。除了原始基准测试,还详细介绍了如何处理故障、优化、比较替代方案(AWSS3HDFS比)。

http://tech.marksblogg.com/all-billion-nyc-taxi-rides-redshift.html

 

O'Reilly撰文介绍了通过KafkaFlinkElasticsearchKibana怎样实现kappa架构。文章概述了lambdakappa架构,介绍了主要的架构组件,以及怎样设置使用贝叶斯模型发现新奇事物。

http://www.oreilly.com/ideas/applying-the-kappa-architecture-in-the-telco-industry

 

其他新闻

本文列举了最近在Apache: Big Data North America会议上提到的几个大数据生态系统项目。有不少是我们没纳入视线的内容。

http://www.datanami.com/2016/05/11/open-source-tour-de-force-apache-big-data-2016/

 

Pivotal博客有一篇关于大数据和敏捷开发有趣的文章。大数据系统往往停留在非敏捷的世界,例如在装载数据前需求要收集到位,模型要定义好。本文认为,没有在云环境中经过长期验证的话,要对这种方式进行约束(有限的能力和性能、竖井式数据等)。

https://blog.pivotal.io/big-data-pivotal/features/when-it-comes-to-big-data-cloud-and-agility-go-hand-in-hand

 

Databricks发布了他们记录的网络会议视频“Apache Spark MLlib: From Quick Start to Scikit-Learn”。除了视频内容,他们还在会议中解答了八个常见问题。

https://databricks.com/blog/2016/05/18/spark-mllib-from-quick-start-to-scikit-learn.html

 

Hortonworks博客回顾了Apache Storm的历史。2011年开源,2013年进入Apache孵化器,2014年成为顶级项目,今年初发布了1.0版。本文论述了每个里程碑的主要技术进步。

http://hortonworks.com/blog/brief-history-apache-storm/

 

HBaseCon本周在旧金山召开。这次会议,AppleYahooFacebook都有演讲材料。

http://hbasecon.com

 

MapR发图庆祝了过去一年中Apache Drill取得的成绩。一年中发布了7个版本,完成了多个里程碑。

https://www.mapr.com/blog/happy-anniversary-apache-drill-what-difference-year-makes

 

Datanami发布了在Apache: Big Data North America会议上,ASF总监Jim JagielskiODPi项目总监John Mertic的问答录,如大家所料,主要话题还是ASFODPi的关系。

http://www.datanami.com/2016/05/20/apache-foundation-keeps-eyes-wide-open-odpi/

 

产品发布

LinkedIn开源了Ambry,他们的ObjectStore分布式系统。Ambry代码已提交到github,这篇博文介绍了Ambry的服务承诺,设计目标,体系架构和接口。

https://engineering.linkedin.com/blog/2016/05/introducing-and-open-sourcing-ambry---linkedins-new-distributed-

 

apache HAWQ(孵化中)驱动的Pivotal HDB 本周发布了2.0版,HDBHadoop提供了分析数据库。

https://blog.pivotal.io/big-data-pivotal/products/fail-fast-and-ask-more-questions-of-your-data-with-hdb-2-0

 

Apache Mahout本周发布了0.12.1版,Mahout是一个机器学习和数据挖掘系统。本次发布旨在推进FlinkMahout的集成。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCAOtpBjhshagyLN3Qnt0xRnc7YbnMVJjTS4piVXL7LiS2pQguXw@mail.gmail.com%3E

 

Apache Tajo发布了0.11.3版。TajoHadoop的数据仓库。本次发布修正了5bug

http://tajo.apache.org/releases/0.11.3/announcement.html

 

MongoDBApache Spark发布了新的MongoDB Connector。除了对应SparkHadoop InputFormat shim外,该Connector还有其他特性。最后,还解释了MongoDB一些关键特性。

https://www.mongodb.com/blog/post/mongodb-connector-for-apache-spark-announcing-early-access-program-and-new-spark-training

http://rosslawley.co.uk/introducing-a-new=mongodb-spark-connector/

 

SyncSort发布了DMX-h v9,支持Kafka以及新的智能执行框架。

http://insidebigdata.com/2016/05/20/syncsorts-latest-innovations-simplify-integration-of-streaming-data-in-spark-kafka-and-hadoop-for-real-time-analytics/

 

活动

中国

你可能感兴趣的:(Hadoop周刊—第 171 期)