Hadoop周刊—第 172 期

Hadoop周刊—第 172 期

 

Hadoop周刊 172

 

 

启明星辰平台和大数据总体组编译

 

 

2016522

 

本周主要关注流式计算—— TwitterCloudera介绍了他们新的流式计算框架,有文章介绍了Apache Flink的流式SQLDataTorrent介绍了Apache Apex容错机制,还有Concord这样新的流式计算框架,另外还有Apache Kafka0.10版。其他新闻方面,Apache孵化器有新动向——Apache TinkerPopApache Zeppelin孵化成为顶级项目,Tephra进入孵化器。除了上述内容,Apache SparkApache HBaseApache DrillApache Ambari等也有新文章。

 

技术新闻

DataTorrent博客撰文介绍了Apache Apex在读写数据文件时的容错机制。Apex是专门处理流式数据的,流式计算有一些微妙但重要的细节需要考虑。例如使用HDFS输出时,HDFS的租约机制会引发问题。

https://www.datatorrent.com/blog/fault-tolerant-file-processing/

 

Databricks博客介绍了Spark 2.0Tungsten代码生成引擎带来的性能提升。博文举例说明了由于虚拟函数的管理,更好地利用CPU寄存器和循环展开,所以代码生成引擎能更快的生成代码。除了Databricks的博文外,Morning Paper还谈到以上技术其实是受到VLDB论文的启发。

https://databricks.com/blog/2016/05/23/apache-spark-as-a-compiler-joining-a-billion-rows-per-second-on-a-laptop.html

https://blog.acolyer.org/2016/05/23/efficiently-compiling-efficient-query-plans-for-modern-hardware/

 

StreamScope是微软流式处理系统,是Morning Paper本周撰写的另一个流式计算文章。介绍了该系统的特征——吞吐量/集群大小、编程模型(SQL)、时间模型、语义学/保证,以及微软产品中的应用。

https://blog.acolyer.org/2016/05/24/streamscope-continuous-reliable-distributed-processing-of-big-data-streams/

 

Apache博客撰文介绍了HubSpot团队对Apache HBaseG1GC调优方面的经验。本文回顾HubSpot如何尝试和保障稳定性、如何保障99%的性能、如何缩短花在垃圾回收上的时间。该团队使用很多技巧,很好地决绝了错综复杂的GC算法。本文最后,还一步步示范了HBaseG1GC调优。

https://blogs.apache.org/hbase/entry/tuning_g1gc_for_your_hbase

 

LinkedIn撰文阐述了调试Kafka偏移量管理问题的诸多困难。本文聚焦了两个所谓"offset rewind"事件的症状,如何在监控过程中检测到这类事件,以及导致这两个事件的根本原因(及解决方案)。

https://engineering.linkedin.com/blog/2016/05/kafkaesque-days-at-linkedin--part-1

 

Databricks博客发布了使用Apache Spark进行基因变异分析系列文章的第三部分也是最后一篇。本文从准备(把文件转换到Parquet并加载进Spark RRD)到如何加载基因型数据再到运行kmeans聚类算法基于基因型特征预测地理种群。

https://databricks.com/blog/2016/05/24/predicting-geographic-population-using-genome-variants-and-k-means.html

 

许多批处理大数据生态系统已从自定义API回到SQL上,所以如果流式处理框架也发生了同样的变化,一定很有趣。本文,Apache Flink团队介绍他们计划支持流式SQLFlink已经有了Table API,他们利用Apache Calcite提供了对SQL的支持。对于windowing,他们计划用Calcite的流式SQL扩展。最初对SQL的支持将在1.1.0版中体现,在1.2.0版加强。

http://flink.apache.org/news/2016/05/24/stream-sql.html

 

本文介绍了Apache DrillXML插件。尽管还没有和Drill集成在一起,但它相当容易被编译成jar和配置对XML的支持。

https://www.mapr.com/blog/how-use-xml-plugin-apache-drill

 

Hortonworks博客简略介绍了Ambari监控度量系统的架构,最近加入了Grafana作为其前端仪表盘。该系统使用Apache PhoenixApache HBase作为存储支撑,所以是可以横向扩展的。

http://hortonworks.com/blog/hood-ambari-metrics-grafana/

 

这篇教程介绍了怎样在Amazon EMR上使用Spark SQLHueApache Zeppelin配合运行SQL查询存储在S3中跨制表符分割的数据。本文最后展示了如何从SparkDynamoDB存储数据。

http://blogs.aws.amazon.com/bigdata/post/Tx2D93GZRHU3TES/Using-Spark-SQL-for-ETL

 

Heroku团队分享了他们使用最新版Apache Kafka的体验——才引入的timestamp字段(8字节)会导致一些反直觉的性能变化。

https://engineering.heroku.com/blogs/2016-05-27-apache-kafka-010-evaluating-performance-in-distributed-systems/

 

其他新闻

O'Reilly数据播客秀就Spark 2.0中结构化流式计算方面的问题采访了来自DatabricksMichael Armbrust。网站上的一篇文章选择引用了其中的话题—— Spark SQL、结构化流式计算的目标、端到端管道的保证、对在线处理运用Spark机器学习算法。

https://www.oreilly.com/ideas/structured-streaming-comes-to-apache-spark-2-0

 

本周两个大数据项目从Apache孵化器孵化完成——Apache TinkerPopApache ZeppelinTinkerPop是图计算框架,Zeppelin是面向数据分析基于webnotebook

https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces91

https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces92

 

TephraHBase的事务引擎进入了Apache孵化器。Tephra最初由Cask的团队创建,目前仅和Apache Phoenix进行了集成。

http://blog.cask.co/2016/05/tephra-a-transaction-engine-for-hbase-moves-to-apache-incubation/

 

TechRepublic撰文介绍了Concord.io,一个由C++开发的流式处理框架。旨在填补高性能流式计算市场的空缺。

http://www.techrepublic.com/article/could-concord-topple-apache-spark-from-its-big-data-throne/

 

产品发布

Apache Avro本周发布了1.8.1版。修复了超过20bug和一些其它进步。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCAO4re1nYMm79WQ2LUeODWjHmJ9EiYOF=mty6p2aiq-S_4R95iQ@mail.gmail.com%3E

 

Confluent发布了基于librdkafka开发的Kafka Python客户端。

https://pypi.python.org/pypi/confluent-kafka/0.9.1.1

 

伴随着新的Kafka 流式计算方式,Apache Kafka 0.10版发布了。新版本支持了机架感知和消息中的timestamp,提升了SASLKafka Connect等。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCAPuboUuRyCRxDp5CLjv2yVM77SpYFF+HdnBeiiyeumYTJNpY4g@mail.gmail.com%3E

 

Confluent发布了基于Apache Kafka 0.10Confluent Platform 3.0版。除了Kafka的核心特性,Confluent Platform还有一个商业组件为Kafka Connect提供配置工具和端到端流监控。

http://www.confluent.io/blog/announcing-apache-kafka-0.10-and-confluent-platform-3.0

 

Apache Kylin,大数据OLAP引擎,发布了1.5.2版。作为一次补丁级的发布,1.5.2有不少新特性/提升/bug修复,包括支持CDH 5.7MapR

http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCA+LQBaTDxb4wVYVvtOC22gMbJ0p9cvhAWzEY_x2n1oNGvEDPSQ@mail.gmail.com%3E

 

Twitter开源了他们的流式处理系统HeronHeronTwitter用于替换Apache Storm的产品,发力点在性能、调试以及开发人员生产率。

https://blog.twitter.com/2016/open-sourcing-twitter-heron

 

Envelope是来自于Cloudera Labs的新项目,它提供了基于配置文件的流式ETL处理过程。构建在Spark streaming之上,Envelope最近正在研发面向KafkaKudu的连接器。

http://blog.cloudera.com/blog/2016/05/new-in-cloudera-labs-envelope-for-apache-spark-streaming/

 

活动

中国

Spark Meetup 4 (杭州) – 周日, 65

http://www.meetup.com/Hangzhou-Apache-Spark-Meetup/events/231071384/

你可能感兴趣的:(Hadoop周刊—第 172 期)