Hadoop周刊—第 165 期

Hadoop周刊—第 165 期

Hadoop周刊

 

第 165 期 2016年4月10日

启明星辰——平台和大数据整体组编译

 

本周,包括LinkedIn Airbnb新开源项目在内的数个产品进行了重大版本发布。本期技术部分与流式处理有关——SparkFlinkKafka等等;新闻部分是关于Spark Summit HbaseCon的会议议程。

技术

Zalando发表了他们是如何选择Apache Flink作为流式处理框架的文章。该文章阐述了对评价标准进行验证后得出的结论,阐明了选择Apache Flink的主因在高吞吐量的情况下依然能保持低延迟,真正的流式处理,开发人员支持。

https://tech.zalando.com/blog/apache-showdown-flink-vs.-spark/

 

Cloudera博客刊登了来自Wargaming.net的文章,通过本文可了解到他们如何通过KafkaHBaseDroolsSpark构建实时处理基础设施的。另外,在数据流程方面,他们介绍了如何对HBase的检索和序列化、HBaseSpark之间的数据本地化以及Spark计算方面的优化措施。

http://blog.cloudera.com/blog/2016/04/inside-wargamings-data-driven-real-time-rules-engine/

 

InfoQ发布了大规模流式处理—SMACKSparkMesosAkkaCassandra以及 Kafka)栈的介绍视频。讨论了为什么SMACK栈在处理同样问题的时候比Lambda架构更简单。

http://www.infoq.com/presentations/stream-analytics-scalability

 

Confluent“日志压缩系列博文又有更新,介绍了Kafka项目三月份发生的事情。有不少令人关注的开发内容,包括机架感知、Kerberos支持、基于时间索引方面的进展。以及不少你(我也是)没有时间持续关注的最新研发成果。

http://www.confluent.io/blog/log-compaction-highlights-in-the-kafka-and-stream-processing-community-april-2016

 

Apache Flink 1.0引入了新的复杂事件处理(CEP)库。啰嗦几句,CEP提供了一种检测事件模式的方法。本文借助传感器从数据中心服务器上收集数据,运用一种可能的异常检测用例,诠释了FlinkCEP模式API

http://flink.apache.org/news/2016/04/06/cep-monitoring.html

 

Genome Analysis Toolkit GATK)最近宣布,下一个版本(当前是alpha)将支持Apache Spark。本文简要介绍了工具箱并展示了怎样通过Spark来检测重复DNA片段的。

http://blog.cloudera.com/blog/2016/04/genome-analysis-toolkit-now-using-apache-spark-for-data-processing/

 

InfoWorld综述了Spark2.0关于结构化流式处理方面的计划。微批处理将依然延续,还有些新特性,例如无限数据帧(Infinite DataFrames)、一流的重复查询支持。

http://www.infoworld.com/article/3052924/analytics/what-sparks-structured-streaming-really-means.html

 

AWS大数据博客发布了一篇通过存储在AWS Key Management Service KMS)中的加密密钥加载数据到S3Redshift的文章。除了描述所需步骤,本文还介绍了如何在AWS S3中通过KMS密钥加密数据。

http://blogs.aws.amazon.com/bigdata/post/Tx2Q3ZBOZO9DHVQ/Encrypt-Your-Amazon-Redshift-Loads-with-Amazon-S3-and-AWS-KMS

 

Confluent博客介绍了如何使用Kafka Connect Kafka Streams 编写非凡的“hello world”程序。更确切地说,范例程序从IRC拉维基百科数据,并解析消息、进行多方面的统计计算。本文还用了若干程序展示了整个实现过程。

http://www.confluent.io/blog/hello-world-kafka-connect-kafka-streams

 

本文从Postgres Cassandra转换简单的模式(schemas),并描述了主要的差异复制、数据类型(Cassandra不支持JSON)、主键、最终以一致性。

http://neovintage.org/2016/04/07/data-modeling-in-cassandra-from-a-postgres-perspective/

 

新闻

ESG博客报导了最近Strata+Hadoop World大会的情况。并有些重点关注,例如Spark的良好势头、机器学习、云服务。

http://blog.esg-global.com/riding-high-at-stratahadoop-world

 

InformationWeek也报导了Strata大会,关注了MapRPivotal的关灯片、人工智能等。

http://www.informationweek.com/big-data/ai-public-data-sets-real-time-strata-+-hadoop-keynote-sampling/d/d-id/1324943?

 

Spark Summit 2016议程敲定,将于66-8日在旧金山举行。会议将有两天展开五个方向的讨论。

https://databricks.com/blog/2016/04/04/agenda-announced-for-sparksummit-2016-in-san-francisco.html

 

福布斯采访了Cloudera CEO Tom Reilly,他讨论了公司的机遇、竞争性市场、上市计划等。

http://www.forbes.com/sites/roberthof/2016/04/06/ceo-tom-reilly-makes-the-case-for-cloudera-and-its-ipo/

 

Datanami撰文将正在崛起的Apache Kafka作为流式处理的支柱。文章还采访了Confluent联合创始人兼CTO Neha Narkhede,坊间她表示最近将推出Kafka Connect Kafka Streams

http://www.datanami.com/2016/04/06/real-time-rise-apache-kafka/

 

HBaseCon将于524日在旧金山召开,最近议程才正式宣布。在三个方向上,将有20个以上的议题要讨论。

http://blog.cloudera.com/blog/2016/04/hbasecon-2016-speaker-lineup-announced/

 

发布

 Apache HBase 0.98.18 1.1.4最近都发布了。1.1.4上有包括九个或正确性在内的若干修复。HBase 0.98.18羞答答的仅解决了50个问题(bug、改善两个新特性)。

http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCANZa%3DGu-mAxKEtfoRjctHcE0KD7z52oE010Fgsf6AMmW2tDZLA%40mail.gmail.com%3E 
http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCA%2BRK%3D_CtZ1L07nS6Og2ekfVwet0qTE7jw-bmyD2pp5UPweUehQ%40mail.gmail.com%3E

 

Apache Lens发布了2.5.0-beta,作为统一分析接口,它已经支持Hadoop生态系统的执行引擎数据存储了。本次发布解决了87票,主要是bug修复和实现新功能。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAL3kmZj60kpopRPpOVEs9o7oTg7YuaC_=c8zncBeMyUESrZsmQ@mail.gmail.com%3E

 

Airbnb 开源了 Caravel,数据探索系统(数据可视化平台)。Caravel支持多种在商业产品上才能看到的特性,能够连接到任意只要支持SQL方言的系统。尤其它支持面向Druid的实时分析。

https://medium.com/airbnb-engineering/caravel-airbnb-s-data-exploration-platform-15a72aa610e5

 

MapR 宣布支持Apache Drill 1.6作为他们的分布式系统。比较有亮点的发布有MapR-DB新存储插件、新SQL窗口函数支持以及端对端安全。在网页介绍部分,有些使用MapR-DB API数据并通Drill查询的例子。

https://www.mapr.com/blog/apache-drill-16-mapr-converged-platform-gearing-new-generation-stack-json-enabled-big-data

 

Apache Flink发布了修复bug后的1.0.x。这次发布解决了23个问题,推荐所有1.0.0的用户升级。

http://flink.apache.org/news/2016/04/06/release-1.0.1.html

 

Cloudera Enterprise 5.7发布附带了SparkHBaseImpalaKafka等组件版本的升级。本次发布的亮点包括从Cloudera Labs 新鲜推荐的Hive-on-SparkHBase-SparkImpala性能重要提升,支持SSD HBase WAL

http://blog.cloudera.com/blog/2016/04/cloudera-enterprise-5-7-is-released/

 

Apache Tajo,构建在Hadoop上的数据仓库系统,发布了0.11.2版。新版本支持了Kerberos,修复了ORC表对Hive的支持等。

http://tajo.apache.org/releases/0.11.2/announcement.html

 

LinkedIn 开源了 Dr. Elephant,里面的工具能诊断HadoopSpark任务的性能问题。基于metricsYARN资源管理器收集已完成任务数据,Dr. Elephant评估后生成诊断报表,内容包括数据错位、GC开销等。LinkedIn宣称借助它能解决80%的问题。

https://engineering.linkedin.com/blog/2016/04/dr-elephant-open-source-self-serve-performance-tuning-hadoop-spark

 

活动

中国

你可能感兴趣的:(Hadoop周刊—第 165 期)