Hadoop周刊—第 173 期

Hadoop周刊—第 173 期

 

Hadoop周刊 173

 

 

启明星辰平台和大数据总体组编译

 

 

201665

 

本周,SparkNiFiNetflix MesonStorm方面只有少量内容。Spark峰会本周在旧金山召开,所以呢,下周肯定有不少内容。

 

技术新闻

Databricks博客介绍了Apache Spark 2.0的新特性——跨语言支持存储和加载机器学习模型。模型通过简单的API被存储和加载,模型的元数据与参数保存为JSON风格,模型的数据保存为Parquet风格。

https://databricks.com/blog/2016/05/31/apache-spark-2-0-preview-machine-learning-model-persistence.html

https://databricks.com/blog/2016/05/31/apache-spark-2-0-preview-machine-learning-model-persistence.html

 

MesonNetflix用于执行机器学习工作流的框架。它是Apache HiveSparkMesos这些大数据技术之间的粘合剂。工作流使用DSL进行编写,Meson还提供了更加先进的流水线可视化UINetflix目前没开源Meson,但他们有这方面的计划。

http://techblog.netflix.com/2016/05/meson_31.html

 

IBM Hadoop Dev博客简要介绍和示范了HDFS归档存储能力。

https://developer.ibm.com/hadoop/2016/06/01/use-hdfs-archival-storage/

 

Apache Storm 1.0有了令人惊讶的新特性。本文关注了几个调试能力方面的增强:动态日志级别、统一日志搜索、事件抽样、集成jstack/heap dumps/java飞行记录器分析worker

http://hortonworks.com/blog/whats-new-apache-storm-1-0-part-1-enhanced-debugging/

 

Cloudera博客撰文介绍了如何使用Apache Spark来探索性分析存储在CSV文件中的NBA历史统计数据。分析过程混合使用了ScalaSQL

http://blog.cloudera.com/blog/2016/06/how-to-analyze-fantasy-sports-using-apache-spark-and-sql/

 

Apache NiFi作为一种通用工具受到了很多的关注。它为基于流程的处理而生,可能对很多人并不意味着什么,但NiFi支持标准的ETL,流式处理等。许多NiFi例子都示范了如何从Twitter firehose把数据移动到HDFS中,但本文聚焦在NiFi另外的特性上——示范了一些简单的从HTTP拉数据的过程。

http://hortonworks.com/blog/apache-nifi-not-scratch/

 

Amazon Redshift构建于PostgreSQL引擎上,所以你可以利用PostgreSQL的扩展功能让Redshift集群连接PostgresSQL实例。这样一来,诸如跨数据库连接、将Redshift的结果转换为JSON、在Postgres中创建Redshift数据视图、

数据库之间复制数据等有趣的应用都能实现。

http://blogs.aws.amazon.com/bigdata/post/Tx1GQ6WLEWVJ1OX/JOIN-Amazon-Redshift-AND-Amazon-RDS-PostgreSQL-WITH-dblink

 

其他发布

FeatherCast发布了超过100ApacheCon北美峰会的相关录音。

http://feathercast.apache.org/tag/apacheconna2016/

 

InfoWorld介绍了HeronTwitter才开源的Apache Storm兼容项目。本文介绍了两个项目在架构上的不同。主要指出了Heron起步于几个月前(Storm已发布),就是说Storm在特性上比Heron更有优势。

http://www.infoworld.com/article/3078134/analytics/had-it-with-apache-storm-heron-swoops-to-the-rescue.html

 

DatabricksedX上开了一门新课程,“Apache Spark入门。课程从615日开始,一直持续两周。

launch-first-of-five-free-big-data-courses-on-apache-spark.html

 

产品发布

Amazon EMR发布了4.7.0版。本次发布支持了Apache TezApache Phoenix,并内置了新版本的Apache HBaseApache MahoutPresto。另外,AWS大数据博客还指导了Phoenix如何上手。

http://aws.amazon.com/blogs/aws/amazon-emr-4-7-0-apache-tez-phoenix-updates-to-existing-apps/

http://blogs.aws.amazon.com/bigdata/post/Tx2ZF1NDQYDJFGT/Supercharge-SQL-on-Your-Data-in-Apache-HBase-with-Apache-Phoenix

 

Apache Hive本周发布了2.0.1版。从二月发布2.0.0以来,首次小版本发布。本次修复了60bug

http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CD37344A3.77A64%[email protected]%3E

 

活动

中国

你可能感兴趣的:(Hadoop周刊—第 173 期)