Hadoop周刊 第 167 期
启明星辰平台和大数据整体组编译
2016 年 4 月 25 日
欢迎来到Hadoop周刊周一特别版。本周有大量来自Spark、Kafka、Beam、Kudu的技术新闻。如果你正在寻找一些更前沿的技术,Apache Metron(孵化中)发布了它们第一个版本。Metron,是一个构建在Hadoop上正在不断发展的通用安全系统。
技术新闻
本文介绍了如何在AWS上构建流式处理系统。包括了诸如Amazon Kinesis 、AWS Lambda、Kineses S3 connector之类简单的搭配方案,也介绍了AWS实现实时分析场景这样相对复杂点的方案。
http://cdn.oreillystatic.com/en/assets/1/event/144/Building%20a%20scalable%20architecture%20for%20processing%20streaming%20data%20on%20AWS%20Presentation.pdf
本文介绍了怎样使用Spark Testing Base。Spark Testing Base是一个用Scala编写,通过Java调用的Spark测试框架。本文的样例代码展示了如何隔离测试逻辑重构Spark代码,同时还通过Java处理了一些臃肿的Scala API。
http://www.jesse-anderson.com/2016/04/unit-testing-spark-with-java/
Altiscale博客概述了在Spark环境下,构建thin和uber jar包的优劣。示范了在Maven和SBT分别构建两种包的情况。
https://www.altiscale.com/blog/spark-on-hadoop-thin-jars/
LinkedIn介绍了他们的Kafka生态系统,生态系统包含一个特殊的Kafka producer,一个为非Java客户端提供的REST API,一个avro模式注册表,以及Gobblin(装载数据到Hadoop的工具)等等。
https://engineering.linkedin.com/blog/2016/04/kafka-ecosystem-at-linkedin
该Spark Streaming教程介绍了怎样通过twitter4j API拉推文,基于标签过滤,对推文进行情感分析。
https://www.mapr.com/blog/spark-streaming-and-twitter-sentiment-analysis
Apache Kudu(孵化中)是Apache Impala(孵化中)的绝佳伴侣,因为它能高效地解决广泛的分析和有针对性的查询。本文描述了两者集成的技术细节,例如Kudu的设计如何保证高效地查询能力,如何通过Impala和Kudu执行写/更新/删除操作等等。
http://blog.cloudera.com/blog/2016/04/how-to-use-impala-and-kudu-together-for-analytic-workloads/
MapR撰文介绍了使用spark-sklearn扩展一个已存在的scikit-learn模型。文章介绍了如何透过Airbnb数据集内部建模,还介绍了如何傍着spark-sklearn进行交叉验证。
https://www.mapr.com/blog/predicting-airbnb-listing-prices-scikit-learn-and-apache-spark
AWS大数据博客写了个如何在Amazon EMR中使用HBase和Hive的教程。本教程介绍了HBase,描述了如何在S3中恢复HBase表,示范了Hive和HBase如何集成等等。
http://blogs.aws.amazon.com/bigdata/post/Tx3EGE8Z90LZ9WX/Combine-NoSQL-and-Massively-Parallel-Analytics-Using-Apache-HBase-and-Apache-Hiv
本文描述了为学生在大数据课程上提供实战经验的挑战。作者经历若干次的迭代和选择似乎有了一个好方案— Altiscale的Hadoop-as-a-Service。
https://www.altiscale.com/blog/hadoop-as-a-service-in-the-classroom/
Cloudera博客的一篇客做文章,作者比较了Parquet和Avro在跨两个数据集的不同处理方式(一个数据集窄(3列)、一个数据集宽(103列))。在用Spark和Spark SQL测试查询/操作后,作者发现Parquet和Avro在查询序列化数据方面有时表现很类似,尽管在大多数情况下查询Parquet数据的时候更快点(序列化数据更小)。
http://blog.cloudera.com/blog/2016/04/benchmarking-apache-parquet-the-allstate-experience/
本文介绍了如何在CDH这样的分布式环境中使用SparkR,尽管SparkR官方还没有支持这种方式。借助YARN在worker本地安装R语言包,job稍加改造就能执行了。
http://www.nodalpoint.com/sparkr-in-cloudera-hadoop/
很多开源框架都能执行MapReduce以及借助更高级的编程模型完成类似的工作。纵观过去,它们依赖独立运行的框架(例如MapReduce, Storm),但是最近的某些变化使得这一切充满了变数。Apache Beam(孵化中)更进一步地跨越了批处理、流式处理两种执行模式,内置更加复杂的计算模型。
http://www.datanami.com/2016/04/22/apache-beam-emerges-ambitious-goal-unify-big-data-development/
Apache博客发布了HBase在HDD、SSD以及RAMDISK上的写入性能测试比对的7篇系列文章。通过这一分析,作者发现并提议在HBase和HDFS上实现一些未覆盖的功能。
https://blogs.apache.org/hbase/entry/hdfs_hsm_and_hbase_part
其他新闻
Tom White,“Hadoop权威指南”的作者撰文介绍他是如何步入Apache Hadoop殿堂的。他的早期贡献是绕着Hadoop与Amazon Web Services集成展开,而今AWS已成为Hadoop项目成功的重要部分。
http://vision.cloudera.com/how-i-got-into-hadoop/
Fluo,为Apache Accumulo准备的分布式处理引擎,向Apache孵化器提交了孵化申请。
https://wiki.apache.org/incubator/FluoProposal
Apache Phoenix宣布将在HBaseCon后举行会议,Apache Phoenix是一个SQL-on-HBase系统。该会议只有半天,主题是介绍Phoenix内部情况和用例。
http://hortonworks.com/blog/announcing-first-annual-phoenixcon-apache-phoenix-user-conference/
产品发布
Apache Metron,构建于Hadoop上的安全框架,发布了0.1版。Hortonworks支撑其作为技术预览版,并撰写本文介绍了如何上手,如何贡献,如何使用Metron UI等等。
http://hortonworks.com/blog/apache-metron-tech-preview-1-come-get/
http://hortonworks.com/blog/apache-metron-use-case-finding-needle-haystack/
Apache NiFi本周发布了0.6.1版。这是修复了10多个bug后的修复版。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCALJK9a7yLnFeJ7Z=eU6mOB-DXvo8MHUr=_RshSjZcTbTcAHDZA@mail.gmail.com%3E
Apache Flink本周发布了1.0.2版。本次发布包括了bug修复,RocksDB环境下的性能提升以及一些文档方面的进步。
http://flink.apache.org/news/2016/04/22/release-1.0.2.html
Amazon发布了新版Amazon EMR,开始支持HBase 1.2。
https://aws.amazon.com/blogs/aws/amazon-emr-update-apache-hbase-1-2-is-now-available/
活动
中国
无