第十一周

连续两周出差和加班,只能搁浅了两周。

Algorithm

Review

一、Working with UDFs in Apache Spark

本文讲述在Apache Spark中UDF的使用方法,包括样例代码。

原文地址

翻译地址

二、Madhukar's Blog

讲Spark和Scala的个人博客。

Tips/Technology

一、MAVEN上传jar到私服

  1. 在==settings.xml==文件中配置标签,添加字符用户名密码和url
  2. 工程==pom==文件中配置标签,注意其中的id要对应servers中的id
  3. 可选配置==pom==中的

使用详情参考地址

  • 405错误码:检查repository地址是否正确
  • 401、403错误码:私服仓库没有权限修改Nexus对应仓库权限Deployment Policy为“Allow Redeploy”
  • 400错误码:repository仓库地址输入的不对

错误详情参考地址

二、Kite中的ETL工具Morphlines

Morphlines Introduction

Morphlines 是一个开源框架,起源于Cloudera Search项目的一部分。它降低了 Hadoop 平台上开发和维护 ETL 流程的时间和成本,通过 Morphlines 可以抽取、转换并加载数据到 Apache Solr 、 HBase 、HDFS 、企业数据仓库或者在线分析应用。我们可以很方便的通过配置文件对 morphline 的流程进行配置,不需要进行 Java 编码工作。
Morphlines 本身是一个类库,可以嵌入到任何 Java 代码里。一个 morphline 是一个转换命令集合,这些命令对记录进行加载、转换等等。

Kite Morphline是一个Morphline版本,将Morphline应用到除Search外的数据处理中,发布了丰富的库、工具、样例、文档。
Kite Morphline支持

•Flumeevents,
•HDFSfiles,
•SparkRDDs,
•RDBMStables
•Avroobjects
已经应用到Crunch、HBase、Impala、Pig、Hive、Sqoop等。

Morphlines Reference Guide

Share

《阅读源码与阅读书籍》
在时间很紧的时候我会纠结到底是去阅读书,还是去阅读代码?不知道大家有没有这个选择综合征。其实两者并不冲突,而且都很重要。我是这么选择的:

  • 当我想要快速了解一种思想,一种原理,一种方法论的时候,我去找书和相关文档,这样比较效率。
  • 当我想了解具体细节,想要看到具体的算法和实现就会去翻代码。
  • 当我在生产环境中遇到了突如其来的错误,比如程序中使用分库分表的中间件写一条SQL,提示成功了,但就莫名其妙的数据没有插入。这时候就需要本地复现,看源代码并调试。
  • 当我需要做性能调优时我会综合两种方法,注意平时的阅读书籍积累的同时,也需要查看代码寻找细节看到底瓶颈在哪?这些参数都用在什么地方了,怎么用的。
  • 书籍和文档是一种理性认识它告诉你为什么,源码是一种感性认识它告诉你如何去做。

Research

项目整理、需求调研

你可能感兴趣的:(第十一周)