Apache Zeppelin项目结构及代码分析

前言

本文基于Apache Zeppelin 0.72版本对Zeppelin的源代码进行分析。

什么是Zeppelin

Apache Zeppelin是一款大数据分析和可视化工具，可以让数据分析师在一个基于Web页面的笔记本中，使用不同的语言，对不同数据源中的数据进行交互式分析，并对分析结果进行可视化的工具。
简单来说，Zeppelin的核心功能就是：通过不同的解释器支持多种语言的repl，并对返回结果进行可视化展示。

Zeppelin的项目结构

Zeppelin一个Web项目，主要使用Java开发，Maven构建。它的语言构成如下：

Zeppelin语言构成.png

Zeppelin的maven项目由多个module组成，分为框架核心module和其他解释器module。其中核心的module有8个，分别为：

zeppelin-server
项目入口，通过Jetty内嵌服务器提供WebSocekt服务和RESTful服务，并且提供了基本的权限验证服务。使用java编写。
zeppelin-zengine
实现Notebook的持久化和检索服务，使用java编写
zeppelin-interpreter
抽象了interpreter接口，规定了解释器的功能。并且提供了与zeppelin-zengine使用Thrift进行通信的协议。使用java编写。
zeppelin-web
使用AngluarJS框架开发的前端。
zeppelin-display
实现前台Angular元素绑定后台数据。
zeppelin-spark-dependencies
此module中没有代码，具体作用是使用户可以使用zeppelin内嵌的Spark。不过由于Zeppelin支持了太多的解释器，package size过大，已经有人提议在未来的版本中移除此模块，详情见Zeppelin的JIRA：https://issues.apache.org/jira/browse/ZEPPELIN-1332
zeppelin-distribution
此模块主要是为了Zeppelin打包使用
helium-dev
这是在Zeppelin-0.7以后新加入的模块，使interpreter、storage等模块可以在运行时（Zeppelin不需要重启）加入到Zeppelin中。不过目前helium相关的很多功能还处于Experimental阶段，因此不太建议在生产环境中使用。

解释器相关的module众多，根据module的名字可以很容易看出解释器的用途，在此不再赘述。

Zeppelin用到的技术

前端

Zeppelin的前端主要使用AngularJS框架开发，使用Node.js进行包的构建。使用Jupyter Notebook实现记事本功能，并且使用了Highlight.js和Bootstrap。

后端

Zeppelin使用了Jetty作为内嵌服务器，通信方式除了WebSocket，还使用Jersey框架提供了Restful服务。
由于Zeppelin的解释器（Interpreter）是独立的JVM进程，因此Zeppelin使用Apache Commons Exec框架来使主进程可以启动解释器进程，并且使用Thrift框架在主进程与解释器进程间进行通信。
Zeppelin还提供了Apache Shiro进行权限控制，使用Apache Lucence对Note进行全文检索。

Zeppelin源码

解释器模块

Interpreter模块是Zeppelin项目的核心模块，以下为主要的类：

Interpreter
Interpreter是一个抽象类，规定了所有解释器必须实现的功能。所有解释器都要继承这个抽象类，通过不同的具体实现，来完成不同语言的解释执行。
RemoteInterpreterService
此类由Thrift自动生成，定义了主进程与独立JVM解释器进程间的通信协议。
InterpreterGroup
一组Interpreter，用于启动启动和停止解释器JVM的最小单元。
RemoteInterpreterProcess
采用独立JVM启动interpreter的具体执行类
RemoteInterpreter
远程interpreter的本地代理
InterpreterSetting
维护interpreter相关元信息，维护note与interpreterGroup的关系
InterpreterOption
决定Zeppelin创建interpreter进程时的处理方式。
InterpreterFactory
负责创建interpreter实例，interpreter配置文件的加载与持久化，interpreterSetting的管理。

记事本模块

Note
由paragraph组成，权限控制、共享和持久化的最小单位。
Paragraph
代码执行的最小单位，负责获取代码文本，执行过程控制及返回结果获取。
Notebook
Note的manager类，负责Note的CURD，复制、导入导出；Note和相关Interpreter配
置和运行时映射关系的维护。
NotebookServer
主要是将其他类封装，提供WebSocket等通信服务。

解释器执行调度器模块

此处为“生产者——消费者”模型，Note和RemoteInterpreterServer为生产者，Scheduler为消费者，缓冲区为Scheduler内部的Job队列。产品为org.apache.zeppelin.scheduler.Job类。

SchedulerFactory
负责创建所有Scheduler，单例模式。
Scheduler
调度器接口，规定了所有调度器必须实现的方法。
FIFOScheduler
先进先出调度器，不支持并发执行
ParallelScheduler
并发调度器，支持并发执行
RemoteScheduler
远程interpreter的代理。

记事本存储模块

NotebookRepo
持久化层顶层接口，规定了持久化层的基本操作。
AzureNotebookRepo
数据存入Azure云的实现。
S3NotebookRepo
数据存入Amazon S3文件系统的实现。
VFSNotebookRepo
数据存入文件系统的实现
GitNotebookRepo
使用Git对Note进行版本管理的实现
NotebookRepoSync
使note在本地系统与远程系统之间同步的实现类。
ZeppelinHubRepo
存入ZeppelinHub的实现类。

搜索服务

SearchService
搜索服务接口，目前只有一个实现类LucenceSearch
LucenceSearch
对Note进行全文索引，方便提供搜索服务。