Husky分布式系统使用向导

本向导是为了更加方便的使用文档,加强对Husky的总体了解,达到快速熟悉并利用其来进行各类分布式计算的目的。

初衷

Husky项目旨在建立一个更具有表达能力和更高效的分布式数据分析系统,为世界提供一个更方便高效的大规模运算模式。

高效: 同等硬件资源下具有更优秀的性能

Husky设计并实现了一个高度优化的执行引擎,以求在有限计算资源之上取得更好的性能。

Husky的计算模型支持快速并高效地实现各类算法。

通用: 可于统一的平台上开发各类应用

Husky支持广泛的应用,其中包括MapReduce的ETL,文本数据挖掘,图数据分析,同步和异步的机器学习。

Husky具有良好的兼容性,支持连接不同的系统并能很好地与Hadoop生态系统共同协作。

简易: 学习曲线低并极易快速上手

Husky实现了各类简易的编程接口,有效地降低应用的开发复杂度,从而缩短开发周期。

Husky的Python和Scala前端支持现有的各类存储系统,并提供高级的编程接口,方便各类数据科学家们简单快速地使用Husky。

搭建

首先需要将Husky部署到你的集群之上,可参照 Husky中文文档-部署。

  1. Husky中文文档-部署

Husky C++ 教程

Husky是基于C++所编写,其提供相对友好而且高度优化的C++APIs。拥有这些C++ APIs,你就可以开发出各类高效的分布式运用,包括各种机器学习和图形分析等等。下面便是为开发者提供的开启C++ APIs美好世界的钥匙:

  1. 基础
  2. Aggregator 指南
  3. Combiner 指南
  4. Broadcast 和 Request 指南
  5. 例子

PyHusky(Husky Python) 教程

PyHusky提供高级的Python前端,方便数据科学家使用极少的代码进行数据分析。PyHusky在提供简易编程接口的同时,由C++的执行引擎保证高效的性能。

  1. 快速开始
  2. PyHusky 运算符
  3. 架构

你可能感兴趣的:(Husky分布式系统使用向导)