结合Apache Ignite探索机器学习

摘要： Apache Ignite新版本发布，支持机器学习和深度学习！

在此前的文章中，我们讨论过Apache Ignite机器学习网格。当时仅有测试版。在随后的版本2.4中，机器学习得以运用。新版本对部分内容进行了更新，支持基于分区的数据集以及遗传算法。Apache Ignite提供了多种可独立运行的机器学习示例，将入门学习变得简易。在本系列的后续文章里，我们将利用Ignite支持的机器学习算法对部分开源数据集进行分析。

简介

我们将在本部分对机器学习网格进行简单的回顾，图1展示了机器学习网格的结构。

图1：机器学习网格

首先，Apache Ignite所呈现的机器学习能力相当实用，可在Ignite内直接构建预测模型。基于此，用户在不采取高代价ETL（Extract-Transform-Load）过程或数据传输的情况下，获取高规模高性能的预测模型。

在Ignite出现之前，机器学习模型得训练和部署在不同的系统上。例如，用户需要将数据移出Ignite，接着使用其它工具对数据进行训练，这样模型才能部署到不同的系统中。此方法存在如下缺点：

需要一个花费昂贵的ETL 进程，特别是针对大型数据集。

在进行ETL时会对数据进行快照。之后，实时系统中的数据也许会发生改变，所以需要将已训练的数据存放至训练集中。

其次，现今多数系统需处理大量的数据，这些数据通常会超过单个服务器容量。分布式计算很好的解决了这个问题，但一些平台并非为数据存储和操作而设计，它们仅适合训练。所以，研发人员需要考虑如何在生产环境中解决由部署所引发的复杂问题。

Ignite所呈现的机器学习能力致力于解决如下问题：

结合Ignite处理数据，能避免因不同系统之间转换而导致的ETL昂贵问题。

Ignite能够提供分布式计算，实现对数据的存储及操作。

Ignite更新了部分机器学习算法，此举对分布式计算进行了优化，并且可充分利用Ignite进行并置处理。

Ignite能作为流式数据的接收器，允许机器学习实时应用。

机器学习通常是一个迭代过程，上下文可能会在算法运行时发生改变。因此，为了避免工作损失和延迟，Ignite支持了基于分区的数据集，使其能够应对节点故障问题。

基于分区的数据集

Apache Ignite目前能够支持基于分区的数据集。这是一个位于机器学习算法和存储计算之间的抽象层。它使用类似于MapReduce的操作进行计算。

在Ignite中，对键值对（K-V）使用散列算法，以确定值存在集群中。实际上，值是部分存储的。在图2中，我们可以看到两个节点集群，它们分别对应两个分区（P1和P2）。

图2：基于分区的数据集

机器学习算法通常采用迭代的方式，并且需要上下文以及数据。此部分体现于图2中的C和D。

如果某个节点失效，Ignite可重新进行分区并找到上下文，如图3所示。例如，节点2中有分区1的备份数据（图中灰色部分），若节点1失效，我们则可用节点2中的数据覆盖节点1。数据可从集群或者本地ETL（用D*标示）中恢复。

图3：节点2中分区1的备份数据

算法及应用

接着，我们将会简述Ignite所支持的机器学习算法

表1：机器学习算法

机器学习库中包含多种遗传算法，此部分在另一篇博文中进行了探讨。

总结

最新版本的Apache Ignite有着许多重要的特性。基于分区的数据集在节点失效的情况下，通过保存上下文使得机器学习算法正常运行。机器学习算法支持海量用例。遗传算法的加入也为处理复杂数据提供了新的机会。

文章原标题《Introduction to Machine Learning with Apache Ignitet》

阅读原文

本文为云栖社区原创内容，未经允许不得转载。

结合Apache Ignite探索机器学习

你可能感兴趣的:(结合Apache Ignite探索机器学习)