julyboxer

Apache Mahout 简介

通过可伸缩、商业友好的机器学习来构建智能应用程序

文档选项

		打印本页
		将此页作为电子邮件发送
		英文原文

级别：中级

Grant Ingersoll , 技术人员, Lucid Imagination

2009 年 10 月 12 日

当研究院和企业能获取足够的专项研究预算之后，能从数据和用户输入中学习的智能应用程序将变得更加常见。人们对机器学习技巧（比如说集群、协作筛选和分类）的需求前所未有地增长，无论是查找一大群人的共性还是自动标记海量 Web 内容。Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念，并演示了如何使用 Mahout 来实现文档集群、提出建议和组织内容。

在信息时代，公司和个人的成功越来越依赖于迅速有效地将大量数据转化为可操作的信息。无论是每天处理数以千计的个人电子邮件消息，还是从海量博客文章中推测用户的意图，都需要使用一些工具来组织和增强数据。这其中就蕴含着机器学习 领域以及本文章所介绍项目的前景：Apache Mahout（见参考资料）。

机器学习是人工智能的一个分支，它涉及通过一些技术来允许计算机根据之前的经验改善其输出。此领域与数据挖掘密切相关，并且经常需要使用各种技巧，包括统计学、概率论和模式识别等。虽然机器学习并不是一个新兴领域，但它的发展速度是毋庸置疑的。许多大型公司，包括 IBM®、Google、Amazon、Yahoo! 和 Facebook，都在自己的应用程序中实现了机器学习算法。此外，还有许多公司在自己的应用程序中应用了机器学习，以便学习用户以及过去的经验，从而获得收益。

在简要概述机器学习的概念之后，我将介绍 Apache Mahout 项目的特性、历史和目标。然后，我将演示如何使用 Mahout 完成一些有趣的机器学习任务，这需要使用免费的 Wikipedia 数据集。

机器学习 101

机器学习可以应用于各种目的，从游戏、欺诈检测到股票市场分析。它用于构建类似于 Netflix 和 Amazon 所提供的系统，可根据用户的购买历史向他们推荐产品，或者用于构建可查找特定时间内的所有相似文章的系统。它还可以用于根据类别（体育、经济和战争等）对网页自动进行分类，或者用于标记垃圾电子邮件。本文无法完全列出机器学习的所有应用。如果您希望更加深入地探究该领域，我建议您参阅参考资料。

可以采用一些机器学习方法来解决问题。我将重点讨论其中最常用的两个 — 监管和无监管 学习 — 因为它们是 Mahout 支持的主要功能。

监管学习的任务是学习带标签的训练数据的功能，以便预测任何有效输入的值。监管学习的常见例子包括将电子邮件消息分类为垃圾邮件，根据类别标记网页，以及识别手写输入。创建监管学习程序需要使用许多算法，最常见的包括神经网络、Support Vector Machines (SVMs) 和 Naive Bayes 分类程序。

无监管学习的任务是发挥数据的意义，而不管数据的正确与否。它最常应用于将类似的输入集成到逻辑分组中。它还可以用于减少数据集中的维度数据，以便只专注于最有用的属性，或者用于探明趋势。无监管学习的常见方法包括 k-Means、分层集群和自组织地图。

在本文中，我将重点讨论 Mahout 当前已实现的三个具体的机器学习任务。它们正好也是实际应用程序中相当常见的三个领域：

协作筛选
集群
分类

在研究它们在 Mahout 中的实现之前，我将从概念的层面上更加深入地讨论这些任务。

协作筛选

协作筛选 (CF) 是 Amazon 等公司极为推崇的一项技巧，它使用评分、单击和购买等用户信息为其他站点用户提供推荐产品。CF 通常用于推荐各种消费品，比如说书籍、音乐和电影。但是，它还在其他应用程序中得到了应用，主要用于帮助多个操作人员通过协作来缩小数据范围。您可能已经在 Amazon 体验了 CF 的应用，如图 1 所示：

图 1. Amazon 上的协作筛选示例

CF 应用程序根据用户和项目历史向系统的当前用户提供推荐。生成推荐的 4 种典型方法如下：

基于用户 ：通过查找相似的用户来推荐项目。由于用户的动态特性，这通常难以定量。
基于项目 ：计算项目之间的相似度并做出推荐。项目通常不会过多更改，因此这通常可以离线完成。
Slope-One ：非常快速简单的基于项目的推荐方法，需要使用用户的评分信息（而不仅仅是布尔型的首选项）。
基于模型 ：通过开发一个用户及评分模型来提供推荐。

所有 CF 方法最终都需要计算用户及其评分项目之间的相似度。可以通过许多方法来计算相似度，并且大多数 CF 系统都允许您插入不同的指标，以便确定最佳结果。

集群

对于大型数据集来说，无论它们是文本还是数值，一般都可以将类似的项目自动组织，或集群，到一起。举例来说，对于全美国某天内的所有的报纸新闻，您可能希望将所有主题相同的文章自动归类到一起；然后，可以选择专注于特定的集群和主题，而不需要阅读大量无关内容。另一个例子是：某台机器上的传感器会持续输出内容，您可能希望对输出进行分类，以便于分辨正常和有问题的操作，因为普通操作和异常操作会归类到不同的集群中。

与 CF 类似，集群计算集合中各项目之间的相似度，但它的任务只是对相似的项目进行分组。在许多集群实现中，集合中的项目都是作为矢量表示在 n 维度空间中的。通过矢量，开发人员可以使用各种指标（比如说曼哈顿距离、欧氏距离或余弦相似性）来计算两个项目之间的距离。然后，通过将距离相近的项目归类到一起，可以计算出实际集群。

可以通过许多方法来计算集群，每种方法都有自己的利弊。一些方法从较小的集群逐渐构建成较大的集群，还有一些方法将单个大集群分解为越来越小的集群。在发展成平凡集群表示之前（所有项目都在一个集群中，或者所有项目都在各自的集群中），这两种方法都会通过特定的标准退出处理。流行的方法包括 k-Means 和分层集群。如下所示，Mahout 也随带了一些不同的集群方法。

分类

分类（通常也称为归类）的目标是标记不可见的文档，从而将它们归类不同的分组中。机器学习中的许多分类方法都需要计算各种统计数据（通过指定标签与文档的特性相关），从而创建一个模型以便以后用于分类不可见的文档。举例来说，一种简单的分类方法可以跟踪与标签相关的词，以及这些词在某个标签中的出现次数。然后，在对新文档进行分类时，系统将在模型中查找文档中的词并计算概率，然后输出最佳结果并通过一个分类来证明结果的正确性。

分类功能的特性可以包括词汇、词汇权重（比如说根据频率）和语音部件等。当然，这些特性确实有助于将文档关联到某个标签并将它整合到算法中。

机器学习这个领域相当广泛和活跃。理论再多终究需要实践。接下来，我将继续讨论 Mahout 及其用法。

回页首

Mahout 简介

Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目，其主要目标是创建一些可伸缩的机器学习算法，供开发人员在 Apache 在许可下免费使用。该项目已经发展到了它的最二个年头，目前只有一个公共发行版。Mahout 包含许多实现，包括集群、分类、CP 和进化程序。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中（见参考资料）。

Mahout 的历史

背景知识

mahout 的意思是大象的饲养者及驱赶者。Mahout 这个名称来源于该项目（有时）使用 Apache Hadoop — 其徽标上有一头黄色的大象 — 来实现可伸缩性和容错性。

Mahout 项目是由 Apache Lucene（开源搜索）社区中对机器学习感兴趣的一些成员发起的，他们希望建立一个可靠、文档翔实、可伸缩的项目，在其中实现一些常见的用于集群和分类的机器学习算法。该社区最初基于 Ng et al. 的文章 “Map-Reduce for Machine Learning on Multicore”（见参考资料），但此后在发展中又并入了更多广泛的机器学习方法。Mahout 的目标还包括：

建立一个用户和贡献者社区，使代码不必依赖于特定贡献者的参与或任何特定公司和大学的资金。
专注于实际用例，这与高新技术研究及未经验证的技巧相反。
提供高质量文章和示例。

特性

虽然在开源领域中相对较为年轻，但 Mahout 已经提供了大量功能，特别是在集群和 CF 方面。Mahout 的主要特性包括：

Map-Reduce 简介

Map-Reduce 是 Google 开发的一种分布式编程 API，并在 Apache Hadoop 项目中得到了实现。与分布式文件系统相结合，它可以为程序员提供一个定义良好的用于描述计算任务的 API，从而帮助他们简化并行化问题的任务。（有关更多信息，请参见参考资料）。

Taste CF。Taste 是 Sean Owen 在 SourceForge 上发起的一个针对 CF 的开源项目，并在 2008 年被赠予 Mahout。
一些支持 Map-Reduce 的集群实现包括 k-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift。
Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现。
针对进化编程的分布式适用性功能。
Matrix 和矢量库。
上述算法的示例。

Mahout 入门

Mahout 的入门相对比较简单。首先，您需要安装以下软件：

JDK 1.6 或更高版本
Ant 1.7 或更高版本
如果要编译 Mahout 源代码，还需要安装 Maven 2.0.9 或 2.0.10

您还需要本文的示例代码（见下载部分），其中包括一个 Mahout 副本及其依赖关系。依照以下步骤安装示例代码：

解压缩 sample.zip
cd apache-mahout-examples
ant install

步骤 3 将下载必要的 Wikipedia 文件将编译代码。所使用的 Wikipedia 文件大约为 2.5 GB，因此下载时间将由您的宽带决定。

回页首

建立一个推荐引擎

Mahout 目前提供了一些工具，可用于通过 Taste 库建立一个推荐引擎 — 针对 CF 的快速且灵活的引擎。Taste 支持基于用户和基于项目的推荐，并且提供了许多推荐选项，以及用于自定义的界面。Taste 包含 5 个主要组件，用于操作 用户 、项目 和 首选项 ：

DataModel ：用于存储 用户 、项目 和 首选项
UserSimilarity ：用于定义两个用户之间的相似度的界面
ItemSimilarity ：用于定义两个项目之间的相似度的界面
Recommender ：用于提供推荐的界面
UserNeighborhood ：用于计算相似用户邻近度的界面，其结果随时可由 Recommender 使用

借助这些组件以及它们的实现，开发人员可以构建复杂的推荐系统，提供基于实时或者离线的推荐。基于实时的推荐经常只能处理数千用户，而离线推荐具有更好的适用性。Taste 甚至提供了一些可利用 Hadoop 离线计算推荐的工具。在许多情况中，这种合适的方法可以帮助您满足包含大量用户、项目和首选项的大型系统的需求。

为了演示如何构建一个简单的推荐系统，我需要一些用户、项目和评分。为此，我们会使用 cf.wikipedia.GenerateRatings 中的代码（包含在示例代码的源代码中）为 Wikipedia 文档（Taste 称之为 项目 ）随机生成大量 用户 和 首选项 ，然后再手动补充一些关于特定话题（Abraham Lincoln）的评分，从而创建示例中的最终 recommendations.txt 文件。此方法的内涵是展示 CF 如何将对某特定话题感兴趣的人导向相关话题的其他文档。此示例的数据来源于 990（标记为从 0 到 989）个随机用户，他们随机为集合中的所有文章随机分配了一些评分，以及 10 个用户（标记为从 990 到 999），他们对集合中包含 Abraham Lincoln 关键字的 17 篇文章中的部分文章进行了评分。

注意虚构数据！

本文中的示例完全使用的是虚构数据。我自己完成了所有评分，模拟了 10 个对 Abraham Lincoln 感兴趣的实际用户。虽然我相信数据内部的概念很有趣，但数据本身以及所使用的值并非如此。如果您希望获得实际数据，我建议您参阅 University of Minnesota 的 GroupLens 项目，以及 Taste 文档（见参考资料）。我选择虚构数据的原因是希望在所有示例中都使用单一数据集。

首先，我将演示如何为在 recommendations.txt 文件中指定了分数的用户创建推荐。这是 Taste 最为常见的应用，因此首先需要载入包含推荐的数据，并将它存储在一个 DataModel 中。Taste 提供了一些不同的 DataModel 实现，用于操作文件和数据库。在本例中，为简便起见，我选择使用 FileDataModel 类，它对各行的格式要求为：用户 ID、项目 ID、首选项 — 其中，用户 ID 和项目 ID 都是字符串，而首选项可以是双精度型。建立了模型之后，我需要通知 Taste 应该如何通过声明一个 UserSimilarity 实现来比较用户。根据所使用的 UserSimilarity 实现，您可能还需要通知 Taste 如何在未指定明确用户设置的情况下推断首选项。清单 1 实现了以上代码。（示例代码中的 cf.wikipedia.WikipediaTasteUserDemo 包含了完整的代码清单）。

清单 1. 创建模型和定义用户相似度

				
//create the data model
FileDataModel dataModel = new FileDataModel(new File(recsFile));
UserSimilarity userSimilarity = new PearsonCorrelationSimilarity(dataModel);
// Optional:
userSimilarity.setPreferenceInferrer(new AveragingPreferenceInferrer(dataModel));

在清单 1 中，我使用了 PearsonCorrelationSimilarity ，它用于度量两个变量之间的关系，但是也可以使用其他 UserSimilarity 度量。应该根据数据和测试类型来选择相似度度量。对于此数据，我发现这种组合最为合适，但仍然存在一些问题。有关如何选择相似度度量的更多信息，请访问 Mahout 网站（见参考资料）。

为了完成此示例，我需要构建一个 UserNeighborhood 和一个 Recommender 。UserNeighborhood 可以识别与相关用户类似的用户，并传递给 Recommender ，后者将负责创建推荐项目排名表。清单 2 实现了以下想法：

清单 2. 生成推荐

				
//Get a neighborhood of users
UserNeighborhood neighborhood =
        new NearestNUserNeighborhood(neighborhoodSize, userSimilarity, dataModel);
//Create the recommender
Recommender recommender =
        new GenericUserBasedRecommender(dataModel, neighborhood, userSimilarity);
User user = dataModel.getUser(userId);
System.out.println("-----");
System.out.println("User: " + user);
//Print out the users own preferences first
TasteUtils.printPreferences(user, handler.map);
//Get the top 5 recommendations
List recommendations =
        recommender.recommend(userId, 5);
TasteUtils.printRecs(recommendations, handler.map);

您可以在命令行中运行整个示例，方法是在包含示例的目录中执行 ant user-demo 。运行此命令将打印输出虚构用户 995 的首选项和推荐，该用户只是 Lincoln 的爱好者之一。清单 3 显示了运行 ant user-demo 的输出：

清单 3. 用户推荐的输出

				
 [echo] Getting similar items for user: 995 with a neighborhood of 5
     [java] 09/08/20 08:13:51 INFO file.FileDataModel: Creating FileDataModel
            for file src/main/resources/recommendations.txt
     [java] 09/08/20 08:13:51 INFO file.FileDataModel: Reading file info...
     [java] 09/08/20 08:13:51 INFO file.FileDataModel: Processed 100000 lines
     [java] 09/08/20 08:13:51 INFO file.FileDataModel: Read lines: 111901
     [java] Data Model: Users: 1000 Items: 2284
     [java] -----
     [java] User: 995
     [java] Title: August 21 Rating: 3.930000066757202
     [java] Title: April Rating: 2.203000068664551
     [java] Title: April 11 Rating: 4.230000019073486
     [java] Title: Battle of Gettysburg Rating: 5.0
     [java] Title: Abraham Lincoln Rating: 4.739999771118164
     [java] Title: History of The Church of Jesus Christ of Latter-day Saints
              Rating: 3.430000066757202
     [java] Title: Boston Corbett Rating: 2.009999990463257
     [java] Title: Atlanta, Georgia Rating: 4.429999828338623
     [java] Recommendations:
     [java] Doc Id: 50575 Title: April 10 Score: 4.98
     [java] Doc Id: 134101348 Title: April 26 Score: 4.860541
     [java] Doc Id: 133445748 Title: Folklore of the United States Score: 4.4308662
     [java] Doc Id: 1193764 Title: Brigham Young Score: 4.404066
     [java] Doc Id: 2417937 Title: Andrew Johnson Score: 4.24178

从清单 3 中可以看到，系统推荐了一些信心级别不同的文章。事实上，这些项目的分数都是由其他 Lincoln 爱好者指定的，而不是用户 995 一人所为。如果您希望查看其他用户的结构，只需要在命令行中传递 -Duser.id=USER-ID 参数，其中 USER-ID 是 0 和 999 之间的编号。您还可以通过传递 -Dneighbor.size=X 来更改邻近空间，其中，X 是一个大于 0 的整型值。事实上，将邻近空间更改为 10 可以生成极为不同的结果，这是因为阾近范围内存在一个随机用户。要查看邻近用户以及共有的项目，可以向命令行添加 -Dcommon=true 。

现在，如果您所输入的编号恰好不在用户范围内，则会注意到示例生成了一个 NoSuchUserException 。确实，应用程序需要处理新用户进入系统的情况。举例来说，您可以只显示 10 篇最热门的文章，一组随机文章，或者一组 “不相关” 的文章 — 或者，与其这样，还不如不执行任何操作。

如前所述，基于用户的方法经常不具有可伸缩性。在本例中，使用基于项目的方法是更好的选择。幸运的是，Taste 可以非常轻松地实现基于项目的方法。处理项目相似度的基本代码并没有很大差异，如清单 4 所示：

清单 4. 项目相似度示例（摘录自 cf.wikipedia.WikipediaTasteItemItemDemo ）

				
//create the data model
FileDataModel dataModel = new FileDataModel(new File(recsFile));
//Create an ItemSimilarity
ItemSimilarity itemSimilarity = new LogLikelihoodSimilarity(dataModel);
//Create an Item Based Recommender
ItemBasedRecommender recommender =
        new GenericItemBasedRecommender(dataModel, itemSimilarity);
//Get the recommendations
List recommendations =
        recommender.recommend(userId, 5);
TasteUtils.printRecs(recommendations, handler.map);

与清单 1 相同，我根据推荐文件创建了一个 DataModel ，但这次并未实例化 UserSimilarity 实例，而是使用 LogLikelihoodSimilarity 创建了一个 ItemSimilarity ，它可以帮助处理不常见的事件。然后，我将 ItemSimilarity 提供给一个 ItemBasedRecommender ，最后请求推荐。完成了！您可以通过 ant item-demo 命令在示例中代码运行它。当然，在此基础上，您可以让系统支持离线执行这些计算，您还可以探索其他的 ItemSimilarity 度量。注意，由于本示例中的数据是随机的，所推荐的内容可能并不符合用户的期望。事实上，您应该确保在测试过程中计算结果，并尝试不同的相似度指标，因为许多常用指标在一些边界情况中会由于数据不足而无法提供合适的推荐。

我们再来看新用户的例子，当用户导航到某个项目之后，缺少用户首选项时的操作就比较容易实现了。对于这种情况，您可以利用项目计算并向 ItemBasedRecommender 请求与相当项目最相似的项目。清单 5 展示了相关代码：

清单 5. 相似项目演示（摘录自 cf.wikipedia.WikipediaTasteItemRecDemo ）

				
//create the data model
FileDataModel dataModel = new FileDataModel(new File(recsFile));
//Create an ItemSimilarity
ItemSimilarity itemSimilarity = new LogLikelihoodSimilarity(dataModel);
//Create an Item Based Recommender
ItemBasedRecommender recommender =
        new GenericItemBasedRecommender(dataModel, itemSimilarity);
//Get the recommendations for the Item
List simItems
        = recommender.mostSimilarItems(itemId, numRecs);
TasteUtils.printRecs(simItems, handler.map);

您可以通过在命令中执行 ant sim-item-demo 来运行清单 5 。它与清单 4 之间的唯一差异就是，清单 5 并没有请求推荐，而是请求输出最相似的项目。

现在，您可以继续深入探索 Taste。要了解更多信息，请阅读 Taste 文档和 [email protected] 邮件列表（见参考资料）。接下来，我将讨论如何通过利用 Mahout 的集群功能来查找相似文章。

回页首

使用 Mahout 实现集群

Mahout 支持一些集群算法实现（都是使用 Map-Reduce 编写的），它们都有一组各自的目标和标准：

Canopy ：一种快速集群算法，通常用于为其他集群算法创建初始种子。
k-Means （以及 模糊 k-Means ）：根据项目与之前迭代的质心（或中心）之间的距离将项目添加到 k 集群中。
Mean-Shift ：无需任何关于集群数量的推理知识的算法，它可以生成任意形状的集群。
Dirichlet ：借助基于多种概率模型的集群，它不需要提前执行特定的集群视图。

从实际的角度来说，名称和实现并不如它们生成的结果重要。了解了这一点之后，我将展示 k-Means 的运行原理，而其余内容将由您自己去研究。请记住，要有效运行每个算法，您需要满足它们各自的的需求。

简单来说（详细信息见下文），使用 Mahout 创建数据集群的步骤包括：

准备输入。如果创建文本集群，您需要将文本转换成数值表示。
使用 Mahout 中可用的 Hadoop 就绪的驱动程序运行所选集群算法。
计算结果。
如果有必要，执行迭代。

首先，集群算法要求数据必需采用适合处理的格式。在机器学习中，数据通常被表示为矢量，有时也称作特征矢量 。在集群中，矢量是表示数据的一组权重值。我将使用通过 Wikipedia 文档生成的矢量来演示集群，但是也可以从其他地方获取矢量，比如说传感器数据或用户资料。Mahout 随带了两个 Vector 表示：DenseVector 和 SparseVector 。根据所使用的数据，您需要选择合适的实现，以便实现良好的性能。通常而言，基于文本的问题是很少的，因此应该使用 SparseVector 来处理文本。另一方面，如果大多数矢量的大多数值都是非零的，则比较适合使用 DenseVector 。如果您对此不确定，可以尝试这两种实现来处理数据的一个子集，然后确定哪种实现的运行速度更快。

通过 Wikipedia 内容生成矢量的方法如下（我已经完成了此工作）：

将内容索引编入 Lucene，确保存储相关字段（用于生成矢量的字段）的 term 矢量。我不会讨论这方面的详细信息 — 不在本文讨论范围之内 — 但我会提供一些简要提示以及 Lucene 上的一些参考资料。Lucene 提供了一个称为 EnWikiDocMaker 的类（包含在 Lucene 的 contrib/benchmark 包中），该类可以读取 Wikipedia 文件块中的内容并生成编入 Lucene 索引的文档。
使用 org.apache.mahout.utils.vectors.lucene.Driver 类（位于 Mahout 的 utils 模块中）通过 Lucene 索引创建矢量。此驱动程序提供了大量用于创建矢量的选项。Mahout wiki 页面 “Creating Vectors from Text” 提供了更多信息（见参考资料）。

运行这两个步骤的结果是生成一个文件，该文件类似于与您从 Getting started with Mahout 入门部分下载的 n2.tar.gz 文件。需要说明一下，n2.tar.gz 文件中的矢量是通过由 ant install 方法之前下载的 Wikipedia “块” 文件中的所有文件的索引创建的。矢量将被格式化为 Euclidean 格式（或者 L² 格式；请参见参考资料）。在使用 Mahout 时，您可能希望尝试采用不同的方法来创建矢量，以确定哪种方法的效果最好。

评估结果

可以采用多种方法来评估集群结果。许多人最开始都是使用手动检查与随机测试相结合的方法。但是，要实现令人满足的结果，通常都需要使用一些更加高级的计算技巧，比如说使用一些准则开发一个黄金标准。有关评估结果的更多信息，请参见参考资料。在本例中，我使用手动检查来判断结果集群是否有意义。如果要投入生产，则应该使用更加严格的流程。

创建了一组矢量之后，接下来需要运行 k-Means 集群算法。Mahout 为所有集群算法都提供了驱动程序，包括 k-Means 算法，更合适的名称应该是 KMeansDriver 。可以直接将驱动程序作为单独的程序使用，而不需要 Hadoop 的支持，比如说您可以直接运行 ant k-means 。有关 KMeansDriver 可接受的参数的更多信息，请查看 build.xml 中的 Ant k-means 目标。完成此操作之后，您可以使用 ant dump 命令打印输出结果。

成功在独立模式中运行驱动程序之后，您可以继续使用 Hadoop 的分布式模式。为此，您需要 Mahout Job JAR，它位于示例代码的 hadoop 目录中。Job JAR 包可以将所有代码和依赖关系打包到一个 JAR 文件中，以便于加载到 Hadoop 中。您还需要下载 Hadoop 0.20，并依照 Hadoop 教程的指令，首先在准分布式模式（也就是一个集群）中运行，然后再采用完全分布式模式。有关更多信息，请参见 Hadoop 网站及资源，以及 IBM 云计算资源（参见参考资料）。

回页首

使用 Mahout 实现内容分类

Mahout 目前支持两种根据贝氏统计来实现内容分类的方法。第一种方法是使用简单的支持 Map-Reduce 的 Naive Bayes 分类器。Naive Bayes 分类器为速度快和准确性高而著称，但其关于数据的简单（通常也是不正确的）假设是完全独立的。当各类的训练示例的大小不平衡，或者数据的独立性不符合要求时，Naive Bayes 分类器会出现故障。第二种方法是 Complementary Naive Bayes，它会尝试纠正 Naive Bayes 方法中的一些问题，同时仍然能够维持简单性和速度。但在本文中，我只会演示 Naive Bayes 方法，因为这能让您看到总体问题和 Mahout 中的输入。

简单来讲，Naive Bayes 分类器包括两个流程：跟踪特定文档及类别相关的特征（词汇），然后使用此信息预测新的、未见过的内容的类别。第一个步骤称作训练（training） ，它将通过查看已分类内容的示例来创建一个模型，然后跟踪与特定内容相关的各个词汇的概率。第二个步骤称作分类，它将使用在训练阶段中创建的模型以及新文档的内容，并结合 Bayes Theorem 来预测传入文档的类别。因此，要运行 Mahout 的分类器，您首先需要训练模式，然后再使用该模式对新内容进行分类。下一节将演示如何使用 Wikipedia 数据集来实现此目的。

运行 Naive Bayes 分类器

在运行训练程序和分类器之前，您需要准备一些用于训练和测试的文档。您可以通过运行 ant prepare-docs 来准备一些 Wikipedia 文件（通过 install 目标下载的文件）。这将使用 Mahout 示例中的 WikipediaDatasetCreatorDriver 类来分开 Wikipedia 输入文件。分开文档的标准是它们的类似是否与某个感兴趣的类别相匹配。感兴趣的类别可以是任何有效的 Wikipedia 类别（或者甚至某个 Wikipedia 类别的任何子字符串）。举例来说，在本例中，我使用了两个类别：科学（science）和历史（history）。因此，包含单词 science 或 history 的所有 Wikipedia 类别都将被添加到该类别中（不需要准确匹配）。此外，系统为每个文档添加了标记并删除了标点、Wikipedia 标记以及此任务不需要的其他特征。最终结果将存储在一个特定的文件中（该文件名包含类别名），并采用每行一个文档的格式，这是 Mahout 所需的输入格式。同样，运行 ant prepare-test-docs 代码可以完成相同的文档测试工作。需要确保测试和训练文件没有重合，否则会造成结果不准确。从理论上说，使用训练文档进行测试应该能实现最的结果，但实际情况可能并非如此。

设置好训练和测试集之后，接下来需要通过 ant train 目标来运行 TrainClassifier 类。这应该会通过 Mahout 和 Hadoop 生成大量日志。完成后，ant test 将尝试使用在训练时建立的模型对示例测试文档进行分类。这种测试在 Mahout 中输出的数据结构是混合矩阵 。混合矩阵可以描述各类别有多少正确分类的结果和错误分类的结果。

总的来说，生成分类结果的步骤如下：

ant prepare-docs
ant prepare-test-docs
ant train
ant test

运行所有这些命令（Ant 目标 classifier-example 将在一次调用中捕获所有它们），这将生成如清单 6 所示的汇总和混合矩阵：

清单 6. 运行 Bayes 分类器对历史和科学主题进行分类的结果

				
[java] 09/07/22 18:10:45 INFO bayes.TestClassifier: history
                                  95.458984375    3910/4096.0
[java] 09/07/22 18:10:46 INFO bayes.TestClassifier: science
                                  15.554072096128172      233/1498.0
[java] 09/07/22 18:10:46 INFO bayes.TestClassifier: =================
[java] Summary
[java] -------------------------------------------------------
[java] Correctly Classified Instances          :       4143
                                                    74.0615%
[java] Incorrectly Classified Instances        :       1451
                                                    25.9385%
[java] Total Classified Instances              :       5594
[java]
[java] =======================================================
[java] Confusion Matrix
[java] -------------------------------------------------------
[java] a           b       <--Classified as
[java] 3910        186      |  4096        a     = history
[java] 1265        233      |  1498        b     = science
[java] Default Category: unknown: 2

中间过程的结果存储在 base 目录下的 wikipedia 目录中。

获取了结果之后，显然还有一个问题：“我应该如何做？”汇总结果表明，正确率和错误率大概分别为 75％和 25％。这种结果看上去非常合理，特别是它比随机猜测要好很多。但在仔细分析之后，我发现对历史信息的预测（正确率大约为 95％）相当出色，而对科学信息的预测则相当糟糕（大约 15％）。为了查找其原因，我查看了训练的输入文件，并发现与历史相关的示例要比科学多很多（文件大小几乎差了一倍），这可能是一个潜在的问题。

对于测试，您可以向 ant test 添加 -Dverbose=true 选项，这会显示关于各测试输入的信息，以及它的标签是否正确。仔细研究此输出，您可以查找文档并分析它分类错误的原因。我还可以尝试不同的输入参数，或者使用更加科学数据来重新训练模型，以确定是否能够改善此结果。

在训练模型时考虑使用特征选择也是很重要的。对于这些示例，我使用 Apache Lucene 中的 WikipediaTokenizer 来标记初始文档，但是我没有尽力删除可能标记错误的常用术语或垃圾术语。如果要将此分类器投入生产，那么我会更加深入地研究输入和其他设置，以弥补性能的每个方面。

为了确定 Science 结果是否是个意外，我尝试了一组不同的类别：共和（Republican）与民主（Democrat）。在本例中，我希望预测新文档是否与 Republicans 或者 Democrats 相关。为了帮助您独立实现此功能，我在 src/test/resources 中创建了 repubs-dems.txt 文件。然后，通过以下操作完成分类步骤：

ant classifier-example -Dcategories.file=./src/test/resources/repubs-dems.txt -Dcat.dir=rd

两个 -D 值仅仅指向类别文件以及 wikipedia 目录中存储中间结果的目录。此结果概要和混合矩阵如清单 7 所示：

清单 7. 运行 Bayes 分别器查找 Republicans 和 Democrats 的结果

				
 [java] 09/07/23 17:06:38 INFO bayes.TestClassifier: --------------
 [java] 09/07/23 17:06:38 INFO bayes.TestClassifier: Testing:
                                wikipedia/rd/prepared-test/democrats.txt
 [java] 09/07/23 17:06:38 INFO bayes.TestClassifier: democrats      70.0
                                                                    21/30.0
 [java] 09/07/23 17:06:38 INFO bayes.TestClassifier: --------------
 [java] 09/07/23 17:06:38 INFO bayes.TestClassifier: Testing:
                              wikipedia/rd/prepared-test/republicans.txt
 [java] 09/07/23 17:06:38 INFO bayes.TestClassifier: republicans    81.3953488372093
                                                                    35/43.0
 [java] 09/07/23 17:06:38 INFO bayes.TestClassifier:
 [java] Summary
 [java] -------------------------------------------------------
 [java] Correctly Classified Instances          :         56           76.7123%
 [java] Incorrectly Classified Instances        :         17           23.2877%
 [java] Total Classified Instances              :         73
 [java]
 [java] =======================================================
 [java] Confusion Matrix
 [java] -------------------------------------------------------
 [java] a           b       <--Classified as
 [java] 21          9        |  30          a     = democrats
 [java] 8           35       |  43          b     = republicans
 [java] Default Category: unknown: 2

虽然最终结果在正确性方面差不多是相同的，但您可以看到我在这两个类别中进行选择时采取更好的方式。查看包含输入文档的 wikipedia/rd/prepared 目录，我们发现两个训练文件在训练示例方面更加平衡了。此外，与 “历史/科学” 结果相比，得到了示例也少了很多，因为每个文件都比历史或科学训练集小很多。总的来说，结果至少表明平衡性得到了显著改善。更大的训练集可能会抵消 Republicans 和 Democrats 之间的差异，即便不行也可以暗示某个分组坚持其在 Wikipedia 上的消息是较好的选择 — 但是，我选择将这留给政治学者来决定。

现在，我已经展示了如何在独立模式中执行分类，接下来需要将代码添加到云中，并在 Hadoop 集群上运行。与集群代码相同，您需要 Mahout Job JAR。除此之外，我之前提到的所有算法都是支持 Map-Reduce 的，并且能够在 Hadoop 教程所述的 Job 提交流程中运行。

回页首

结束语

Apache Mahout 在一年多的时间中走过了漫长的道路，为集群、分类和 CF 提供了许多重要的功能，但它还存在很大的发展空间。日益强大起来的还有 Map-Reduce 的随机决策实现，它提供了分类、关联规则、用于识别文档主题的 Latent Dirichlet Allocation 以及许多使用 HBase 和其他辅助存储选项的类别选项。除了这些新的实现之外，还可以找到许多演示、文档和 bug 修复包。

最后，就像实际驱象者（mahout）利用大象的力量一样，Apache Mahout 也可以帮助您利用小黄象 Apache Hadoop 的强大功能。下次在需要集群、分类或推荐内容时，特别是规模很大时，一定要考虑使用 Apache Mahout。

致谢

特别感谢 Ted Dunning 和 Sean Owen 对本文的审阅和建议。

参考资料

学习

机器学习
- 机器学习：Wikipedia 页面提供了一些有用的入门信息和优秀的参考资料，可帮助您了解关于机器学习（包含监管学习等方法）的更多信息。
- Programming Collective Intelligence （Toby Segaran，O'Reilly，2007 年）：本书可以帮助您迅速掌握许多机器任务。
- Artificial Intelligence | Machine Learning ：使用斯坦福大学教授 Andrew Ng 开发的这个类。
- Evaluation of clustering ：了解关于评估集群的更多信息。另请参阅 Mahout 邮件列表上的讨论。
- Bayes Theorem ：了解 Bayes Theorem 的运行原理。
- L^p 空间：理解 L^p 格式。
Apache Mahout 和 Apache Lucene
- Mahout 项目主页：搜索关于 Mahout 的所有内容。
- “Map-Reduce for Machine Learning on Multicore ”：这篇文章将帮助您启动 Mahout。
- “MapReduce: Simplified Data Processing on Large Clusters ”（Google Research Publications）：阅读关于 Map-Reduce 初级文章。
- Taste ：阅读 Taste 文档。
- Apache Lucene ：了解关于 Lucene 的更多信息。
- Apache Lucene on developerWorks ：通过这些文章探索 Lucene 的世界。
- Creating Vectors from Text ：阅读 Mahout Wiki 中的这个条目，了解如何将数据转换为 Mahout 的 Vector 类。
- Cluster Your Data ：阅读此 Mahout Wiki 页面，了解关于如何实现数据集群的更多信息。
Apache Hadoop：
- Apache Hadoop ：了解关于 Hadoop 的更多信息。
- Hadoop 快速入门教程：了解如何运行 Hadoop Job。
- HBase ：理解 Hadoop 数据库。
浏览技术书店，阅读有关这些主题和其他技术主题的图书。
Cloud Computing ：访问 developerWorks 云计算空间。
developerWorks Java 技术专区：数百篇关于 Java 编程各个方面的文章。

获得产品和技术

下载 Hadoop 0.20.0 。
下载 Wikipedia 的子集。
下载 Wikipedia 的子集作为矢量。
从 GroupLens 项目获取真实的电影评分数据。

讨论

加入 Mahout 社区：[email protected] 。
加入 My developerWorks 社区。

你可能感兴趣的:(搜索引擎,Hadoop,lucene,Ant,算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
【算法练习】IDEA集成leetcode插件实现快速刷 2401_84102892 2024年程序员学习算法 intellij-idea leetcode
============点击右侧边leetcode->设置->配置地址、用户名、密码、存放目录、文件模板用户名要登录后在账号信息里看模板代码1.codefilename!velocityTool.camelC
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
You have an error in your SQL syntax； check the manual that corresponds to your MySQL server version 努力的菜鸟~ sql 数据库
YouhaveanerrorinyourSQLsyntax;checkthemanualthatcorrespondstoyourMySQLserverversionfortherightsyntaxtousenear‘IDENTIFIEDBY‘123456’WITHGRANTOPTION’atline1在mysql5.7之前GRANTALLPRIVILEGESON*.*TO'root'@'%'I
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

推荐引擎mahout相关资料

Apache Mahout 简介

你可能感兴趣的:(搜索引擎,Hadoop,lucene,Ant,算法)