MAHOUT 第14页

Mahout聚类分析

聚类分析什么是聚类分析？聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster)，它的目标是：在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。所以，在很多应用中，一个簇中的数据对象可以被作为一个整体来对待，从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为，即所谓“物以类聚，人以群分”，核心的思想也就是聚类。人们总是不断

·2015-11-12 17:40

Apache Mahout的Taste基于Hadoop实现协同过滤推荐引擎的代码分析

Taste 是 Apache Mahout 提供的一个协同过滤算法的高效实现，它是一个基于Java实现的可扩展的高效的推荐引擎。

·2015-11-12 17:39

Mahhout实现的算法、源码包分析

Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序

·2015-11-12 17:38

mahout learning 代码示例

一， Introduction package mia.recommender.ch02;//=分析导入包可以看出mahout的包分为主要类以及它们的实现类=import org.apache.mahout.cf.taste.impl.model.file

·2015-11-12 17:38

·2015-11-12 17:37

Taste 架构分析

Taste 是一个著名的开源框架，目前已经在Mahout项目下。

·2015-11-12 17:36

hadoop文本转换为序列文件

在以前使用hadoop的时候因为mahout里面很多都要求输入文件时序列文件，所以涉及到把文本文件转换为序列文件或者序列文件转为文本文件（因为当时要分析mahout的源码，所以就要看到它的输入文件是什么

·2015-11-12 16:34

Item-Based Recommendations with Hadoop

Mahout在MapReduce上实现了Item-BasedCollaborativeFiltering，这里我尝试运行一下。

liuyuan185442111·2015-11-12 15:00

mahout 运行Twenty Newsgroups Classification实例

按照mahout官网https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的说法，我只用运行一条命令就可以完成这个算法的调用了

·2015-11-12 14:34

Mahout源码MeanShiftCanopyDriver分析之二MeanShiftCanopyMapper仿造

首先更正一点，昨天处理数据的时候是有问题的，直接从网页中拷贝的文件的空格是有问题的，直接拷贝然后新建的文件中的空格可能有一个两个、三个的，所以要把两个或者三个的都换为一个，在InputMapper中下面的代码： private static final Pattern SPACE = Pattern.compile(" "); String[] number

·2015-11-12 13:40

2014-08-4

由于涉及到hadoop和mahout的包，这样需要添加到classpath里面的包就很多很多，如果自己一个一个的添加，也许一天下来就差不多完了（我自己就这样折腾

·2015-11-12 13:04

mahout学习-1

安装软件需要安装如下文件： java， Eclipse， Maven，Hadoop，mahout 二.

·2015-11-12 11:26

czp11210·2015-11-12 10:00

Exception in thread "main" java.io.IOException: Failed to set permissions of path

在跑BuildForest的时候，编写了下面的程序： package test.breiman; import org.apache.mahout.classifier.df.mapreduce.BuildForest

·2015-11-12 08:25

hadoop家族之mahout安装

步骤一、下载mahout http://www.apache.org/dyn/closer.cgi/mahout/ 我下载的是 mahout-distribution

·2015-11-11 17:19

基于MapReduce的ItemBase推荐算法的共现矩阵实现（一）

.51cto.com/8219051/1557054 一、概述这2个月为公司数据挖掘系统做一些根据用户标签情况对用户的相似度进行评估，其中涉及一些推荐算法知识，在这段时间研究了一遍《推荐算法实践》和《Mahout

·2015-11-11 13:26

Mahout应用（一）

Mahout应用（一） Mahout 是应用于hadoop上的数据挖掘工具（废话不多说）这里先简单介绍一下mahout的一般使用方法。

·2015-11-11 07:09

mahout安装

mahout是hadoop的一种高级应用。运行mahout需要提前安装好hadoop。hadoop的安装网上很多。而且也不复杂，这里不再讲述。这里默认hadoop已经安装完成。

·2015-11-11 06:15

海量WEB日志分析

Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro,

·2015-11-11 06:34

MapReduce:详解Shuffle过程

前段时间在做Mahout的输出预处理工作，需要深入代码研究MapReduce的运行机制，这才对S

·2015-11-11 06:37

大数据学习路径（尚学堂版）

shell编程→高并发架构→lucene,solr搜索→hadoop体系→HDFS→mapreduce→hbase→zookeeper→hive→flume→sqoop→项目实战一第二阶段机器学习R语言→mahout

xxssyyyyssxx·2015-11-09 10:00

Linux下输入 env 而得到的环境变量解读

HOSTNAME=Master.Hadoop MAHOUT_HOME=/usr/hadoop/mahout-distribution-0.8 TERM=linux SHELL=/bin/bash HADOOP_HOME

·2015-11-08 10:27

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（7）

接下来，我们开启hadoop集群。如果之前打开过Hadoop，可能会发生lock的问题，解决方案：http://blog.csdn.net/caoshichaocaoshichao/article/details/12880335 首先HDFS 格式化文件系统： hadoop namenode –format start-all.sh 打开hadoop 集群。在网页中验

·2015-11-08 10:24

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（5）

Root用户登录Master，把 /home/hadoop目录下的hadoop-bin.tar.gz文件复制到 /usr文件夹下。进入 /usr文件夹，解压 hadoop-bin.tar.gz文件： tar –zxvf hadoop.tar.gz 解压后并重命名为hadoop :mv hadoop-1.0.0 hadoop 配置hadoop文件用户权限: chown -R h

·2015-11-08 10:23

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（4）

使用FlashFXP把，JDK和Hadoop安装文件上传到“/home/hadoop”文件夹下。 Master节点，进入root用户，在/usr文件夹下创建文件夹/java，然后把在/home/hadoop文件夹下的jdk.bin文件复制到/usr/java文件夹下，检查是否复制成功。进入/usr/java文件夹，通过chmod +x给予jdk.bin 执行权限。然后：./

·2015-11-08 10:22

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（6）

下面实现克隆Master节点，使之成为Slave节点。克隆（ctrl+o）M节点，生成新的节点S3. 进入S3的节点设置，更新S3的mac地址。启动S3，可能比一般时间要长些。使用root登录。进入 /etc/sysconfig/network-scripts文件夹，修改ifcfg-eth0名为ifcfg-eth1 修改ifcfg-eth1文件，分别修改d

·2015-11-08 10:22

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（3）

下面设置Master 和 slave 节点的无密码登录。首先，验证ssh 和 rsync 是否安装了。生成RSA 密码对，存储在/home/hadoop/.ssh 文件夹里。进入.ssh文件夹，查看已经存在的两个文件：id_rsa 和 id_rsa.pub 然后，将id_rsa.pub追加到authorized_keys文件里面, 这样就可以自己无密码登录自己了。最

·2015-11-08 10:21

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（1）

在vbox 虚拟机的基本设置，ram 800m 为了图形化安装，硬盘大小为15G，网络连接设置为网桥，插入安装安装盘。进入安装。定义主机名配置 configure network 设置root登录密码设置文件目录，选择custom layout 配置如图，选择format。

·2015-11-08 10:20

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（2）

重启之后使用root 和安装centos时候设置的密码进入系统。新建以一个用户：hadoop，设置密码。关闭防火墙。关闭selinux。接着执行如下命令： setenforce 0 getenforce 在root下，vim /etc/sysconfig/network-scripts/ifcfg-eth0, onboot =yes 保存退出。

·2015-11-08 10:19

如何在美国公司写project plan 邮件--以hadoop安装和Mahout数据分析为例子

Hi, XXX (boss name) Project Title: Hadoop installation and Data analysis based on Mahout

·2015-11-08 10:18

Mahout-DistanceMeasure （数据点间的距离计算方法）

原文：http://www.cnblogs.com/shipengzhi/articles/2540382.html在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个

wolf96·2015-11-07 14:00

基于 Apache Mahout 构建社会化推荐引擎

来源：http://www.ibm.com/developerworks/cn/java/j-lo-mahout/index.html 推荐引擎简介推荐引擎利用特殊的信息过滤（IF，Information

·2015-11-07 10:03

mahout算法源码分析之Collaborative Filtering with ALS-WR拓展篇

Mahout版本：0.7，hadoop版本：1.0.4，jdk：1.7.0_25 64bit。额，好吧，心头的一块石头总算是放下了。

·2015-11-06 08:28

mahout算法源码分析之Collaborative Filtering with ALS-WR （四）评价和推荐

Mahout版本：0.7，hadoop版本：1.0.4，jdk：1.7.0_25 64bit。

·2015-11-03 21:55

Mahout随机森林算法--分类无标签数据

开发环境：IntellijIDEA14、Maven3.2、JDK1.7、Hadoop2.6、mahout0.10源码下载及运行参考：https://github.com/fansy1990/randomforest_classify

fansy1990·2015-11-02 23:00

mahout 安装

下载mahout-distribution-0.5.tar.gz 并解压； 2.配置环境变量： /etc/profile export MAHOUT_HOME=/home/mahout/ export

·2015-11-02 19:40

下一代hadoop

MapReduce On YARN6 Hadoop 2.0初体验7 总结1，hadoop 2.0产生背景：两个概念：hadoop生态系统：由hadoop，hbase，hive，pig，sqoop，flume，mahout

·2015-11-02 16:41

基于 Apache Mahout 构建社会化推荐引擎

Apache Mahout 是 ASF（Apache Software Foundation）的一个较新的开源项目，提供机器学习领域的一些经典算法的高效实现。

·2015-11-02 15:23

mahout算法源码分析之Collaborative Filtering with ALS-WR 并行思路

Mahout版本：0.7，hadoop版本：1.0.4，jdk：1.7.0_25 64bit。

·2015-11-02 14:06

Mahout分步式程序开发聚类Kmeans

Posted: Oct 14, 2013 Tags: cluster Hadoop kmeans Mahout R 聚类 Comments: 13 Comments Mahout

·2015-11-02 14:15

Apache Mahout 简介

from:http://www.ibm.com/developerworks/cn/java/j-mahout/ 通过可伸缩、商业友好的机器学习来构建智能应用程序在信息时代，公司和个人的成功越来越依赖于迅速有效地将大量数据转化为可操作的信息

·2015-11-02 14:03

Mahout：2->PFPGrowth | 分布式频繁模式挖掘

网页给出了如何应用开发PFP-Growth的过程 https://cwiki.apache.org/confluence/display/MAHOUT/Parallel+Frequent+Pattern

·2015-11-02 09:57

mahout中kmeans算法和Canopy算法实现原理

本文讲一下mahout中kmeans算法和Canopy算法实现原理。一. Kmeans是一个很经典的聚类算法，我想大家都非常熟悉。

·2015-11-01 14:15

使用IntelliJ IDEA 编译开源的机器学习源码--Oryx

如果您读过《Mahout in Action》这本书，您应该有印象：此书的作者

·2015-11-01 14:41

Mahout in action 中文版-3.推荐器的数据表达-3.2

3.2 内存中的数据模型　　DataMode是推荐器总输入数据的一种抽象。推荐算法需要用它来实现高效的访问数据。例如，DataModel可以在输入数据中提供一列用户，或者提供与某项目关联的所有偏好值，也或者提供对一个项目集合感兴趣的所有用户ID。本小节精选出一些关于DataModel的API来做一番介绍，这些API可以再官方文档中查阅到详细说明。 3.2.1 GenericDataModel

·2015-11-01 11:09

Mahout in action 中文版-3.推荐器的数据表达-3.3~3.4

3.3 处理偏好值为空的数据（布尔偏好）　　有时推荐引擎中出现偏好值为空的记录。它代表了用户和项目是关联的，但是并没有表现出关联程度。举了例子，一个新闻网站根据用户已阅读内容为用户推荐新闻。“已阅读”使一个用户和一个项目产生了关联，然而这是唯一能够获取的信息。一般网站也不会让用户去给文章做个排序，更不会让用户再做除了阅读之外的其他什么事了。所以我们仅仅知道用户和那些文章关联了，而再也没有其他的

·2015-11-01 11:08

Mahout in action 中文版-2.推荐器的介绍-2.4~2.6

2.4 评估查准率（precision）和召回率（recall）　　我们可以从更广义的角度去看待推荐问题：它并不是严格的要去估计偏好指数来提供推荐结果，也不总是要向用户提供准确的偏好指数的值。很多时候，我们只需从好到坏列出推荐排序，事实上，有些时候我们只需列出很少一部分排名考前的就可以了。这样

·2015-11-01 11:07

Mahout in action 中文版-2.推荐器的介绍-2.3

·2015-11-01 11:06

Mahout in action 中文版-3.推荐器的数据表达-3.1

·2015-11-01 11:06

Mahout in action 中文版-2.推荐器的介绍-2.1~2.2

2 推荐器的介绍本章概要： Mahout中的推荐器

·2015-11-01 11:05

推荐频道

MAHOUT

Mahout聚类分析

Apache Mahout的Taste基于Hadoop实现协同过滤推荐引擎的代码分析

Mahhout实现的算法、源码包分析

mahout learning 代码示例

Mahout分布式推荐引擎介绍

Taste 架构分析

hadoop文本转换为序列文件

Item-Based Recommendations with Hadoop

mahout 运行Twenty Newsgroups Classification实例

Mahout源码MeanShiftCanopyDriver分析之二MeanShiftCanopyMapper仿造

2014-08-4

mahout学习-1

Mahout推荐算法API详解

Exception in thread "main" java.io.IOException: Failed to set permissions of path

hadoop家族之mahout安装

基于MapReduce的ItemBase推荐算法的共现矩阵实现（一）

Mahout应用（一）

mahout安装

海量WEB日志分析

MapReduce:详解Shuffle过程

大数据学习路径（尚学堂版）

Linux下 输入 env 而得到的环境变量解读

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例 （7）

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例 （5）

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例 （4）

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例 （6）

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例 （3）

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例 （1）

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例 （2）

如何在美国公司写project plan 邮件--以hadoop安装和Mahout数据分析为例子

Mahout-DistanceMeasure （数据点间的距离计算方法）

基于 Apache Mahout 构建社会化推荐引擎

mahout算法源码分析之Collaborative Filtering with ALS-WR拓展篇

mahout算法源码分析之Collaborative Filtering with ALS-WR （四）评价和推荐

Mahout随机森林算法--分类无标签数据

mahout 安装

下一代hadoop

基于 Apache Mahout 构建社会化推荐引擎

mahout算法源码分析之Collaborative Filtering with ALS-WR 并行思路

Mahout分步式程序开发 聚类Kmeans

Apache Mahout 简介

Mahout：2->PFPGrowth | 分布式频繁模式挖掘

mahout中kmeans算法和Canopy算法实现原理

使用IntelliJ IDEA 编译开源的机器学习源码--Oryx

Mahout in action 中文版-3.推荐器的数据表达-3.2

Mahout in action 中文版-3.推荐器的数据表达-3.3~3.4

Mahout in action 中文版-2.推荐器的介绍-2.4~2.6

Mahout in action 中文版-2.推荐器的介绍-2.3

Mahout in action 中文版-3.推荐器的数据表达-3.1

Mahout in action 中文版-2.推荐器的介绍-2.1~2.2

Linux下输入 env 而得到的环境变量解读

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（7）

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（5）

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（4）

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（6）

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（3）

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（1）

图文讲解基于centos虚拟机的Hadoop集群安装，并且使用Mahout实现贝叶斯分类实例（2）

Mahout分步式程序开发聚类Kmeans