wbj0110

Mahout

12.1 简介

Mahout为推荐引擎提供了一些可扩展的机器学习领域的经典算法实现,

可以使开发人员更为快捷的创建智能应用程序。

12.2 安装

12.2.1 要求

Hadoop集群已经正常启动

12.2.2 配置

这里选用0.7版本

 
     tar -zxvf mahout-distribution-0.7.tar.gz -C /usr/local/cloud/src/
cd /usr/local/cloud/
ln -s -f /usr/local/cloud/src/mahout-distribution-0.7 mahout

12.3 测试

12.3.1 获取测试数据

包含600行60列的一个测试数据

 
     wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

12.3.2 上传到Hadoop集群

 
     hadoop fs -mkdir testdata
hadoop fs -put synthetic_control.data testdata

12.3.3 测试各种算法

cd /usr/local/cloud/mahout/
# canopy
hadoop jar mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job
# kmeans
hadoop jar mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

12.4 推荐

12.4.1 协同过滤

Taste简介

Taste 是 Apache Mahout

提供的一个协同过滤算法的高效实现，它是一个基于 Java 实现的可扩展的，高效的推荐引擎。Taste 既实现了最基本的基于用户的和基于内容的推荐算法，同时也提供了扩展接口，使用户可以方便的定义和实现自己的推荐算法。同时，Taste 不仅仅只适用于 Java 应用程序，它可以作为内部服务器的一个组件以 HTTP 和 Web Service 的形式向外界提供推荐的逻辑。Taste 的设计使它能满足企业对推荐引擎在性能、灵活性和可扩展性等方面的要求。
Taste原理
- 系统架构
- 接口设计
  - DataModel
    
    DataModel
    
    是用户喜好信息的抽象接口，它的具体实现可能来自任意类型的数据源以抽取用户喜好信息。Taste提供了MySQLDataModel，方便用户通过JDBC和MySQL访问数据, 此外还通过FileDataModel提供了对文件数据源的支持。
- UserSimilarity 和 ItemSimilarity
  
  UserSimilarity
  
  用于定义两个用户间的相似度，它是基于协同过滤的推荐引擎的核心部分，可以用来计算用户的“邻居”，这里我们将与当前用户口味相似的用户称为他的邻居。ItemSimilarity 类似的，定义内容之间的相似度。
- UserNeighborhood
  
  用于基于用户相似度的推荐方法中，推荐的内容是基于找到与当前用户喜好相似的“邻居用户”的方式产生的。UserNeighborhood 定义了确定邻居用户的方法，具体实现一般是基于 UserSimilarity 计算得到的。
- Recommender
  
  Recommender 是推荐引擎的抽象接口，Taste
  
  中的核心组件。程序中，为它提供一个DataModel，它可以计算出对不同用户的推荐内容。实际应用中，主要使用它的实现类 GenericUserBasedRecommender 或者 GenericItemBasedRecommender，分别实现基于用户相似度的推荐引擎或者基于内容的推荐引擎。

Taste演示

下载测试数据

http://www.grouplens.org/node/73

拷贝到指定目录

cp ml-1m.zip /usr/local/cloud/mahout/
cd /usr/local/cloud/mahout/
unzip ml-1m.zip
# 电影信息文件 格式为MovieID::MovieName::MovieTags
cp movies.dat integration/src/main/resources/org/apache/mahout/cf/taste/example/grouplens/
# 打分信息文件 格式为UserID::MovieID::Rating::Timestamp
cp ratings.dat integration/src/main/resources/org/apache/mahout/cf/taste/example/grouplens/
mvn install -DskipTests

修改pom文件

添加对mahout-examples的依赖

 
         <dependency>
    <groupId>${project.groupId}</groupId>
    <artifactId>mahout-examples</artifactId>
    <version>0.7</version>
</dependency>
 
        

使用jetty进行测试
```
cd integration
mvn jetty:run
```
访问如下地址查看效果

http://hadooptest:8080/mahout-integration/RecommenderServlet?userID=1

命令行方式测试

 
         mvn -q exec:java -Dexec.mainClass="org.apache.mahout.cf.taste.example.grouplens.GroupLensRecommenderEvaluatorRunner" -Dexec.args="-i /home/hadoop/cloud/ml-1m/ratings.dat"

Taste示例

 
       // 1. 选择数据源
// 数据源格式为UserID,MovieID,Ratings
// 使用文件型数据接口
DataModel model = new FileDataModel(new File("/Users/matrix/Documents/plan/test/ratings.txt"));

// 2. 实现相似度算法
// 使用PearsonCorrelationSimilarity实现UserSimilarity接口, 计算用户的相似度
// 其中PearsonCorrelationSimilarity是基于皮尔逊相关系数计算相似度的实现类
// 其它的还包括
// EuclideanDistanceSimilarity：基于欧几里德距离计算相似度
// TanimotoCoefficientSimilarity：基于 Tanimoto 系数计算相似度
// UncerteredCosineSimilarity：计算 Cosine 相似度
UserSimilarity similarity = new PearsonCorrelationSimilarity(model);
// 可选项
similarity.setPreferenceInferrer(new AveragingPreferenceInferrer(model));

// 3. 选择邻居用户
// 使用NearestNUserNeighborhood实现UserNeighborhood接口, 选择最相似的三个用户
// 选择邻居用户可以基于'对每个用户取固定数量N个最近邻居'和'对每个用户基于一定的限制，取落在相似度限制以内的所有用户为邻居'
// 其中NearestNUserNeighborhood即基于固定数量求最近邻居的实现类
// 基于相似度限制的实现是ThresholdUserNeighborhood
UserNeighborhood neighborhood = new NearestNUserNeighborhood(3, similarity, model);

// 4. 实现推荐引擎
// 使用GenericUserBasedRecommender实现Recommender接口, 基于用户相似度进行推荐
Recommender recommender = new GenericUserBasedRecommender(model, neighborhood, similarity);
Recommender cachingRecommender = new CachingRecommender(recommender);
List<RecommendedItem> recommendations = cachingRecommender.recommend(1234, 10);

// 输出推荐结果
for (RecommendedItem item : recommendations) {
    System.out.println(item.getItemID() + "\t" + item.getValue());
}
 
      

12.4.2 聚类分析

框架设计

针对分组需求，Mahout的聚类算法将对象表示成一种简单的数据模型：向量，然后通过计算各向量间的相似度进行分组。
数据模型

在Mahout中向量(Vector)有多种实现.
- DenseVector
  
  它的实现就是一个浮点数数组, 对向量里所有维度进行存储,
  
  适合用于存储密集向量。
- RandomAccessSparseVector
  
  基于浮点数的HashMap实现, key是整数类型, value是浮点数类型,
  
  只存储向量中不为空的值, 并提供随机访问。
- SequentialAccessVector
  
  实现为整数类型和浮点数类型的并行数组, 同样只存储不为空的值,
  
  但只提供顺序访问

数据建模

Mahout为实现将数据建模成向量, 提供了对数据进行向量化的各种方法。

简单的整数类型或浮点型数据

这种数据因为本身就被描述成一个向量, 因此可以直接存为向量。

 
         // 创建一个二维点集的向量组
public static final double[][] points = { { 1, 1 }, { 2, 1 }, { 1, 2 },
 { 2, 2 }, { 3, 3 },  { 8, 8 }, { 9, 8 }, { 8, 9 }, { 9, 9 }, { 5, 5 },
 { 5, 6 }, { 6, 6 }};
public static List<Vector> getPointVectors(double[][] raw) {
    List<Vector> points = new ArrayList<Vector>();
    for (int i = 0; i < raw.length; i++) {
        double[] fr = raw[i];
        // 这里选择创建 RandomAccessSparseVector
        Vector vec = new RandomAccessSparseVector(fr.length);
    // 将数据存放在创建的 Vector 中
        vec.assign(fr);
        points.add(vec);
    }
    return points;
}
 
        

枚举类型数据

这类数据是对物体的描述, 只是取值范围有限,

比如苹果的颜色数据包括: 红色、黄色和绿色, 则在数据建模时可以用数字表示颜色。 | 红色=1, 黄色=2, 绿色=3

 
         // 创建苹果信息数据的向量组
public static List<Vector> generateAppleData() {
    List<Vector> apples = new ArrayList<Vector>();
    // 这里创建的是 NamedVector，其实就是在上面几种 Vector 的基础上，
    // 为每个 Vector 提供一个可读的名字
    NamedVector apple = new NamedVector(new DenseVector(new double[] {0.11, 510, 1}), "Small round green apple");
    apples.add(apple);

    apple = new NamedVector(new DenseVector(new double[] {0.2, 650, 3}), "Large oval red apple");
    apples.add(apple);

    apple = new NamedVector(new DenseVector(new double[] {0.09, 630, 1}), "Small elongated red apple");
    apples.add(apple);

    apple = new NamedVector(new DenseVector(new double[] {0.18, 520, 2}), "Medium oval green apple");
    apples.add(apple);

    return apples;
}
 
        

文本信息

在信息检索领域中最常用的是向量空间模型,

文本的向量空间模型就是将文本信息建模成一个向量, 其中每个维度是文本中出现的一个词的权重。

常用算法

K均值聚类算法

原理

给定一个N个对象的数据集, 构建数据的K个划分,

每个划分就是一个聚类, K<=N, 需要满足两个要求：1.每个划分至少包含一个对象; 2. 每个对象必须属于且仅属于一个组。
过程

首先创建一个初始划分, 随机的选择K个对象,

每个对象初始的代表了一个划分的中心, 对于其它的对象, 根据其与各个划分的中心的距离, 把它们分给最近的划分。

然后使用迭代进行重定位,

尝试通过对象在划分间移动以改进划分。所谓重定位, 就是当有新的对象被分配到了某个划分或者有对象离开了某个划分时, 重新计算这个划分的中心。这个过程不断重复, 直到各个划分中的对象不再变化。
优缺点

当划分结果比较密集, 且划分之间的区别比较明显时,

K均值的效果比较好。K均值算法复杂度为O(NKt), 其中t为迭代次数。

但其要求用户必须事先给出K值,

而K值的选择一般都基于一些经验值或多次实验的结果。而且, K均值对孤立点数据比较敏感, 少量这类的数据就能对评价值造成极大的影响。

示例

基于内存的单机应用(0.5版)

 
             /**
 * 基于内存的K均值聚类算法实现
 */
public static void kMeansClusterInMemoryKMeans(){
    // 指定需要聚类的个数
    int k = 2;

    // 指定K均值聚类算法的最大迭代次数
    int maxIter = 3;

    // 指定K均值聚类算法的最大距离阈值
    double distanceThreshold = 0.01;

    // 声明一个计算距离的方法，这里选择了欧几里德距离
    DistanceMeasure measure = new EuclideanDistanceMeasure();

    // 构建向量集，使用的是二维点集
    List<Vector> pointVectors = getPointVectors(points);

    // 从点集向量中随机的选择k个向量作为初始分组的中心
    List<Vector> randomPoints = chooseRandomPoints(pointVectors, k);

    // 基于前面选中的中心构建分组
    List<Cluster> clusters = new ArrayList<Cluster>();
    int clusterId = 0;
    for(Vector v : randomPoints){
    clusters.add(new Cluster(v, clusterId ++, measure));
    }
    // 调用 KMeansClusterer.clusterPoints 方法执行K均值聚类
    List<List<Cluster>> finalClusters = KMeansClusterer.clusterPoints(pointVectors, clusters, measure, maxIter, distanceThreshold);

    // 打印最终的聚类结果
    for(Cluster cluster : finalClusters.get(finalClusters.size() -1)) {
    System.out.println("Cluster id: " + cluster.getId() + " center: " + cluster.getCenter().asFormatString());
    System.out.println("\tPoints: " + cluster.getNumPoints());
    }
}
 
            

基于Hadoop的集群应用(0.5版)

注意：

首先需要在MVN工程中添加如下依赖

 
           <dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-core</artifactId>
    <version>1.0.4</version>
</dependency>
<dependency>
    <groupId>org.apache.mahout</groupId>
    <artifactId>mahout-core</artifactId>
    <version>0.5</version>
</dependency>
<dependency>
    <groupId>org.apache.mahout</groupId>
    <artifactId>mahout-utils</artifactId>
    <version>0.5</version>
</dependency>
<dependency>
    <groupId>org.apache.mahout</groupId>
    <artifactId>mahout-math</artifactId>
    <version>0.5</version>
</dependency>
 
          

其次在集群上运行前需要进行相关配置

# 需要在$HADOOP_HOME/conf/hadoop-env.sh中设置CLASSPATH
export MAHOUT_HOME=/usr/local/cloud/mahout
for f in $MAHOUT_HOME/lib/*.jar; do
    HADOOP_CLASSPATH=${HADOOP_CLASSPATH}:$f;
done
for f in $MAHOUT_HOME/*.jar; do
   HADOOP_CLASSPATH=$(HADOOP_CLASSPATH):$f;
done

然后即可测试如下代码

 
           /**
 * 基于 Hadoop 的K均值聚类算法实现
 * @throws Exception
 */
public static void kMeansClusterUsingMapReduce () throws Exception{
    Configuration conf = new Configuration();

    // 声明一个计算距离的方法，这里选择了欧几里德距离
    DistanceMeasure measure = new EuclideanDistanceMeasure();

    // 指定输入路径，基于 Hadoop 的实现是通过指定输入输出的文件路径来指定数据源的。
    Path testpoints = new Path("testpoints");
    Path output = new Path("output");

    // 清空输入输出路径下的数据
    HadoopUtil.delete(conf, testpoints);
    HadoopUtil.delete(conf, output);

    RandomUtils.useTestSeed();

    // 在输入路径下生成点集，与内存的方法不同，这里需要把所有的向量写进文件
    writePointsToFile(testpoints);

    // 指定需要聚类的个数，这里选择 2 类
    int k = 2;

    // 指定 K 均值聚类算法的最大迭代次数
    int maxIter = 3;

    // 指定 K 均值聚类算法的最大距离阈值
    double distanceThreshold = 0.01;

    // 随机的选择k个作为簇的中心
    Path clusters = RandomSeedGenerator.buildRandom(conf, testpoints, new Path(output, "clusters-0"), k, measure);

    // 调用 KMeansDriver.runJob 方法执行 K 均值聚类算法
    KMeansDriver.run(testpoints, clusters, output, measure, distanceThreshold, maxIter, true, true);

    // 调用 ClusterDumper 的 printClusters 方法将聚类结果打印出来。
    ClusterDumper clusterDumper = new ClusterDumper(new Path(output, "clusters-" + (maxIter - 1)), new Path(output, "clusteredPoints"));
    clusterDumper.printClusters(null);
}
 
          

基于Hadoop的集群应用(0.7版)

 
           public static void kMeansClusterUsingMapReduce() throws IOException, InterruptedException,
            ClassNotFoundException {
    Configuration conf = new Configuration();

    // 声明一个计算距离的方法，这里选择了欧几里德距离
    DistanceMeasure measure = new EuclideanDistanceMeasure();
    File testData = new File("input");
    if (!testData.exists()) {
    testData.mkdir();
    }

    // 指定输入路径，基于 Hadoop 的实现是通过指定输入输出的文件路径来指定数据源的。
    Path samples = new Path("input/file1");

    // 在输入路径下生成点集，这里需要把所有的向量写进文件
    List<Vector> sampleData = new ArrayList<Vector>();

    RandomPointsUtil.generateSamples(sampleData, 400, 1, 1, 3);
    RandomPointsUtil.generateSamples(sampleData, 300, 1, 0, 0.5);
    RandomPointsUtil.generateSamples(sampleData, 300, 0, 2, 0.1);
    ClusterHelper.writePointsToFile(sampleData, conf, samples);

    // 指定输出路径
    Path output = new Path("output");
    HadoopUtil.delete(conf, output);

    // 指定需要聚类的个数，这里选择3
    int k = 3;

    // 指定 K 均值聚类算法的最大迭代次数
    int maxIter = 10;

    // 指定 K 均值聚类算法的最大距离阈值
    double distanceThreshold = 0.01;

    // 随机的选择k个作为簇的中心
    Path clustersIn = new Path(output, "random-seeds");
    RandomSeedGenerator.buildRandom(conf, samples, clustersIn, k, measure);

    // 调用 KMeansDriver.run 方法执行 K 均值聚类算法
    KMeansDriver.run(samples, clustersIn, output, measure, distanceThreshold, maxIter, true, 0.0, true);

    // 输出结果
    List<List<Cluster>> Clusters = ClusterHelper.readClusters(conf, output);
    for (Cluster cluster : Clusters.get(Clusters.size() - 1)) {
    System.out.println("Cluster id: " + cluster.getId() + " center: " + cluster.getCenter().asFormatString());
    }
}
 
          

输出结果为：

 
           Cluster id: 997 center: {1:3.6810451340150467,0:3.8594229542914538}
Cluster id: 998 center: {1:2.068611196044424,0:-0.5471173292759096}
Cluster id: 999 center: {1:-0.6392433868275759,0:1.2972649625289365}

12.4.3 分类分析¶

传统推荐算法库使用--mahout初体验 Huterox 推荐算法算法机器学习
文章目录前言环境准备调用混合总结前言郑重声明：本博文做法仅限毕设糊弄老师使用，不建议生产环境使用！！！老项目缝缝补补又是三年，本来是打算直接重写写个社区然后给毕设使用的。但是怎么说呢，毕竟毕设的主角不是xx社区，这个社区是为我的编译器服务的，为了推广这个编译器，然后我才做了这个社区。然而不幸的是，开题答辩的时候，各位“专家”叫我以xx社区为主，听起来高级。于是没有办法，我只能强行做个社区，怎么做呢
基于音乐/电影/图书的协同过滤推荐算法代码实现 74b3a3e489d4
基于音乐/电影/图书的协同过滤推荐算法代码实现一、开发工具及使用技术MyEclipse10、jdk1.7、tomcat7、jsp、javascript、jquery、bootstrap、webuploader、layer、ssh、mysql、navicat、mahoutAPI等。二、开发过程1、本文主要介绍基于音乐的协同过滤推荐算法代码实现，电影、图书等推荐原理相同。2、本文使用的推荐算法有：基于
Hadoop 大数据技术原理与应用 kk8_ hadoop 大数据 hdfs
Hadoop大数据技术原理与应用大数据概述定义特征大量，多样，高速，价值研究意义应用场景医疗，金融，零售Hadoop概述历史优势扩容能力强，成本低，高效率，可靠性，高容错Hadoop生态分布式存储系统（HDFS）分布式计算框架（MapReduce）资源管理（YARN）数据迁移（Sqoop）数据挖掘算法库（Mahout）分布式数据库（HBase）分布式协调服务（Zookeeper）数据仓库（Hive
【大数据分析与挖掘技术】概述 Francek Chen 大数据技术基础数据分析数据挖掘 Mahout
目录一、数据挖掘简介（一）数据挖掘对象（二）数据挖掘流程（三）数据挖掘的分析方法（四）经典算法二、Mahout（一）Mahout简介（二）主要特性（三）Mahout安装与配置一、数据挖掘简介需要是发明之母。近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市
【大数据分析与挖掘技术】Mahout推荐算法 Francek Chen 大数据技术基础数据分析人工智能数据挖掘 Mahout
目录一、推荐的定义与评估（一）推荐的定义（二）推荐的评估二、Mahout中的常见推荐算法（一）基于用户的推荐算法（二）基于物品的推荐算法（三）基于SVD的推荐算法（四）基于线性插值的推荐算法（五）基于聚类的推荐算法三、对GroupLens数据集进行推荐与评价（一）如何使用推荐器进行推荐（二）如何评估推荐器的好坏推荐是Mahout机器学习算法的主题之一，它极大地渗透到了人们日常生活的方方面面，比如，
计算机毕业设计之全网独家Spark租房爬虫数据分析与推荐系统租房大数据租房app 租房数据分析租房爬虫房源推荐系统房源数据分析房源可视化 haochengxu2022 数据分析爬虫推荐系统 spark 爬虫数据分析推荐系统
一、网站·登录与注册、注销·短信验证码修改密码·我的信息：身份证实名认证·租房业务流程（预约+看房+支付+完成+评价）、进度步骤条展示·支付宝沙箱支付·房屋浏览、中介信息查看·房屋推荐（基于mahout协同过滤算法）·房屋评价、点赞与收藏二、后端·统计主页、个人信息（带头像上传）、权限管理、用户管理、资讯管理、通知管理、日志管理、评论管理、轮播图管理、房屋管理、中介管理、订单管理。·中介权限可以登
推荐系统中协同过滤算法实现分析 weixin_33853794 人工智能 python 数据库
2019独角兽企业重金招聘Python工程师标准>>>原创博客，欢迎转载，转载请注明：http://my.oschina.net/BreathL/blog/62519最近研究Mahout比较多，特别是里面协同过滤算法；于是把协同过滤算法的这个实现思路与数据流程，总结了一下，以便以后对系统做优化时，有个清晰的思路，这样才能知道该如何优化且优化后数据亦能正确。推荐中的协同过滤算法简单说明下：首先，通过
大数据分析- 基于Hadoop/Mahout的大数据挖掘 shenmanli 大数据 hadoop 数据挖掘行业应用开发人员
随着互联网、移动互联网和物联网的发展，我们已经切实地迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合，对大数据的分析已经成为一个非常重要且紧迫的需求。目前对大数据的分析工具，首选的是Hadoop平台。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。一、培训对象1，系统架构师、系
“大数据分析挖掘-基于Hadoop/Mahout/Mllib的大数据挖掘（含Spark、Storm和Docker应用介绍）”培训 shenmanli 培训课程公开课企业培训大数据 hadoop spark
随着互联网、移动互联网和物联网的发展，我们已经切实地迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合，对大数据的分析已经成为一个非常重要且紧迫的需求。目前对大数据的分析工具，首选的是Hadoop/Yarn平台。Hadoop/Yarn在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。为解决广大
springboot集成mahout实现简单基于协同过滤算法的文章推荐算法程序个人练习生开源项目学习算法 spring boot 推荐算法
文章目录参考文章前言1.建表并且生成一些数据首先，建立一个用户文章操作表（user_article_operation）使用casewhen语句简单统计数据2.代码与测试只需要根据表生成相应实体类（注意要加一个value属性来存储分数）主要代码如下，其实就两个方法userArticleOperationMapper.getAllUserPreference()方法收集数据mapper文件如下测试算
java电影推荐系统_基于Mahout的电影推荐系统语文乌托邦 java电影推荐系统
1.Mahout简介ApacheMahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等，并且，在Mahout的最近版本中还加入了对ApacheHadoop的支持，使这些算法可以更高效的运行在云计算环境中。2.Taste简介T
mahout 源码解析之聚类--聚类迭代模型 theonlytank2011 数据挖掘 mahout源码 mahout源码解析
在前面讲聚类策略时，包org.apache.mahout.clustering.iterator里面还有几个类没有进行讲解，这次做下收尾工作。ClusterIterator利用ClusterClassifier和指定的迭代次数将样本进行聚类。其中有三个具体的函数。iterate主要对内存中的数据进行聚类，输入就为一个Vector类型的迭代器。publicClusterClassifieritera
理论学习--【Hadoop生态原理学习】 zenas_yuan Hadoop hadoop
一、Hadoop原理1.核心：HDFS(存储)、MapReduce(分析)解决大量数据存储与处理的问题离线分析：hive实现查询：hbaseBI分析：Mahout2.版本1.0mapreduce还进行资源调度2.0mapreduce=yarn（资源调度）+mapreduce（进行计算运行在yarn上），HDfs:nn,ha2.1.2yarn还支持strom、spark、。。选择考虑因素：是否开源、
推荐系统-基于物品协同过滤算法代码实现 Moutai码农大数据推荐系统算法推荐算法大数据 spark
1、简介当前Spark没有像mahout那样，严格区分基于物品的协同过滤推荐（ItemCF）和基于用户的协同过滤推荐（UserCF），只有基于模型的协同过滤推荐算法ALS（model-basedCF）。但ALS算法对于一些特定的问题(用户数量较小的场景，以及物品数量明显小于用户数量的场景)，效果并不理想，不像mahout提供了各种推荐算法选择。为了充分利用spark在速度上带来的提升同时为满足一些
java+jsp+mysql实现在线电影推荐系统movieCFWeb mahout实现基于用户的协同过滤推荐算法基于项目的协同过滤推荐算法 74b3a3e489d4
java+jsp+mysql实现在线电影推荐系统movieCFWeb一、项目简介http://localhost:8080/movieCFWeb/前台http://localhost:8080/movieCFWeb/admin后台自定义数据，mahout实现基于用户的协同过滤推荐算法前台包含用户注册、登录、搜索电影、分页、电影详情、评分、修改信息、评分列表、推荐电影等功能后台包括用户、电影、评分、
2.3 初探Hadoop世界 howard2005 数据清洗和预处理大数据离线分析 hadoop 大数据分布式
文章目录零、学习目标一、导入新课二、新课讲解（一）Hadoop的前世今生1、Google处理大数据三大技术2、Hadoop如何诞生3、Hadoop主要发展历程（二）Hadoop的优势1、扩容能力强2、成本低3、高效率4、可靠性5、高容错性（三）Hadoop的生态体系1、HDFS分布式文件系统2、MapReduce分布式计算框架3、Yarn资源管理框架4、Sqoop数据迁移工具5、Mahout数据挖
「大数据集群的搭建和使用」背景知识：大数据Hadoop生态圈介绍优秀的Athena在休息大数据集群的搭建和使用大数据 hadoop 分布式
目录一、Hadoop简介二、Hadoop的运行模式1.单机模式2.伪分布式模式3.完全分布式模式三、Hadoop生态圈组件1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.HBase7.HCatalog8.Avro9.Thrift10.Drill11.Mahout12.Sqoop13.Flume14.Ambari15.Zookeeper四、Hadoop优缺点五、Hadoop学
【大数据】Hadoop 生态系统及其组件 G皮T #Hadoop hadoop big data 大数据 hdfs hive mapreduce yarn
Hadoop生态系统及其组件1.Hadoop生态系统的组成2.Hadoop生态系统简介2.1HDFS2.2MapReduce2.3YARN2.4Hive2.5Pig2.6HBase2.7HCatalog2.8Avro2.9Thrift2.10Drill2.11Mahout2.12Sqoop2.13Flume2.14Ambari2.15Zookeeper2.16Oozie1.Hadoop生态系统的组
26Hbase介绍及其数据模型和架构（hbase学习1）文茶君
Hbase介绍Hadoop生态系统spark已经替代mahouthbase简介：非关系型数据库知识面扩展cassandra、hbase、mongodb（文档型数据库）、rediscouchdb，文件存储数据库Neo4j非关系型图数据库HbaseHadoopDatabase，是一个高可靠性、高性能、面向列（面向列的KV数据库）、可伸缩（动态扩展机器。不需要停服务）、实时读写的分布式数据库利用Hado
Item-Based Recommendations with Hadoop liuyuan185442111 Old Hadoop hadoop 大数据分布式
Mahout在MapReduce上实现了Item-BasedCollaborativeFiltering，这里我尝试运行一下。安装Hadoop从下载Mahout并解压准备数据下载1MillionMovieLensDataset，解压得到ratings.dat，用sed‘s/:[0-9]{1,}):[0-9]{1})::[0-9]{1,}$/,\1,\2/’ratings.dat处理成需要的格式。运
【大数据毕设】基于Hadoop的音乐推荐系统论文(三) Maynor996 #课设＆毕设大数据课程设计 hadoop
博主介绍：✌全网粉丝6W+,csdn特邀作者、博客专家、大数据领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战✌文末获取项目联系摘要本文基于Hadoop技术，设计并实现了一个名为“酷酷音乐网站”的系统，用于音乐资源的存储、管理和推荐。该系统采用Hadoop生态系统中的组件，包括HDFS、MapReduce、HBase和Mahout等，实现
如何使用Java进行机器学习? 玥沐春风 java 机器学习开发语言
在Java中进行机器学习，可以使用各种开源机器学习库和框架来实现。以下是一些常用的Java机器学习库：Weka：Weka是一个非常流行的机器学习库，提供了大量的算法和工具，以及用于数据预处理、特征选择和可视化的功能。Deeplearning4j：Deeplearning4j是一个用于深度学习的开源库，支持多种神经网络模型和训练算法，可以用于图像分类、文本分析等任务。ApacheMahout：Apa
阿里云上部署java8和hadoop3.0、spark、hive及Mahout karwik 大数据
1.安装JDK1.8到oracle官网：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmllinux是64位的，安装jdk-8u131-linux-x64.tar.gz安装及配置参考http://blog.csdn.net/rchm8519/article/details/48721
【大数据】图解 Hadoop 生态系统及其组件 G皮T #Hadoop 大数据 hadoop 分布式 hdfs mapreduce yarn hive
图解Hadoop生态系统及其组件1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.Mahout7.HBase8.Zookeeper9.Sqoop10.Flume11.Oozie12.Ambari13.Spark在了解Hadoop生态系统及其组件之前，我们首先了解一下Hadoop的三大组件，即HDFS、MapReduce、YARN，它们共同构成了Hadoop分布式计算框架的核心
斯皮尔曼相关性 —— Spearman Correlation ifnoelse 推荐算法 user cache action 存储
斯皮尔曼相关性可以理解为是排列后（Rank）用户喜好值之间的Pearson相关度。《MahoutinAction》中有这样的解释：假设对于每个用户，我们找到他最不喜欢的物品，重写他的评分值为“1”；然后找到下一个最不喜欢的物品，重写评分值为“2”，以此类推。然后我们对这些转换后的值求Pearson相关系数，这就是Spearman相关系数。斯皮尔曼相关度的计算舍弃了一些重要信息，即真实的评分值。但它
java+jsp+mysql实现个性化租车推荐系统carcfrs mahout实现基于用户、项目的协同过滤推荐算法 SSH（spring+struts+hibernate）开发框架 74b3a3e489d4
java+jsp+mysql实现个性化租车推荐系统carcfrs一、项目简介只有前台用户，没有管理员，功能是用户登录、注册、评论、评分、收藏、热点推荐、基于用户根据评分进行协同过滤推荐算法，数据爬虫爬取一嗨租车数据。二、项目展示
Mahout教程_编程入门自学教程_菜鸟教程-免费教程分享菜鸟一记笔记
教程简介Mahout是ApacheSoftwareFoundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用ApacheHadoop库，Mahout可以有效地扩展到云中。Mahout教程-使用此入门教程，从简介，机器學習，环境，推荐，聚
SSH（Spring+Hibernate+Struts）开发框架开发购物商城推荐系统shop mahout实现基于用户、项目的协同过滤推荐算法个性化购物推荐系统 74b3a3e489d4
SSH（Spring+Hibernate+Struts）开发框架开发购物商城推荐系统shop项目简介1、前台：http://localhost:8080/ComputerRecom/后台：http://localhost:8080/ComputerRecom/admin/login.jsp用户名：admin密码：admin；2、推荐使用mahout接口实现基于用户、项目的协同过滤推荐算法，ssh开
大数据学习记录（hadoop hive flume azkaban sqoop）左上晨大数据 hadoop hive flume azkaban
大数据学习记录（hadoophiveflumeazkabansqoop）1.hadoop对海量数据进行分布式处理2.核心组件：HDFS（分布式文件系统）、YARN（运算资源调度系统）、MAPREDUCE（分布式运算编程框架）3.HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具4.HBASE：基于HADOOP的分布式海量数据库5.Mahout：基于mapreduce/spark/f
构建智能电商推荐系统：大数据实战中的Kudu、Flink和Mahout应用【上进小菜猪大数据】上进小菜猪大数据专栏合集大数据 flink 人工智能
上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。本文将介绍如何利用Kudu、Flink和Mahout这三种技术构建一个强大的大数据分析平台。我们将详细讨论这些技术的特点和优势，并提供代码示例，帮助读者了解如何在实际项目中应用它们。通过本文的指导，读者将能够掌握如何使用这些工具来处理大规模数据集，并进行智能分析。在当今的信息时代，大数据分析成为了各行各业中不可或缺的一环。为了有效地处理海量
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s