wbj0110

基于Apache Mahout构建社会化推荐引擎

推荐引擎简介

推荐引擎利用特殊的信息过滤（IF，Information Filtering）技术，将不同的内容（例如电影、音乐、书籍、新闻、图片、网页等）推荐给可能感兴趣的用户。通常情况下，推荐引擎的实现是通过将用户的个人喜好与特定的参考特征进行比较，并试图预测用户对一些未评分项目的喜好程度。参考特征的选取可能是从项目本身的信息中提取的，或是基于用户所在的社会或社团环境。

根据如何抽取参考特征，我们可以将推荐引擎分为以下四大类：

基于内容的推荐引擎：它将计算得到并推荐给用户一些与该用户已选择过的项目相似的内容。例如，当你在网上购书时，你总是购买与历史相关的书籍，那么基于内容的推荐引擎就会给你推荐一些热门的历史方面的书籍。
基于协同过滤的推荐引擎：它将推荐给用户一些与该用户品味相似的其他用户喜欢的内容。例如，当你在网上买衣服时，基于协同过滤的推荐引擎会根据你的历史购买记录或是浏览记录，分析出你的穿衣品位，并找到与你品味相似的一些用户，将他们浏览和购买的衣服推荐给你。
基于关联规则的推荐引擎：它将推荐给用户一些采用关联规则发现算法计算出的内容。关联规则的发现算法有很多，如 Apriori、AprioriTid、DHP、FP-tree 等。
混合推荐引擎：结合以上各种，得到一个更加全面的推荐效果。

随着互联网上数据和内容的不断增长，人们越来越重视推荐引擎在互联网应用中的作用。可想而知，由于互联网上的数据过多，用户很难找到自己想要的信息，通过提供搜索功能来解决这个问题是远远不够的。推荐引擎可以通过分析用户的行为来预测用户的喜好，使用户能更容易找到他们潜在需要的信息。这里以电子商务应用中的推荐引擎为例来说明推荐引擎在互联网应用中的重要性。

电子商务推荐系统 (E-Commence Recommendation System) 向客户提供商品信息和购买建议，模拟销售人员帮助客户完成购买过程。智能推荐系统的作用可以概括为：将电子商务网站的浏览者转变为购买者，提高电子商务网站的交叉销售能力，提高客户对电子商务网站的忠诚度。

电子商务推荐系统的界面表现形式有以下几种：

浏览：客户提出对特定商品的查询要求，推荐引擎根据查询要求返回高质量的推荐；
相似商品：推荐引擎根据客户购物篮中的商品和客户可能感兴趣的商品推荐与它们类似的商品；
Email：推荐系统通过电子邮件的方式通知客户可能感兴趣的商品信息；
评论：推荐系统向客户提供其他客户对相应产品的评论信息。

Apache Mahout 简介

Apache Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等，并且，在 Mahout 的最近版本中还加入了对 Apache Hadoop 的支持，使这些算法可以更高效的运行在云计算环境中。

Taste 简介

Taste 是 Apache Mahout 提供的一个协同过滤算法的高效实现，它是一个基于 Java 实现的可扩展的，高效的推荐引擎。Taste 既实现了最基本的基于用户的和基于内容的推荐算法，同时也提供了扩展接口，使用户可以方便的定义和实现自己的推荐算法。同时，Taste 不仅仅只适用于 Java 应用程序，它可以作为内部服务器的一个组件以 HTTP 和 Web Service 的形式向外界提供推荐的逻辑。Taste 的设计使它能满足企业对推荐引擎在性能、灵活性和可扩展性等方面的要求。

Taste 工作原理

图 1. Taste 的主要组件图

Taste 由以下五个主要的组件组成：

DataModel：DataModel 是用户喜好信息的抽象接口，它的具体实现支持从任意类型的数据源抽取用户喜好信息。Taste 默认提供 JDBCDataModel 和 FileDataModel，分别支持从数据库和文件中读取用户的喜好信息。
UserSimilarity 和 ItemSimilarity：UserSimilarity 用于定义两个用户间的相似度，它是基于协同过滤的推荐引擎的核心部分，可以用来计算用户的“邻居”，这里我们将与当前用户口味相似的用户称为他的邻居。ItemSimilarity 类似的，计算内容之间的相似度。
UserNeighborhood：用于基于用户相似度的推荐方法中，推荐的内容是基于找到与当前用户喜好相似的“邻居用户”的方式产生的。UserNeighborhood 定义了确定邻居用户的方法，具体实现一般是基于 UserSimilarity 计算得到的。
Recommender：Recommender 是推荐引擎的抽象接口，Taste 中的核心组件。程序中，为它提供一个 DataModel，它可以计算出对不同用户的推荐内容。实际应用中，主要使用它的实现类 GenericUserBasedRecommender 或者 GenericItemBasedRecommender，分别实现基于用户相似度的推荐引擎或者基于内容的推荐引擎。

Taste 的安装与简单的 Demo 实现

安装 Taste 的软件需求：

如果需要 build 源代码或者例子，需要 Apache Ant 1.5+ 或 Apache Maven 2.0.10+。
Taste 应用程序需要 Servlet 2.3+容器，例如 Jakarta Tomcat。
Taste 中的 MySQLJDBCDataModel 实现需要 MySQL 4.x+数据库。

安装 Taste 并运行 Demo：

从 SVN 或是下载压缩包得到 Apache Mahout 的发布版本：
- 从 SVN获得；
- 下载压缩包；
从 Grouplens 下载数据源："1 Million MovieLens Dataset"。
解压数据源压缩包，将 movie.dat 和 ratings.dat 拷贝到 Mahout 安装目录下的 taste-web/src/ main/resources/org/apache/mahout/cf/taste/example/grouplens 目录下。
回到在 core 目录下，运行"mvn install"，将 Mahout core 安装在本地库中。
进入 taste-web, 拷贝 ../examples/target/grouplens.jar 到 taste-web/lib 目录
编辑 taste-web/recommender.properties，将 recommender.class 设置为 org.apache.mahout. cf.taste.example.grouplens.GroupLensRecommender。
在 Mahout 的安装目录下，运行"mvn package"。
运行“mvn jetty:run-war”。这里需要将 Maven 的最大内存设置为 1024M，MAVEN_OPTS=-Xmx1024M。如果需要在 Tomcat 下运行，可以在执行"mvn package"后，将 taste-web/target 目录下生成的 war 包拷贝到 Tomcat 的 webapp 下，同时也需要将 Java 的最大内存设置为 1024M，JAVA_OPTS=-Xmx1024M，然后启动 Tomcat。
访问“http://localhost:8080/[your_app]/RecommenderServlet?userID=1”，得到系统为编号为 1 的用户的推荐内容。参看图 2，Taste demo 运行结果界面，每一行第一项是推荐引擎预测的评分，第二项是电影的编号。
同时，Taste 还提供 Web 服务访问接口，通过以下 URL 访问：http://localhost:8080/[your_app]/RecommenderService.jws

WSDL 文件：http://localhost:8080/[your_app]/RecommenderService.jws?wsdl

也可以通过简单的 HTTP 请求调用这个 Web 服务：http://localhost:8080/[your_app]/RecommenderService.jws?

method=recommend&userID=1&howMany=10

图 2. Taste Demo 运行结果界面

使用 Taste 构建推荐引擎实例 – 电影推荐引擎

根据上面的步骤，我们可以得到一个简单的推荐引擎 demo 环境，下面介绍如何使用 Taste 方便地构建自定义的推荐引擎。

抽取 Taste 工具包

直接使用 Mahout 的项目环境进行编码，需要使用 Ant 或者 Maven 进行编译，整个过程比较复杂，这里我们将构建推荐引擎所需要的工具包从 Mahout 工程中抽取出来，从而方便的构建自定义的推荐引擎。

在 Eclipse 中创建 Web 应用的工程 MovieSite，将 demo 时生成的推荐引擎 Web 应用的 war 包解压缩，将 lib 下的 jar 文件拷贝到 MovieSite 的 lib 目录下。这样我们就可以方便的编写自己的推荐引擎。

图 3. MovieSite 工程中引用的 jar 文件

数据建模

这里我们想要编写一个电影推荐引擎，第一步需要对数据进行建模，分析应用中涉及的主要实体以及实体间的关系，从而设计数据库存储，程序中的类，以及推荐引擎的 DataModel。

图 4 电影和用户信息数据模型

数据模型中存在以下实体：

Movie：表示电影，包含电影的基本信息：编号、名称、发布时间、类型等等。
User：表示用户，包含用户的基本信息：编号、姓名、邮件等等。
Movie Reference：表示某个用户对某个电影的喜好程度，包含用户编号、电影编号、用户的评分以及评分的时间。
Movie Similarity：表示两个电影的相似度（这里的相似度是双向的），包括两个电影编号、电影的相似度。两个电影的相似度可以通过电影的基本信息计算得到。

下面我们就基于这个数据模型设计数据库的存储以及推荐引擎的 DataModel。

创建 MySQL 数据库存储电影和用户的信息，用户的喜好信息以及电影的相似度

清单 1. 创建数据库 SQL

        
Python

          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
          20 
        
          21 
        
          22 
        
          23 
        
          24 
        
          25 
        
          26 
        
          27 
        
          28 
        
          29 
        
          30 
        
          31 
        
          32 
        
          33 
        
          34 
        
          35 
        
          36 
        
          37 
        
          38 
        
          39 
        
         CREATE  
         DATABASE  
         movie 
         ; 
        
         USE  
         movie 
         ; 
        
         CREATE  
         TABLE  
         movies 
         ( 
            
         / 
         /保存电影相关的信息。 
        
         id 
         INTEGER  
         NOT 
         NULL  
         AUTO_INCREMENT 
         , 
        
         name  
         varchar 
         ( 
         100 
         ) 
         NOT 
         NULL 
         , 
        
         published_year  
         varchar 
         ( 
         4 
         ) 
         default  
         NULL 
         , 
        
         type 
         varchar 
         ( 
         100 
         ) 
         default  
         NULL 
         , 
        
         -- 
              
         . 
         . 
         . 
         more  
         movie  
         information 
         . 
         . 
         . 
        
         PRIMARY  
         KEY 
         ( 
         id 
         ) 
        
         ) 
         ; 
        
         CREATE  
         TABLE  
         users 
         ( 
            
         / 
         /保存用户信息 
        
         id 
         INTEGER  
         NOT 
         NULL  
         AUTO_INCREMENT 
         , 
        
         name  
         varchar 
         ( 
         50 
         ) 
         NOT 
         NULL 
         , 
        
         email 
         varchar 
         ( 
         100 
         ) 
         default  
         NULL 
         , 
        
         -- 
              
         . 
         . 
         . 
         more  
         user 
         information 
         . 
         . 
         . 
        
         PRIMARY  
         KEY 
         ( 
         id 
         ) 
        
         ) 
         ; 
        
         CREATE  
         TABLE  
         movie_preferences 
         ( 
            
         / 
         /保存用户对电影的评分，即喜好程度 
        
         userID  
         INTEGER  
         NOT 
         NULL 
         , 
        
         movieID  
         INTEGER  
         NOT 
         NULL 
         , 
        
         preference  
         INTEGER  
         NOT 
         NULL  
         DEFAULT 
         0 
         , 
        
         timestamp  
         INTEGER  
         not 
         null  
         default 
         0 
         , 
        
         FOREIGN  
         KEY 
         ( 
         userID 
         ) 
         REFERENCES  
         users 
         ( 
         id 
         ) 
         ON  
         DELETE  
         CASCADE 
         , 
        
         FOREIGN  
         KEY 
         ( 
         movieID 
         ) 
         REFERENCES  
         movies 
         ( 
         id 
         ) 
         ON  
         DELETE  
         CASCADE 
        
         ) 
         ; 
        
         CREATE  
         TABLE  
         movie_similarity 
         ( 
             
         / 
         /保存电影和电影的相似程度 
        
         movieID1  
         INTEGER  
         NOT 
         NULL 
         , 
        
         movieID2  
         INTEGER  
         NOT 
         NULL 
         , 
        
         similarity  
         DOUBLE  
         NOT 
         NULL  
         DEFAULT 
         0 
         , 
        
         FOREIGN  
         KEY 
         ( 
         movieID1 
         ) 
         REFERENCES  
         movies 
         ( 
         id 
         ) 
         ON  
         DELETE  
         CASCADE 
         , 
        
         FOREIGN  
         KEY 
         ( 
         movieID2 
         ) 
         REFERENCES  
         movies 
         ( 
         id 
         ) 
         ON  
         DELETE  
         CASCADE 
        
         ) 
         ; 
        
         CREATE  
         INDEX  
         movie_preferences_index1  
         ON  
         movie_preferences 
         ( 
         userID 
         , 
         movieID 
         ) 
         ; 
        
         CREATE  
         INDEX  
         movie_preferences_index2  
         ON  
         movie_preferences 
         ( 
         userID 
         ) 
         ; 
        
         CREATE  
         INDEX  
         movie_preferences_index3  
         ON  
         movie_preferences 
         ( 
         movieID 
         ) 
         ;

在实际应用中，我们需要将应用中的实例数据写入到数据库中。作为例子，这里将从 GroupLen 下载的数据源写入数据库。

设计实现推荐引擎的 DataModel。

由于上面采用数据库存储用户的喜好信息，这里需要基于数据库的推荐引擎实现。这里扩展 MySQLJDBCDataModel 实现电影推荐引擎的 DataModel 实例。

清单 2. Taste DataModel 的实现

        
Python

          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
         public 
         class 
         MovieDataModel 
         extends 
         MySQLJDBCDataModel 
         { 
        
         / 
         /保存用户对电影的评分的数据库表名 
        
         public  
         final  
         static  
         String 
         PERFERENCETABLE 
         = 
         "movie_preferences" 
         ; 
            
         public  
         final  
         static  
         String 
         USERID_COLUMN 
         = 
         "userID" 
         ; 
             
         / 
         /表中用户标识的列名 
        
         public  
         final  
         static  
         String 
         ITEMID_COLUMN 
         = 
         "movieID" 
         ; 
            
         / 
         /表中电影标识的列名 
        
         public  
         final  
         static  
         String 
         PERFERENCE_COLUMN 
         = 
         "preference" 
         ; 
            
         / 
         /表中评分的列名 
        
         public  
         MovieDataModel 
         ( 
         String 
         dataSourceName 
         ) 
         throws 
         TasteException 
         { 
                   
         super 
         ( 
         lookupDataSource 
         ( 
         dataSourceName 
         ) 
         , 
         PERFERENCETABLE 
         , 
         USERID_COLUMN 
         , 
        
         ITEMID_COLUMN 
         , 
         PERFERENCE_COLUMN 
         ) 
         ; 
        
         } 
        
         public  
         MovieDataModel 
         ( 
         ) 
         { 
        
         / 
         / 
         DBUtil 
         . 
         getDataSource 
         ( 
         )将返回应用的数据源 
        
         / 
         /此应用是 
         J2EE应用，所以这里会采用 
         JDNI的方式创建数据库链接。 
        
         super 
         ( 
         DBUtil 
         . 
         getDataSource 
         ( 
         ) 
         , 
         PERFERENCETABLE 
         , 
         USERID_COLUMN 
         , 
        
         ITEMID_COLUMN 
         , 
         PERFERENCE_COLUMN 
         ) 
         ; 
        
         } 
        
         }

推荐引擎实现

前面介绍了数据建模和 DataModel 的实现，下面来详细介绍推荐引擎的实现。如前面介绍的，Taste 既实现了最基本的基于用户的和基于内容的推荐算法，同时也提供了扩展接口，使用户可以方便的定义和实现自己的推荐算法。下面详细介绍如何扩展 Taste 的推荐引擎接口，实现基于用户相似度的推荐引擎，基于内容相似度的推荐引擎，以及 Slope One 的推荐引擎。Slope One 是一种非常快速简单的基于项目的推荐方法，需要使用用户的评分信息。

清单 3. 基于用户相似度的推荐实现

        
Python

          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
          20 
        
          21 
        
          22 
        
          23 
        
          24 
        
          25 
        
          26 
        
          27 
        
          28 
        
          29 
        
          30 
        
          31 
        
          32 
        
          33 
        
          34 
        
          35 
        
          36 
        
          37 
        
          38 
        
          39 
        
          40 
        
          41 
        
          42 
        
          43 
        
          44 
        
          45 
        
          46 
        
          47 
        
          48 
        
          49 
        
          50 
        
          51 
        
          52 
        
          53 
        
          54 
        
          55 
        
         public 
         class 
         UserBasedRecommender 
         implements 
         Recommender 
         { 
        
         private  
         final  
         Recommender  
         recommender 
         ; 
        
         public  
         UserBasedRecommender 
         ( 
         ) 
         throws  
         IOException 
         , 
         TasteException 
         { 
        
         this 
         ( 
         new 
         MovieDataModel 
         ( 
         ) 
         ) 
         ; 
        
         } 
        
         public  
         UserBasedRecommender 
         ( 
         DataModel  
         model 
         ) 
         throws 
         TasteException 
         { 
        
         UserSimilarity  
         userSimilarity 
         = 
         new 
         PearsonCorrelationSimilarity 
         ( 
         model 
         ) 
         ; 
            
         userSimilarity 
         . 
         setPreferenceInferrer 
         ( 
         new 
         AveragingPreferenceInferrer 
         ( 
         model 
         ) 
         ) 
         ; 
        
         UserNeighborhood  
         neighborhood 
         = 
        
         new 
         NearestNUserNeighborhood 
         ( 
         3 
         , 
         userSimilarity 
         , 
         model 
         ) 
         ; 
        
         recommender 
         = 
         new 
         CachingRecommender 
         ( 
        
         new 
         GenericUserBasedRecommender 
         ( 
         model 
         , 
         neighborhood 
         , 
         userSimilarity 
         ) 
         ) 
         ; 
        
         } 
        
         / 
         /对外提供的推荐的接口，参数为用户标识和推荐项的个数 
        
         public  
         List 
         & 
         lt 
         ; 
         RecommendedItem 
         & 
         gt 
         ; 
         recommend 
         ( 
         long 
         userID 
         , 
         int 
         howMany 
         ) 
        
         throws 
         TasteException 
         { 
        
         return 
         recommender 
         . 
         recommend 
         ( 
         userID 
         , 
         howMany 
         ) 
         ; 
        
         } 
        
         public  
         List 
         & 
         lt 
         ; 
         RecommendedItem 
         & 
         gt 
         ; 
         recommend 
         ( 
         long 
         userID 
         , 
         int 
         howMany 
         , 
        
         Rescorer 
         & 
         lt 
         ; 
         Long 
         & 
         gt 
         ; 
         rescorer 
         ) 
         throws 
         TasteException 
         { 
        
         return 
         recommender 
         . 
         recommend 
         ( 
         userID 
         , 
         howMany 
         , 
         rescorer 
         ) 
         ; 
        
         } 
        
         / 
         /以下方法都是实现 
         Recommender的接口 
        
         public  
         float 
         estimatePreference 
         ( 
         long 
         userID 
         , 
         long 
         itemID 
         ) 
         throws 
         TasteException 
         { 
        
         return 
         recommender 
         . 
         estimatePreference 
         ( 
         userID 
         , 
         itemID 
         ) 
         ; 
        
         } 
        
         public  
         void  
         setPreference 
         ( 
         long 
         userID 
         , 
         long 
         itemID 
         , 
         float 
         value 
         ) 
        
         throws 
         TasteException 
         { 
        
         recommender 
         . 
         setPreference 
         ( 
         userID 
         , 
         itemID 
         , 
         value 
         ) 
         ; 
        
         } 
        
         public  
         void  
         removePreference 
         ( 
         long 
         userID 
         , 
         long 
         itemID 
         ) 
         throws 
         TasteException 
         { 
        
         recommender 
         . 
         removePreference 
         ( 
         userID 
         , 
         itemID 
         ) 
         ; 
        
         } 
        
         public  
         DataModel  
         getDataModel 
         ( 
         ) 
         { 
        
         return 
         recommender 
         . 
         getDataModel 
         ( 
         ) 
         ; 
        
         } 
        
         public  
         void  
         refresh 
         ( 
         Collection 
         & 
         lt 
         ; 
         Refreshable 
         & 
         gt 
         ; 
         alreadyRefreshed 
         ) 
         { 
        
         recommender 
         . 
         refresh 
         ( 
         alreadyRefreshed 
         ) 
         ; 
        
         } 
        
         public  
         String 
         toString 
         ( 
         ) 
         { 
        
         return 
         "UserBasedRecommender[recommender:" 
         + 
         recommender 
         + 
         ']' 
         ; 
        
         } 
        
         }

从上面的代码示例清单 3 可以看出，实现一个推荐引擎需要实现 Recommender 接口，它一般是对于某种 Taste 提供的推荐引擎的扩展，这是对 GenericUserBasedRecommender 进行的扩展，其中最重要的方法就是实例化推荐引擎的构造方法，一般其中涉及以下步骤：

基于 DataModel，计算用户的相似度，这里采用 PearsonCorrelation 算法。
为用户相似度设置相似度推理方法，这里采用了 AveragingPreferenceInferrer。
基于用户相似度计算用户的“邻居”，这里将与该用户最近距离为 3 的用户设置为该用户的“邻居”。
使用以上得到的用户相似度对象和邻居用户的计算方法对象创建一个 GenericUserBasedRecommender 的实例。一般情况下，这时都采用 CachingRecommender 为 RecommendationItem 进行缓存，从而提高访问速度。

清单 4. 基于内容相似度的推荐实现

        
Python

          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
          20 
        
          21 
        
          22 
        
          23 
        
          24 
        
          25 
        
          26 
        
          27 
        
          28 
        
          29 
        
          30 
        
          31 
        
          32 
        
          33 
        
          34 
        
          35 
        
          36 
        
          37 
        
          38 
        
          39 
        
          40 
        
          41 
        
          42 
        
          43 
        
          44 
        
         public 
         class 
         ItemBasedRecommender 
         implements 
         Recommender 
         { 
        
         private  
         final  
         Recommender  
         recommender 
         ; 
        
         public  
         ItemBasedRecommender 
         ( 
         ) 
         throws  
         IOException 
         , 
         TasteException 
         { 
        
         this 
         ( 
         new 
         MovieDataModel 
         ( 
         ) 
         ) 
         ; 
        
         } 
        
         public  
         ItemBasedRecommender 
         ( 
         DataModel  
         dataModel 
         ) 
         throws 
         TasteException 
         { 
        
         Collection 
         & 
         lt 
         ; 
         GenericItemSimilarity 
         . 
         ItemItemSimilarity 
         & 
         gt 
         ; 
         correlations 
         = 
        
         MovieSimilarityTable 
         . 
         getAllMovieSimilarities 
         ( 
         ) 
         ; 
        
         ItemSimilarity  
         itemSimilarity 
         = 
         new 
         GenericItemSimilarity 
         ( 
         correlations 
         ) 
         ; 
        
         recommender 
         = 
         new 
         CachingRecommender 
         ( 
         new 
         EmbededItemBasedRecommender 
         ( 
        
         new 
         GenericItemBasedRecommender 
         ( 
         dataModel 
         , 
         itemSimilarity 
         ) 
         ) 
         ) 
         ; 
        
         } 
        
         public  
         List 
         & 
         lt 
         ; 
         RecommendedItem 
         & 
         gt 
         ; 
         recommend 
         ( 
         long 
         userID 
         , 
         int 
         howMany 
         ) 
        
         throws 
         TasteException 
         { 
        
         return 
         recommender 
         . 
         recommend 
         ( 
         userID 
         , 
         howMany 
         ) 
         ; 
        
         } 
        
         . 
         . 
         . 
         . 
         . 
         . 
         . 
         . 
         . 
        
         / 
         / 
         EmbededItemBasedRecommender类的定义 
                    
         private 
         static 
         final 
         class 
         EmbededItemBasedRecommender 
         implements 
         Recommender 
         { 
        
         / 
         /包含一个 
         GenericItemBasedRecommender实例； 
        
         private  
         final  
         GenericItemBasedRecommender  
         recommender 
         ; 
        
         private  
         EmbededItemBasedRecommender 
         ( 
         GenericItemBasedRecommender  
         recommender 
         ) 
         { 
        
         this 
         . 
         recommender 
         = 
         recommender 
         ; 
        
         } 
        
         public  
         List 
         & 
         lt 
         ; 
         RecommendedItem 
         & 
         gt 
         ; 
         recommend 
         ( 
         long 
         userID 
         , 
            
         int 
         howMany 
         , 
        
         Rescorer 
         & 
         lt 
         ; 
         Long 
         & 
         gt 
         ; 
         rescorer 
         ) 
        
         throws 
         TasteException 
         { 
        
         FastIDSet  
         itemIDs 
         = 
         recommender 
         . 
         getDataModel 
         ( 
         ) 
         . 
         getItemIDsFromUser 
         ( 
         userID 
         ) 
         ; 
        
         return 
         recommender 
         . 
         mostSimilarItems 
         ( 
         itemIDs 
         . 
         toArray 
         ( 
         ) 
         , 
         howMany 
         , 
         null 
         ) 
         ; 
        
         } 
        
         . 
         . 
         . 
         . 
         . 
         . 
         . 
         . 
        
         }

从上面的代码示例清单 4 可以看出，与上一个实现类似它是对 GenericItemBasedRecommender 的扩展，它的构造方法涉及以下步骤：

为了提高推荐引擎的实时响应速度，这里需要对电影信息的预处理，将电影的相似度提前计算好存储在数据库中的 movie_similarity 表中，然后从数据库中读取所有的电影的相似度，用于创建 ItemItemSimilarity 的集合。
基于 ItemItemSimilarity 的集合生成一个内容相似度 ItemSimilarity。
创建一个 EmbededItemBasedRecommender 实例，它是一个内部类，包含一个 GenericItemBasedRecommender 实例，它的 recommend 方法中，先从 DataModel 中得到该用户评分的电影列表，然后调用 GenericItemBasedRecommender 中的 mostSimilarItems 方法计算出最相似的电影推荐给用

清单 5. SlopeOne Recommeder 的实现

        
Python

          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
          20 
        
          21 
        
          22 
        
         public 
         final 
         class 
         MovieRecommender 
         implements 
         Recommender 
         { 
        
         private  
         final  
         Recommender  
         recommender 
         ; 
        
         public  
         MovieRecommender 
         ( 
         ) 
         throws  
         IOException 
         , 
         TasteException 
         { 
        
         this 
         ( 
         new 
         MovieDataModel 
         ( 
         ) 
         ) 
         ; 
        
         } 
        
         public  
         MovieRecommender 
         ( 
         DataModel  
         dataModel 
         ) 
         throws 
         TasteException 
         { 
        
         / 
         /创建一个 
         SlopeOneRecommender的实例 
        
         recommender 
         = 
         new 
         CachingRecommender 
         ( 
         new 
         SlopeOneRecommender 
         ( 
         dataModel 
         ) 
         ) 
         ; 
        
         } 
        
         / 
         /对外提供的推荐的接口，参数为用户标识和推荐项的个数 
        
         public  
         List 
         & 
         lt 
         ; 
         RecommendedItem 
         & 
         gt 
         ; 
         recommend 
         ( 
         long 
         userID 
         , 
         int 
         howMany 
         ) 
        
         throws 
         TasteException 
         { 
        
         return 
         recommender 
         . 
         recommend 
         ( 
         userID 
         , 
         howMany 
         ) 
         ; 
        
         } 
        
         . 
         . 
         . 
         . 
         . 
         . 
         . 
         . 
        
         }

Slope One 是一种非常快速简单的基于项目的推荐方法，它只需要使用用户的评分信息。具体的实现，只需要在我们的推荐引擎中包含一个 SlopeOneRecommender 的实例。

推荐引擎 API 设计与实现

完成了推荐引擎的设计与实现，下面我们需要设计一些 REST API，向外暴露推荐功能。为了提高推荐引擎的处理效率，这里采用 Singleton 模式实现一个推荐引擎的单例 MovieRecommenderSingleton。在 Servlet 启动的时候初始化推荐引擎的单例，以后每次调用推荐方法。

清单 6. Servlet 的实现

        
    

        
    

        
    

        
    

        
    
Python

      
  
 
    
     
      
          1 
        

          2 
        

          3 
        

          4 
        

          5 
        

          6 
        

          7 
        

          8 
        

          9 
        

          10 
        

          11 
        

          12 
        

          13 
        

          14 
        

          15 
        

          16 
        

          17 
        

          18 
        

          19 
        

          20 
        

          21 
        

          22 
        

          23 
        

          24 
        

          25 
        

          26 
        

          27 
        

          28 
        

          29 
        

          30 
        

          31 
        

          32 
        

          33 
        

          34 
        

          35 
        

          36 
        

          37 
        

          38 
        

          39 
        

          40 
        

          41 
        

          42 
        

          43 
        

          44 
        

          45 
        

          46 
        

          47 
        

          48 
        

          49 
        

          50 
        

          51 
        

          52 
        

          53 
        

          54 
        

          55 
        

          56 
        

          57 
        

          58 
        

          59 
        

          60 
        

          61 
        

          62 
        

          63 
        

          64 
        

          65 
        

          66 
        

          67 
        

          68 
        

          69 
        

          70 
        

          71 
        

          72 
        

          73 
        

          74 
        

          75 
        

          76 
        

          77 
        

          78 
        

          79 
        

          80 
        

          81 
        

          82 
        

          83 
        
 
       
         public 
         class 
         MovieRecommenderServlet 
         extends 
         HttpServlet 
         { 
        
 
            
         private  
         static  
         final  
         int 
         NUM_TOP_PREFERENCES 
         = 
         20 
         ; 
        
 
              
         private  
         static  
         final  
         int 
         DEFAULT_HOW_MANY 
         = 
         20 
         ; 
        

            
        
 
              
         private  
         Recommender  
         recommender 
         ; 
        

            
        
 
              
         @ 
         Override  
        
 
              
         public  
         void  
         init 
         ( 
         ServletConfig  
         config 
         ) 
         throws 
         ServletException 
         { 
        
 
                  
         super 
         . 
         init 
         ( 
         config 
         ) 
         ; 
        

            
        
 
                   
         / 
         /从 
         web 
         . 
         xml中读取需要创建的推荐引擎类名 
        
 
                  
         / 
         * 
        
 
                   
         * 
         & 
         lt 
         ; 
         servlet 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         servlet 
         - 
         name 
         & 
         gt 
         ; 
         movie 
         - 
         recommender 
         & 
         lt 
         ; 
         / 
         servlet 
         - 
         name 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         display 
         - 
         name 
         & 
         gt 
         ; 
         Movie  
         Recommender 
         & 
         lt 
         ; 
         / 
         display 
         - 
         name 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         description 
         & 
         gt 
         ; 
         Movie  
         recommender  
         servlet 
         & 
         lt 
         ; 
         / 
         description 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         servlet 
         - 
         class 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         com 
         . 
         ibm 
         . 
         taste 
         . 
         example 
         . 
         movie 
         . 
         servlet 
         . 
         MovieRecommenderServlet 
        
 
                   
         * 
            
         & 
         lt 
         ; 
         / 
         servlet 
         - 
         class 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         init 
         - 
         param 
         & 
         gt 
         ; 
        
 
                   
         * 
                    
         & 
         lt 
         ; 
         param 
         - 
         name 
         & 
         gt 
         ; 
         recommender 
         - 
         class 
         & 
         lt 
         ; 
         / 
         param 
         - 
         name 
         & 
         gt 
         ; 
        
 
                   
         * 
                    
         & 
         lt 
         ; 
         param 
         - 
         value 
         & 
         gt 
         ; 
        
 
                   
         * 
                    
         com 
         . 
         ibm 
         . 
         taste 
         . 
         example 
         . 
         movie 
         . 
         recommender 
         . 
         UserBasedRecommender 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         / 
         param 
         - 
         value 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         / 
         init 
         - 
         param 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         load 
         - 
         on 
         - 
         startup 
         & 
         gt 
         ; 
         1 
         & 
         lt 
         ; 
         / 
         load 
         - 
         on 
         - 
         startup 
         & 
         gt 
         ; 
        
 
                   
         * 
         & 
         lt 
         ; 
         / 
         servlet 
         & 
         gt 
         ; 
        
 
                   
         * 
         / 
        
 
                  
         String 
         recommenderClassName 
         = 
         config 
         . 
         getInitParameter 
         ( 
         "recommender-class" 
         ) 
         ; 
        
 
                  
         if 
         ( 
         recommenderClassName 
         == 
         null 
         ) 
         { 
        
 
                      
         throw  
         new 
         ServletException 
         ( 
        
 
                          
         "Servlet init-param \"recommender-class\" is not defined" 
         ) 
         ; 
        
 
                  
         } 
        

            
        
 
                   
         try 
         { 
        
 
                      
         MovieRecommenderSingleton 
         . 
         initializeIfNeeded 
         ( 
         recommenderClassName 
         ) 
         ; 
        
 
                  
         } 
         catch 
         ( 
         TasteException  
         te 
         ) 
         { 
        
 
                      
         throw  
         new 
         ServletException 
         ( 
         te 
         ) 
         ; 
        
 
                  
         } 
        
 
                  
         recommender 
         = 
         MovieRecommenderSingleton 
         . 
         getInstance 
         ( 
         ) 
         . 
         getRecommender 
         ( 
         ) 
         ; 
        
 
              
         } 
        

            
        
 
              
         @ 
         Override  
        
 
              
         public  
         void  
         doGet 
         ( 
         HttpServletRequest  
         request 
         , 
        
 
                  
         HttpServletResponse  
         response 
         ) 
         throws 
         ServletException 
         { 
        
 
                   
         / 
         / 
         Parameters 
         . 
         USER_ID 
         = 
         "userID" 
        
 
                  
         String 
         userIDString 
         = 
         request 
         . 
         getParameter 
         ( 
         Parameters 
         . 
         USER_ID 
         ) 
         ; 
            
        
 
                  
         if 
         ( 
         userIDString 
         == 
         null 
         ) 
         { 
        
 
                      
         throw  
         new 
         ServletException 
         ( 
         "userID was not specified" 
         ) 
         ; 
        
 
                  
         } 
        
 
                  
         long 
         userID 
         = 
         Long 
         . 
         parseLong 
         ( 
         userIDString 
         ) 
         ; 
        
 
                  
         String 
         howManyString 
         = 
         request 
         . 
         getParameter 
         ( 
         Parameters 
         . 
         COUNT 
         ) 
         ; 
                
        
 
                  
         / 
         / 
         Parameters 
         . 
         COUNT 
         = 
         "count" 
        
 
                  
         int 
         howMany 
         = 
         howManyString 
         == 
         null 
         ? 
         DEFAULT_HOW_MANY 
         : 
        
 
                      
         Integer 
         . 
         parseInt 
         ( 
         howManyString 
         ) 
         ; 
        
 
                  
         String 
         format 
         = 
         request 
         . 
         getParameter 
         ( 
         Parameters 
         . 
         FORMAT 
         ) 
         ; 
                
        
 
                  
         / 
         / 
         Parameters 
         . 
         FORMAT 
         = 
         "format" 
        
 
                  
         if 
         ( 
         format 
         == 
         null 
         ) 
         { 
        
 
                      
         format 
         = 
         "json" 
         ; 
        
 
                  
         } 
        

            
        
 
                  
         try 
         { 
        
 
                      
         / 
         /为指定用户计算推荐的电影 
        
 
                      
         List 
         & 
         lt 
         ; 
         RecommendedItem 
         & 
         gt 
         ; 
         items 
         = 
         recommender 
         . 
         recommend 
         ( 
         userID 
         , 
         howMany 
         ) 
         ; 
        
 
                      
         / 
         /加载电影的相关信息， 
         RecommendMovieList是保存了一组推荐电影的相关信息和 
        
 
                      
         / 
         /引擎计算得到的他们的 
         ranking  
        
 
                      
         RecommendMovieList  
         movieList 
         = 
         new 
         RecommendMovieList 
         ( 
         items 
         ) 
         ; 
        
 
                      
         if 
         ( 
         "text" 
         . 
         equals 
         ( 
         format 
         ) 
         ) 
         { 
        
 
                          
         writePlainText 
         ( 
         response 
         , 
         movieList 
         ) 
         ; 
        
 
                      
         } 
         else 
         if 
         ( 
         "json" 
         . 
         equals 
         ( 
         format 
         ) 
         ) 
         { 
        
 
                          
         writeJSON 
         ( 
         response 
         , 
         movieList 
         ) 
         ; 
        
 
                      
         } 
         else 
         { 
        
 
                          
         throw  
         new 
         ServletException 
         ( 
         "Bad format parameter: " 
         + 
         format 
         ) 
         ; 
        
 
                      
         } 
        
 
                  
         } 
         catch 
         ( 
         TasteException  
         te 
         ) 
         { 
        
 
                      
         throw  
         new 
         ServletException 
         ( 
         te 
         ) 
         ; 
        
 
                  
         } 
         catch 
         ( 
         IOException  
         ioe 
         ) 
         { 
        
 
                      
         throw  
         new 
         ServletException 
         ( 
         ioe 
         ) 
         ; 
        
 
                  
         } 
        

            
        
 
              
         } 
        
 
              
         / 
         / 
         details  
         please  
         refer  
         to  
         the  
         src  
         code 
        
 
         } 
        
 
     
 
    
  

以上完成了电影推荐引擎服务器端的编程，下面我们使用 FireFox 的插件 Poster 测试一下 HTTP 请求，查看推荐引擎的返回结果。对任意一个用户，推荐引擎应该基于一定的规则计算得到一组电影以及预计的评分，为了有更好的用户体验，引擎在拿到推荐电影序号的列表后，从电影信息数据库中查询得到电影的相关信息，包括电影的名称，发表时间以及类型等信息。这里我们采用 JSON 作为推荐引擎的响应格式。

图 4. 用 Poster 测试 Servlet 的结果

用户界面展示

实现一个推荐引擎的最后一步就是编写客户端代码，为电影推荐引擎提供一个友好的用户界面。下面展示一下我们为电影推荐引擎写的一个简单的用户界面：右边红色框中的是该用户已经打分的电影列表，左边蓝色框中是推荐引擎为用户推荐的电影列表。

首先，展示一下基于用户的推荐引擎的推荐结果，推荐引擎会根据用户已打分的电影找到用户的“邻居”，将“邻居”们比较喜欢的电影推荐给当前用户。

图 5. 基于用户的推荐结果

其次，图 6 展示了基于内容的推荐引擎的推荐结果，推荐引擎会根据用户已打分的电影找到相似的电影，推荐给当前用户。

图 6. 基于内容的推荐结果

最后，展示 SlopeOne 推荐引擎的推荐结果，这种推荐引擎计算速度较快，效果很好，是一种非常快速简单的基于项目的推荐方法。

图 7. SlopeOne 实现的推荐结果

总结

目前几乎所有大型的电子商务系统，都不同程度地使用了各种形式的推荐引擎。推荐技术的使用，不仅大大的提高了用户购物的体验，增加了用户的粘着度，而且电子商务公司也由于推荐系统的应用而大大的提高了交叉销售的可能，从而大大的提高了营业额。今天，你有自己的商品推荐系统么？

借鉴于电子商务的成功经验，我们可以把推荐技术应用到其他的领域。像我们在文章中所演示的那样，你可以创建一个电影的推荐引擎。如果你是一个 blogger，那么你可以创建一个博客的推荐引擎，如果你是一个新闻提供商，你可以使用推荐技术为不同的用户推荐它可能关心的新闻，等等。

今天，你推荐了么？

参考资料

“Apache Mahout 简介” （Grant Ingersoll，developerWorks，2009 年 10 月）：Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念，并演示了如何使用 Mahout 来实现文档集群、提出建议和组织内容。
Apache Mahout：Apache Mahout 项目的主页，搜索关于 Mahout 的所有内容。
Taste Documentation：Taste 的介绍文档，阅读 Taste 文档。
GroupLens：从 GroupLens 项目获取真实的电影评分数据。
机器学习：机器学习的 Wikipedia 页面，可帮助您了解关于机器学习的更多信息。
developerWorks Java 技术专区：数百篇关于 Java 编程各个方面的文章。

源代码下载

http://www.cserzs.com/built-on-apache-mahout-social-recommendation-engine

你可能感兴趣的:(Mahout)

传统推荐算法库使用--mahout初体验 Huterox 推荐算法算法机器学习
文章目录前言环境准备调用混合总结前言郑重声明：本博文做法仅限毕设糊弄老师使用，不建议生产环境使用！！！老项目缝缝补补又是三年，本来是打算直接重写写个社区然后给毕设使用的。但是怎么说呢，毕竟毕设的主角不是xx社区，这个社区是为我的编译器服务的，为了推广这个编译器，然后我才做了这个社区。然而不幸的是，开题答辩的时候，各位“专家”叫我以xx社区为主，听起来高级。于是没有办法，我只能强行做个社区，怎么做呢
基于音乐/电影/图书的协同过滤推荐算法代码实现 74b3a3e489d4
基于音乐/电影/图书的协同过滤推荐算法代码实现一、开发工具及使用技术MyEclipse10、jdk1.7、tomcat7、jsp、javascript、jquery、bootstrap、webuploader、layer、ssh、mysql、navicat、mahoutAPI等。二、开发过程1、本文主要介绍基于音乐的协同过滤推荐算法代码实现，电影、图书等推荐原理相同。2、本文使用的推荐算法有：基于
Hadoop 大数据技术原理与应用 kk8_ hadoop 大数据 hdfs
Hadoop大数据技术原理与应用大数据概述定义特征大量，多样，高速，价值研究意义应用场景医疗，金融，零售Hadoop概述历史优势扩容能力强，成本低，高效率，可靠性，高容错Hadoop生态分布式存储系统（HDFS）分布式计算框架（MapReduce）资源管理（YARN）数据迁移（Sqoop）数据挖掘算法库（Mahout）分布式数据库（HBase）分布式协调服务（Zookeeper）数据仓库（Hive
【大数据分析与挖掘技术】概述 Francek Chen 大数据技术基础数据分析数据挖掘 Mahout
目录一、数据挖掘简介（一）数据挖掘对象（二）数据挖掘流程（三）数据挖掘的分析方法（四）经典算法二、Mahout（一）Mahout简介（二）主要特性（三）Mahout安装与配置一、数据挖掘简介需要是发明之母。近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市
【大数据分析与挖掘技术】Mahout推荐算法 Francek Chen 大数据技术基础数据分析人工智能数据挖掘 Mahout
目录一、推荐的定义与评估（一）推荐的定义（二）推荐的评估二、Mahout中的常见推荐算法（一）基于用户的推荐算法（二）基于物品的推荐算法（三）基于SVD的推荐算法（四）基于线性插值的推荐算法（五）基于聚类的推荐算法三、对GroupLens数据集进行推荐与评价（一）如何使用推荐器进行推荐（二）如何评估推荐器的好坏推荐是Mahout机器学习算法的主题之一，它极大地渗透到了人们日常生活的方方面面，比如，
计算机毕业设计之全网独家Spark租房爬虫数据分析与推荐系统租房大数据租房app 租房数据分析租房爬虫房源推荐系统房源数据分析房源可视化 haochengxu2022 数据分析爬虫推荐系统 spark 爬虫数据分析推荐系统
一、网站·登录与注册、注销·短信验证码修改密码·我的信息：身份证实名认证·租房业务流程（预约+看房+支付+完成+评价）、进度步骤条展示·支付宝沙箱支付·房屋浏览、中介信息查看·房屋推荐（基于mahout协同过滤算法）·房屋评价、点赞与收藏二、后端·统计主页、个人信息（带头像上传）、权限管理、用户管理、资讯管理、通知管理、日志管理、评论管理、轮播图管理、房屋管理、中介管理、订单管理。·中介权限可以登
推荐系统中协同过滤算法实现分析 weixin_33853794 人工智能 python 数据库
2019独角兽企业重金招聘Python工程师标准>>>原创博客，欢迎转载，转载请注明：http://my.oschina.net/BreathL/blog/62519最近研究Mahout比较多，特别是里面协同过滤算法；于是把协同过滤算法的这个实现思路与数据流程，总结了一下，以便以后对系统做优化时，有个清晰的思路，这样才能知道该如何优化且优化后数据亦能正确。推荐中的协同过滤算法简单说明下：首先，通过
大数据分析- 基于Hadoop/Mahout的大数据挖掘 shenmanli 大数据 hadoop 数据挖掘行业应用开发人员
随着互联网、移动互联网和物联网的发展，我们已经切实地迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合，对大数据的分析已经成为一个非常重要且紧迫的需求。目前对大数据的分析工具，首选的是Hadoop平台。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。一、培训对象1，系统架构师、系
“大数据分析挖掘-基于Hadoop/Mahout/Mllib的大数据挖掘（含Spark、Storm和Docker应用介绍）”培训 shenmanli 培训课程公开课企业培训大数据 hadoop spark
随着互联网、移动互联网和物联网的发展，我们已经切实地迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合，对大数据的分析已经成为一个非常重要且紧迫的需求。目前对大数据的分析工具，首选的是Hadoop/Yarn平台。Hadoop/Yarn在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。为解决广大
springboot集成mahout实现简单基于协同过滤算法的文章推荐算法程序个人练习生开源项目学习算法 spring boot 推荐算法
文章目录参考文章前言1.建表并且生成一些数据首先，建立一个用户文章操作表（user_article_operation）使用casewhen语句简单统计数据2.代码与测试只需要根据表生成相应实体类（注意要加一个value属性来存储分数）主要代码如下，其实就两个方法userArticleOperationMapper.getAllUserPreference()方法收集数据mapper文件如下测试算
java电影推荐系统_基于Mahout的电影推荐系统语文乌托邦 java电影推荐系统
1.Mahout简介ApacheMahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等，并且，在Mahout的最近版本中还加入了对ApacheHadoop的支持，使这些算法可以更高效的运行在云计算环境中。2.Taste简介T
mahout 源码解析之聚类--聚类迭代模型 theonlytank2011 数据挖掘 mahout源码 mahout源码解析
在前面讲聚类策略时，包org.apache.mahout.clustering.iterator里面还有几个类没有进行讲解，这次做下收尾工作。ClusterIterator利用ClusterClassifier和指定的迭代次数将样本进行聚类。其中有三个具体的函数。iterate主要对内存中的数据进行聚类，输入就为一个Vector类型的迭代器。publicClusterClassifieritera
理论学习--【Hadoop生态原理学习】 zenas_yuan Hadoop hadoop
一、Hadoop原理1.核心：HDFS(存储)、MapReduce(分析)解决大量数据存储与处理的问题离线分析：hive实现查询：hbaseBI分析：Mahout2.版本1.0mapreduce还进行资源调度2.0mapreduce=yarn（资源调度）+mapreduce（进行计算运行在yarn上），HDfs:nn,ha2.1.2yarn还支持strom、spark、。。选择考虑因素：是否开源、
推荐系统-基于物品协同过滤算法代码实现 Moutai码农大数据推荐系统算法推荐算法大数据 spark
1、简介当前Spark没有像mahout那样，严格区分基于物品的协同过滤推荐（ItemCF）和基于用户的协同过滤推荐（UserCF），只有基于模型的协同过滤推荐算法ALS（model-basedCF）。但ALS算法对于一些特定的问题(用户数量较小的场景，以及物品数量明显小于用户数量的场景)，效果并不理想，不像mahout提供了各种推荐算法选择。为了充分利用spark在速度上带来的提升同时为满足一些
java+jsp+mysql实现在线电影推荐系统movieCFWeb mahout实现基于用户的协同过滤推荐算法基于项目的协同过滤推荐算法 74b3a3e489d4
java+jsp+mysql实现在线电影推荐系统movieCFWeb一、项目简介http://localhost:8080/movieCFWeb/前台http://localhost:8080/movieCFWeb/admin后台自定义数据，mahout实现基于用户的协同过滤推荐算法前台包含用户注册、登录、搜索电影、分页、电影详情、评分、修改信息、评分列表、推荐电影等功能后台包括用户、电影、评分、
2.3 初探Hadoop世界 howard2005 数据清洗和预处理大数据离线分析 hadoop 大数据分布式
文章目录零、学习目标一、导入新课二、新课讲解（一）Hadoop的前世今生1、Google处理大数据三大技术2、Hadoop如何诞生3、Hadoop主要发展历程（二）Hadoop的优势1、扩容能力强2、成本低3、高效率4、可靠性5、高容错性（三）Hadoop的生态体系1、HDFS分布式文件系统2、MapReduce分布式计算框架3、Yarn资源管理框架4、Sqoop数据迁移工具5、Mahout数据挖
「大数据集群的搭建和使用」背景知识：大数据Hadoop生态圈介绍优秀的Athena在休息大数据集群的搭建和使用大数据 hadoop 分布式
目录一、Hadoop简介二、Hadoop的运行模式1.单机模式2.伪分布式模式3.完全分布式模式三、Hadoop生态圈组件1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.HBase7.HCatalog8.Avro9.Thrift10.Drill11.Mahout12.Sqoop13.Flume14.Ambari15.Zookeeper四、Hadoop优缺点五、Hadoop学
【大数据】Hadoop 生态系统及其组件 G皮T #Hadoop hadoop big data 大数据 hdfs hive mapreduce yarn
Hadoop生态系统及其组件1.Hadoop生态系统的组成2.Hadoop生态系统简介2.1HDFS2.2MapReduce2.3YARN2.4Hive2.5Pig2.6HBase2.7HCatalog2.8Avro2.9Thrift2.10Drill2.11Mahout2.12Sqoop2.13Flume2.14Ambari2.15Zookeeper2.16Oozie1.Hadoop生态系统的组
26Hbase介绍及其数据模型和架构（hbase学习1）文茶君
Hbase介绍Hadoop生态系统spark已经替代mahouthbase简介：非关系型数据库知识面扩展cassandra、hbase、mongodb（文档型数据库）、rediscouchdb，文件存储数据库Neo4j非关系型图数据库HbaseHadoopDatabase，是一个高可靠性、高性能、面向列（面向列的KV数据库）、可伸缩（动态扩展机器。不需要停服务）、实时读写的分布式数据库利用Hado
Item-Based Recommendations with Hadoop liuyuan185442111 Old Hadoop hadoop 大数据分布式
Mahout在MapReduce上实现了Item-BasedCollaborativeFiltering，这里我尝试运行一下。安装Hadoop从下载Mahout并解压准备数据下载1MillionMovieLensDataset，解压得到ratings.dat，用sed‘s/:[0-9]{1,}):[0-9]{1})::[0-9]{1,}$/,\1,\2/’ratings.dat处理成需要的格式。运
【大数据毕设】基于Hadoop的音乐推荐系统论文(三) Maynor996 #课设＆毕设大数据课程设计 hadoop
博主介绍：✌全网粉丝6W+,csdn特邀作者、博客专家、大数据领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战✌文末获取项目联系摘要本文基于Hadoop技术，设计并实现了一个名为“酷酷音乐网站”的系统，用于音乐资源的存储、管理和推荐。该系统采用Hadoop生态系统中的组件，包括HDFS、MapReduce、HBase和Mahout等，实现
如何使用Java进行机器学习? 玥沐春风 java 机器学习开发语言
在Java中进行机器学习，可以使用各种开源机器学习库和框架来实现。以下是一些常用的Java机器学习库：Weka：Weka是一个非常流行的机器学习库，提供了大量的算法和工具，以及用于数据预处理、特征选择和可视化的功能。Deeplearning4j：Deeplearning4j是一个用于深度学习的开源库，支持多种神经网络模型和训练算法，可以用于图像分类、文本分析等任务。ApacheMahout：Apa
阿里云上部署java8和hadoop3.0、spark、hive及Mahout karwik 大数据
1.安装JDK1.8到oracle官网：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmllinux是64位的，安装jdk-8u131-linux-x64.tar.gz安装及配置参考http://blog.csdn.net/rchm8519/article/details/48721
【大数据】图解 Hadoop 生态系统及其组件 G皮T #Hadoop 大数据 hadoop 分布式 hdfs mapreduce yarn hive
图解Hadoop生态系统及其组件1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.Mahout7.HBase8.Zookeeper9.Sqoop10.Flume11.Oozie12.Ambari13.Spark在了解Hadoop生态系统及其组件之前，我们首先了解一下Hadoop的三大组件，即HDFS、MapReduce、YARN，它们共同构成了Hadoop分布式计算框架的核心
斯皮尔曼相关性 —— Spearman Correlation ifnoelse 推荐算法 user cache action 存储
斯皮尔曼相关性可以理解为是排列后（Rank）用户喜好值之间的Pearson相关度。《MahoutinAction》中有这样的解释：假设对于每个用户，我们找到他最不喜欢的物品，重写他的评分值为“1”；然后找到下一个最不喜欢的物品，重写评分值为“2”，以此类推。然后我们对这些转换后的值求Pearson相关系数，这就是Spearman相关系数。斯皮尔曼相关度的计算舍弃了一些重要信息，即真实的评分值。但它
java+jsp+mysql实现个性化租车推荐系统carcfrs mahout实现基于用户、项目的协同过滤推荐算法 SSH（spring+struts+hibernate）开发框架 74b3a3e489d4
java+jsp+mysql实现个性化租车推荐系统carcfrs一、项目简介只有前台用户，没有管理员，功能是用户登录、注册、评论、评分、收藏、热点推荐、基于用户根据评分进行协同过滤推荐算法，数据爬虫爬取一嗨租车数据。二、项目展示
Mahout教程_编程入门自学教程_菜鸟教程-免费教程分享菜鸟一记笔记
教程简介Mahout是ApacheSoftwareFoundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用ApacheHadoop库，Mahout可以有效地扩展到云中。Mahout教程-使用此入门教程，从简介，机器學習，环境，推荐，聚
SSH（Spring+Hibernate+Struts）开发框架开发购物商城推荐系统shop mahout实现基于用户、项目的协同过滤推荐算法个性化购物推荐系统 74b3a3e489d4
SSH（Spring+Hibernate+Struts）开发框架开发购物商城推荐系统shop项目简介1、前台：http://localhost:8080/ComputerRecom/后台：http://localhost:8080/ComputerRecom/admin/login.jsp用户名：admin密码：admin；2、推荐使用mahout接口实现基于用户、项目的协同过滤推荐算法，ssh开
大数据学习记录（hadoop hive flume azkaban sqoop）左上晨大数据 hadoop hive flume azkaban
大数据学习记录（hadoophiveflumeazkabansqoop）1.hadoop对海量数据进行分布式处理2.核心组件：HDFS（分布式文件系统）、YARN（运算资源调度系统）、MAPREDUCE（分布式运算编程框架）3.HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具4.HBASE：基于HADOOP的分布式海量数据库5.Mahout：基于mapreduce/spark/f
构建智能电商推荐系统：大数据实战中的Kudu、Flink和Mahout应用【上进小菜猪大数据】上进小菜猪大数据专栏合集大数据 flink 人工智能
上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。本文将介绍如何利用Kudu、Flink和Mahout这三种技术构建一个强大的大数据分析平台。我们将详细讨论这些技术的特点和优势，并提供代码示例，帮助读者了解如何在实际项目中应用它们。通过本文的指导，读者将能够掌握如何使用这些工具来处理大规模数据集，并进行智能分析。在当今的信息时代，大数据分析成为了各行各业中不可或缺的一环。为了有效地处理海量
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S