wbj0110

基于Apache Mahout构建社会化推荐引擎

推荐引擎简介

推荐引擎利用特殊的信息过滤（IF，Information Filtering）技术，将不同的内容（例如电影、音乐、书籍、新闻、图片、网页等）推荐给可能感兴趣的用户。通常情况下，推荐引擎的实现是通过将用户的个人喜好与特定的参考特征进行比较，并试图预测用户对一些未评分项目的喜好程度。参考特征的选取可能是从项目本身的信息中提取的，或是基于用户所在的社会或社团环境。

根据如何抽取参考特征，我们可以将推荐引擎分为以下四大类：

基于内容的推荐引擎：它将计算得到并推荐给用户一些与该用户已选择过的项目相似的内容。例如，当你在网上购书时，你总是购买与历史相关的书籍，那么基于内容的推荐引擎就会给你推荐一些热门的历史方面的书籍。
基于协同过滤的推荐引擎：它将推荐给用户一些与该用户品味相似的其他用户喜欢的内容。例如，当你在网上买衣服时，基于协同过滤的推荐引擎会根据你的历史购买记录或是浏览记录，分析出你的穿衣品位，并找到与你品味相似的一些用户，将他们浏览和购买的衣服推荐给你。
基于关联规则的推荐引擎：它将推荐给用户一些采用关联规则发现算法计算出的内容。关联规则的发现算法有很多，如 Apriori、AprioriTid、DHP、FP-tree 等。
混合推荐引擎：结合以上各种，得到一个更加全面的推荐效果。

随着互联网上数据和内容的不断增长，人们越来越重视推荐引擎在互联网应用中的作用。可想而知，由于互联网上的数据过多，用户很难找到自己想要的信息，通过提供搜索功能来解决这个问题是远远不够的。推荐引擎可以通过分析用户的行为来预测用户的喜好，使用户能更容易找到他们潜在需要的信息。这里以电子商务应用中的推荐引擎为例来说明推荐引擎在互联网应用中的重要性。

电子商务推荐系统 (E-Commence Recommendation System) 向客户提供商品信息和购买建议，模拟销售人员帮助客户完成购买过程。智能推荐系统的作用可以概括为：将电子商务网站的浏览者转变为购买者，提高电子商务网站的交叉销售能力，提高客户对电子商务网站的忠诚度。

电子商务推荐系统的界面表现形式有以下几种：

浏览：客户提出对特定商品的查询要求，推荐引擎根据查询要求返回高质量的推荐；
相似商品：推荐引擎根据客户购物篮中的商品和客户可能感兴趣的商品推荐与它们类似的商品；
Email：推荐系统通过电子邮件的方式通知客户可能感兴趣的商品信息；
评论：推荐系统向客户提供其他客户对相应产品的评论信息。

Apache Mahout 简介

Apache Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等，并且，在 Mahout 的最近版本中还加入了对 Apache Hadoop 的支持，使这些算法可以更高效的运行在云计算环境中。

Taste 简介

Taste 是 Apache Mahout 提供的一个协同过滤算法的高效实现，它是一个基于 Java 实现的可扩展的，高效的推荐引擎。Taste 既实现了最基本的基于用户的和基于内容的推荐算法，同时也提供了扩展接口，使用户可以方便的定义和实现自己的推荐算法。同时，Taste 不仅仅只适用于 Java 应用程序，它可以作为内部服务器的一个组件以 HTTP 和 Web Service 的形式向外界提供推荐的逻辑。Taste 的设计使它能满足企业对推荐引擎在性能、灵活性和可扩展性等方面的要求。

Taste 工作原理

图 1. Taste 的主要组件图

Taste 由以下五个主要的组件组成：

DataModel：DataModel 是用户喜好信息的抽象接口，它的具体实现支持从任意类型的数据源抽取用户喜好信息。Taste 默认提供 JDBCDataModel 和 FileDataModel，分别支持从数据库和文件中读取用户的喜好信息。
UserSimilarity 和 ItemSimilarity：UserSimilarity 用于定义两个用户间的相似度，它是基于协同过滤的推荐引擎的核心部分，可以用来计算用户的“邻居”，这里我们将与当前用户口味相似的用户称为他的邻居。ItemSimilarity 类似的，计算内容之间的相似度。
UserNeighborhood：用于基于用户相似度的推荐方法中，推荐的内容是基于找到与当前用户喜好相似的“邻居用户”的方式产生的。UserNeighborhood 定义了确定邻居用户的方法，具体实现一般是基于 UserSimilarity 计算得到的。
Recommender：Recommender 是推荐引擎的抽象接口，Taste 中的核心组件。程序中，为它提供一个 DataModel，它可以计算出对不同用户的推荐内容。实际应用中，主要使用它的实现类 GenericUserBasedRecommender 或者 GenericItemBasedRecommender，分别实现基于用户相似度的推荐引擎或者基于内容的推荐引擎。

Taste 的安装与简单的 Demo 实现

安装 Taste 的软件需求：

如果需要 build 源代码或者例子，需要 Apache Ant 1.5+ 或 Apache Maven 2.0.10+。
Taste 应用程序需要 Servlet 2.3+容器，例如 Jakarta Tomcat。
Taste 中的 MySQLJDBCDataModel 实现需要 MySQL 4.x+数据库。

安装 Taste 并运行 Demo：

从 SVN 或是下载压缩包得到 Apache Mahout 的发布版本：
- 从 SVN获得；
- 下载压缩包；
从 Grouplens 下载数据源："1 Million MovieLens Dataset"。
解压数据源压缩包，将 movie.dat 和 ratings.dat 拷贝到 Mahout 安装目录下的 taste-web/src/ main/resources/org/apache/mahout/cf/taste/example/grouplens 目录下。
回到在 core 目录下，运行"mvn install"，将 Mahout core 安装在本地库中。
进入 taste-web, 拷贝 ../examples/target/grouplens.jar 到 taste-web/lib 目录
编辑 taste-web/recommender.properties，将 recommender.class 设置为 org.apache.mahout. cf.taste.example.grouplens.GroupLensRecommender。
在 Mahout 的安装目录下，运行"mvn package"。
运行“mvn jetty:run-war”。这里需要将 Maven 的最大内存设置为 1024M，MAVEN_OPTS=-Xmx1024M。如果需要在 Tomcat 下运行，可以在执行"mvn package"后，将 taste-web/target 目录下生成的 war 包拷贝到 Tomcat 的 webapp 下，同时也需要将 Java 的最大内存设置为 1024M，JAVA_OPTS=-Xmx1024M，然后启动 Tomcat。
访问“http://localhost:8080/[your_app]/RecommenderServlet?userID=1”，得到系统为编号为 1 的用户的推荐内容。参看图 2，Taste demo 运行结果界面，每一行第一项是推荐引擎预测的评分，第二项是电影的编号。
同时，Taste 还提供 Web 服务访问接口，通过以下 URL 访问：http://localhost:8080/[your_app]/RecommenderService.jws

WSDL 文件：http://localhost:8080/[your_app]/RecommenderService.jws?wsdl

也可以通过简单的 HTTP 请求调用这个 Web 服务：http://localhost:8080/[your_app]/RecommenderService.jws?

method=recommend&userID=1&howMany=10

图 2. Taste Demo 运行结果界面

使用 Taste 构建推荐引擎实例 – 电影推荐引擎

根据上面的步骤，我们可以得到一个简单的推荐引擎 demo 环境，下面介绍如何使用 Taste 方便地构建自定义的推荐引擎。

抽取 Taste 工具包

直接使用 Mahout 的项目环境进行编码，需要使用 Ant 或者 Maven 进行编译，整个过程比较复杂，这里我们将构建推荐引擎所需要的工具包从 Mahout 工程中抽取出来，从而方便的构建自定义的推荐引擎。

在 Eclipse 中创建 Web 应用的工程 MovieSite，将 demo 时生成的推荐引擎 Web 应用的 war 包解压缩，将 lib 下的 jar 文件拷贝到 MovieSite 的 lib 目录下。这样我们就可以方便的编写自己的推荐引擎。

图 3. MovieSite 工程中引用的 jar 文件

数据建模

这里我们想要编写一个电影推荐引擎，第一步需要对数据进行建模，分析应用中涉及的主要实体以及实体间的关系，从而设计数据库存储，程序中的类，以及推荐引擎的 DataModel。

图 4 电影和用户信息数据模型

数据模型中存在以下实体：

Movie：表示电影，包含电影的基本信息：编号、名称、发布时间、类型等等。
User：表示用户，包含用户的基本信息：编号、姓名、邮件等等。
Movie Reference：表示某个用户对某个电影的喜好程度，包含用户编号、电影编号、用户的评分以及评分的时间。
Movie Similarity：表示两个电影的相似度（这里的相似度是双向的），包括两个电影编号、电影的相似度。两个电影的相似度可以通过电影的基本信息计算得到。

下面我们就基于这个数据模型设计数据库的存储以及推荐引擎的 DataModel。

创建 MySQL 数据库存储电影和用户的信息，用户的喜好信息以及电影的相似度

清单 1. 创建数据库 SQL

        
Python

          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
          20 
        
          21 
        
          22 
        
          23 
        
          24 
        
          25 
        
          26 
        
          27 
        
          28 
        
          29 
        
          30 
        
          31 
        
          32 
        
          33 
        
          34 
        
          35 
        
          36 
        
          37 
        
          38 
        
          39 
        
         CREATE  
         DATABASE  
         movie 
         ; 
        
         USE  
         movie 
         ; 
        
         CREATE  
         TABLE  
         movies 
         ( 
            
         / 
         /保存电影相关的信息。 
        
         id 
         INTEGER  
         NOT 
         NULL  
         AUTO_INCREMENT 
         , 
        
         name  
         varchar 
         ( 
         100 
         ) 
         NOT 
         NULL 
         , 
        
         published_year  
         varchar 
         ( 
         4 
         ) 
         default  
         NULL 
         , 
        
         type 
         varchar 
         ( 
         100 
         ) 
         default  
         NULL 
         , 
        
         -- 
              
         . 
         . 
         . 
         more  
         movie  
         information 
         . 
         . 
         . 
        
         PRIMARY  
         KEY 
         ( 
         id 
         ) 
        
         ) 
         ; 
        
         CREATE  
         TABLE  
         users 
         ( 
            
         / 
         /保存用户信息 
        
         id 
         INTEGER  
         NOT 
         NULL  
         AUTO_INCREMENT 
         , 
        
         name  
         varchar 
         ( 
         50 
         ) 
         NOT 
         NULL 
         , 
        
         email 
         varchar 
         ( 
         100 
         ) 
         default  
         NULL 
         , 
        
         -- 
              
         . 
         . 
         . 
         more  
         user 
         information 
         . 
         . 
         . 
        
         PRIMARY  
         KEY 
         ( 
         id 
         ) 
        
         ) 
         ; 
        
         CREATE  
         TABLE  
         movie_preferences 
         ( 
            
         / 
         /保存用户对电影的评分，即喜好程度 
        
         userID  
         INTEGER  
         NOT 
         NULL 
         , 
        
         movieID  
         INTEGER  
         NOT 
         NULL 
         , 
        
         preference  
         INTEGER  
         NOT 
         NULL  
         DEFAULT 
         0 
         , 
        
         timestamp  
         INTEGER  
         not 
         null  
         default 
         0 
         , 
        
         FOREIGN  
         KEY 
         ( 
         userID 
         ) 
         REFERENCES  
         users 
         ( 
         id 
         ) 
         ON  
         DELETE  
         CASCADE 
         , 
        
         FOREIGN  
         KEY 
         ( 
         movieID 
         ) 
         REFERENCES  
         movies 
         ( 
         id 
         ) 
         ON  
         DELETE  
         CASCADE 
        
         ) 
         ; 
        
         CREATE  
         TABLE  
         movie_similarity 
         ( 
             
         / 
         /保存电影和电影的相似程度 
        
         movieID1  
         INTEGER  
         NOT 
         NULL 
         , 
        
         movieID2  
         INTEGER  
         NOT 
         NULL 
         , 
        
         similarity  
         DOUBLE  
         NOT 
         NULL  
         DEFAULT 
         0 
         , 
        
         FOREIGN  
         KEY 
         ( 
         movieID1 
         ) 
         REFERENCES  
         movies 
         ( 
         id 
         ) 
         ON  
         DELETE  
         CASCADE 
         , 
        
         FOREIGN  
         KEY 
         ( 
         movieID2 
         ) 
         REFERENCES  
         movies 
         ( 
         id 
         ) 
         ON  
         DELETE  
         CASCADE 
        
         ) 
         ; 
        
         CREATE  
         INDEX  
         movie_preferences_index1  
         ON  
         movie_preferences 
         ( 
         userID 
         , 
         movieID 
         ) 
         ; 
        
         CREATE  
         INDEX  
         movie_preferences_index2  
         ON  
         movie_preferences 
         ( 
         userID 
         ) 
         ; 
        
         CREATE  
         INDEX  
         movie_preferences_index3  
         ON  
         movie_preferences 
         ( 
         movieID 
         ) 
         ;

在实际应用中，我们需要将应用中的实例数据写入到数据库中。作为例子，这里将从 GroupLen 下载的数据源写入数据库。

设计实现推荐引擎的 DataModel。

由于上面采用数据库存储用户的喜好信息，这里需要基于数据库的推荐引擎实现。这里扩展 MySQLJDBCDataModel 实现电影推荐引擎的 DataModel 实例。

清单 2. Taste DataModel 的实现

        
Python

          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
         public 
         class 
         MovieDataModel 
         extends 
         MySQLJDBCDataModel 
         { 
        
         / 
         /保存用户对电影的评分的数据库表名 
        
         public  
         final  
         static  
         String 
         PERFERENCETABLE 
         = 
         "movie_preferences" 
         ; 
            
         public  
         final  
         static  
         String 
         USERID_COLUMN 
         = 
         "userID" 
         ; 
             
         / 
         /表中用户标识的列名 
        
         public  
         final  
         static  
         String 
         ITEMID_COLUMN 
         = 
         "movieID" 
         ; 
            
         / 
         /表中电影标识的列名 
        
         public  
         final  
         static  
         String 
         PERFERENCE_COLUMN 
         = 
         "preference" 
         ; 
            
         / 
         /表中评分的列名 
        
         public  
         MovieDataModel 
         ( 
         String 
         dataSourceName 
         ) 
         throws 
         TasteException 
         { 
                   
         super 
         ( 
         lookupDataSource 
         ( 
         dataSourceName 
         ) 
         , 
         PERFERENCETABLE 
         , 
         USERID_COLUMN 
         , 
        
         ITEMID_COLUMN 
         , 
         PERFERENCE_COLUMN 
         ) 
         ; 
        
         } 
        
         public  
         MovieDataModel 
         ( 
         ) 
         { 
        
         / 
         / 
         DBUtil 
         . 
         getDataSource 
         ( 
         )将返回应用的数据源 
        
         / 
         /此应用是 
         J2EE应用，所以这里会采用 
         JDNI的方式创建数据库链接。 
        
         super 
         ( 
         DBUtil 
         . 
         getDataSource 
         ( 
         ) 
         , 
         PERFERENCETABLE 
         , 
         USERID_COLUMN 
         , 
        
         ITEMID_COLUMN 
         , 
         PERFERENCE_COLUMN 
         ) 
         ; 
        
         } 
        
         }

推荐引擎实现

前面介绍了数据建模和 DataModel 的实现，下面来详细介绍推荐引擎的实现。如前面介绍的，Taste 既实现了最基本的基于用户的和基于内容的推荐算法，同时也提供了扩展接口，使用户可以方便的定义和实现自己的推荐算法。下面详细介绍如何扩展 Taste 的推荐引擎接口，实现基于用户相似度的推荐引擎，基于内容相似度的推荐引擎，以及 Slope One 的推荐引擎。Slope One 是一种非常快速简单的基于项目的推荐方法，需要使用用户的评分信息。

清单 3. 基于用户相似度的推荐实现

        
Python

          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
          20 
        
          21 
        
          22 
        
          23 
        
          24 
        
          25 
        
          26 
        
          27 
        
          28 
        
          29 
        
          30 
        
          31 
        
          32 
        
          33 
        
          34 
        
          35 
        
          36 
        
          37 
        
          38 
        
          39 
        
          40 
        
          41 
        
          42 
        
          43 
        
          44 
        
          45 
        
          46 
        
          47 
        
          48 
        
          49 
        
          50 
        
          51 
        
          52 
        
          53 
        
          54 
        
          55 
        
         public 
         class 
         UserBasedRecommender 
         implements 
         Recommender 
         { 
        
         private  
         final  
         Recommender  
         recommender 
         ; 
        
         public  
         UserBasedRecommender 
         ( 
         ) 
         throws  
         IOException 
         , 
         TasteException 
         { 
        
         this 
         ( 
         new 
         MovieDataModel 
         ( 
         ) 
         ) 
         ; 
        
         } 
        
         public  
         UserBasedRecommender 
         ( 
         DataModel  
         model 
         ) 
         throws 
         TasteException 
         { 
        
         UserSimilarity  
         userSimilarity 
         = 
         new 
         PearsonCorrelationSimilarity 
         ( 
         model 
         ) 
         ; 
            
         userSimilarity 
         . 
         setPreferenceInferrer 
         ( 
         new 
         AveragingPreferenceInferrer 
         ( 
         model 
         ) 
         ) 
         ; 
        
         UserNeighborhood  
         neighborhood 
         = 
        
         new 
         NearestNUserNeighborhood 
         ( 
         3 
         , 
         userSimilarity 
         , 
         model 
         ) 
         ; 
        
         recommender 
         = 
         new 
         CachingRecommender 
         ( 
        
         new 
         GenericUserBasedRecommender 
         ( 
         model 
         , 
         neighborhood 
         , 
         userSimilarity 
         ) 
         ) 
         ; 
        
         } 
        
         / 
         /对外提供的推荐的接口，参数为用户标识和推荐项的个数 
        
         public  
         List 
         & 
         lt 
         ; 
         RecommendedItem 
         & 
         gt 
         ; 
         recommend 
         ( 
         long 
         userID 
         , 
         int 
         howMany 
         ) 
        
         throws 
         TasteException 
         { 
        
         return 
         recommender 
         . 
         recommend 
         ( 
         userID 
         , 
         howMany 
         ) 
         ; 
        
         } 
        
         public  
         List 
         & 
         lt 
         ; 
         RecommendedItem 
         & 
         gt 
         ; 
         recommend 
         ( 
         long 
         userID 
         , 
         int 
         howMany 
         , 
        
         Rescorer 
         & 
         lt 
         ; 
         Long 
         & 
         gt 
         ; 
         rescorer 
         ) 
         throws 
         TasteException 
         { 
        
         return 
         recommender 
         . 
         recommend 
         ( 
         userID 
         , 
         howMany 
         , 
         rescorer 
         ) 
         ; 
        
         } 
        
         / 
         /以下方法都是实现 
         Recommender的接口 
        
         public  
         float 
         estimatePreference 
         ( 
         long 
         userID 
         , 
         long 
         itemID 
         ) 
         throws 
         TasteException 
         { 
        
         return 
         recommender 
         . 
         estimatePreference 
         ( 
         userID 
         , 
         itemID 
         ) 
         ; 
        
         } 
        
         public  
         void  
         setPreference 
         ( 
         long 
         userID 
         , 
         long 
         itemID 
         , 
         float 
         value 
         ) 
        
         throws 
         TasteException 
         { 
        
         recommender 
         . 
         setPreference 
         ( 
         userID 
         , 
         itemID 
         , 
         value 
         ) 
         ; 
        
         } 
        
         public  
         void  
         removePreference 
         ( 
         long 
         userID 
         , 
         long 
         itemID 
         ) 
         throws 
         TasteException 
         { 
        
         recommender 
         . 
         removePreference 
         ( 
         userID 
         , 
         itemID 
         ) 
         ; 
        
         } 
        
         public  
         DataModel  
         getDataModel 
         ( 
         ) 
         { 
        
         return 
         recommender 
         . 
         getDataModel 
         ( 
         ) 
         ; 
        
         } 
        
         public  
         void  
         refresh 
         ( 
         Collection 
         & 
         lt 
         ; 
         Refreshable 
         & 
         gt 
         ; 
         alreadyRefreshed 
         ) 
         { 
        
         recommender 
         . 
         refresh 
         ( 
         alreadyRefreshed 
         ) 
         ; 
        
         } 
        
         public  
         String 
         toString 
         ( 
         ) 
         { 
        
         return 
         "UserBasedRecommender[recommender:" 
         + 
         recommender 
         + 
         ']' 
         ; 
        
         } 
        
         }

从上面的代码示例清单 3 可以看出，实现一个推荐引擎需要实现 Recommender 接口，它一般是对于某种 Taste 提供的推荐引擎的扩展，这是对 GenericUserBasedRecommender 进行的扩展，其中最重要的方法就是实例化推荐引擎的构造方法，一般其中涉及以下步骤：

基于 DataModel，计算用户的相似度，这里采用 PearsonCorrelation 算法。
为用户相似度设置相似度推理方法，这里采用了 AveragingPreferenceInferrer。
基于用户相似度计算用户的“邻居”，这里将与该用户最近距离为 3 的用户设置为该用户的“邻居”。
使用以上得到的用户相似度对象和邻居用户的计算方法对象创建一个 GenericUserBasedRecommender 的实例。一般情况下，这时都采用 CachingRecommender 为 RecommendationItem 进行缓存，从而提高访问速度。

清单 4. 基于内容相似度的推荐实现

        
Python

          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
          20 
        
          21 
        
          22 
        
          23 
        
          24 
        
          25 
        
          26 
        
          27 
        
          28 
        
          29 
        
          30 
        
          31 
        
          32 
        
          33 
        
          34 
        
          35 
        
          36 
        
          37 
        
          38 
        
          39 
        
          40 
        
          41 
        
          42 
        
          43 
        
          44 
        
         public 
         class 
         ItemBasedRecommender 
         implements 
         Recommender 
         { 
        
         private  
         final  
         Recommender  
         recommender 
         ; 
        
         public  
         ItemBasedRecommender 
         ( 
         ) 
         throws  
         IOException 
         , 
         TasteException 
         { 
        
         this 
         ( 
         new 
         MovieDataModel 
         ( 
         ) 
         ) 
         ; 
        
         } 
        
         public  
         ItemBasedRecommender 
         ( 
         DataModel  
         dataModel 
         ) 
         throws 
         TasteException 
         { 
        
         Collection 
         & 
         lt 
         ; 
         GenericItemSimilarity 
         . 
         ItemItemSimilarity 
         & 
         gt 
         ; 
         correlations 
         = 
        
         MovieSimilarityTable 
         . 
         getAllMovieSimilarities 
         ( 
         ) 
         ; 
        
         ItemSimilarity  
         itemSimilarity 
         = 
         new 
         GenericItemSimilarity 
         ( 
         correlations 
         ) 
         ; 
        
         recommender 
         = 
         new 
         CachingRecommender 
         ( 
         new 
         EmbededItemBasedRecommender 
         ( 
        
         new 
         GenericItemBasedRecommender 
         ( 
         dataModel 
         , 
         itemSimilarity 
         ) 
         ) 
         ) 
         ; 
        
         } 
        
         public  
         List 
         & 
         lt 
         ; 
         RecommendedItem 
         & 
         gt 
         ; 
         recommend 
         ( 
         long 
         userID 
         , 
         int 
         howMany 
         ) 
        
         throws 
         TasteException 
         { 
        
         return 
         recommender 
         . 
         recommend 
         ( 
         userID 
         , 
         howMany 
         ) 
         ; 
        
         } 
        
         . 
         . 
         . 
         . 
         . 
         . 
         . 
         . 
         . 
        
         / 
         / 
         EmbededItemBasedRecommender类的定义 
                    
         private 
         static 
         final 
         class 
         EmbededItemBasedRecommender 
         implements 
         Recommender 
         { 
        
         / 
         /包含一个 
         GenericItemBasedRecommender实例； 
        
         private  
         final  
         GenericItemBasedRecommender  
         recommender 
         ; 
        
         private  
         EmbededItemBasedRecommender 
         ( 
         GenericItemBasedRecommender  
         recommender 
         ) 
         { 
        
         this 
         . 
         recommender 
         = 
         recommender 
         ; 
        
         } 
        
         public  
         List 
         & 
         lt 
         ; 
         RecommendedItem 
         & 
         gt 
         ; 
         recommend 
         ( 
         long 
         userID 
         , 
            
         int 
         howMany 
         , 
        
         Rescorer 
         & 
         lt 
         ; 
         Long 
         & 
         gt 
         ; 
         rescorer 
         ) 
        
         throws 
         TasteException 
         { 
        
         FastIDSet  
         itemIDs 
         = 
         recommender 
         . 
         getDataModel 
         ( 
         ) 
         . 
         getItemIDsFromUser 
         ( 
         userID 
         ) 
         ; 
        
         return 
         recommender 
         . 
         mostSimilarItems 
         ( 
         itemIDs 
         . 
         toArray 
         ( 
         ) 
         , 
         howMany 
         , 
         null 
         ) 
         ; 
        
         } 
        
         . 
         . 
         . 
         . 
         . 
         . 
         . 
         . 
        
         }

从上面的代码示例清单 4 可以看出，与上一个实现类似它是对 GenericItemBasedRecommender 的扩展，它的构造方法涉及以下步骤：

为了提高推荐引擎的实时响应速度，这里需要对电影信息的预处理，将电影的相似度提前计算好存储在数据库中的 movie_similarity 表中，然后从数据库中读取所有的电影的相似度，用于创建 ItemItemSimilarity 的集合。
基于 ItemItemSimilarity 的集合生成一个内容相似度 ItemSimilarity。
创建一个 EmbededItemBasedRecommender 实例，它是一个内部类，包含一个 GenericItemBasedRecommender 实例，它的 recommend 方法中，先从 DataModel 中得到该用户评分的电影列表，然后调用 GenericItemBasedRecommender 中的 mostSimilarItems 方法计算出最相似的电影推荐给用

清单 5. SlopeOne Recommeder 的实现

        
Python

          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
          20 
        
          21 
        
          22 
        
         public 
         final 
         class 
         MovieRecommender 
         implements 
         Recommender 
         { 
        
         private  
         final  
         Recommender  
         recommender 
         ; 
        
         public  
         MovieRecommender 
         ( 
         ) 
         throws  
         IOException 
         , 
         TasteException 
         { 
        
         this 
         ( 
         new 
         MovieDataModel 
         ( 
         ) 
         ) 
         ; 
        
         } 
        
         public  
         MovieRecommender 
         ( 
         DataModel  
         dataModel 
         ) 
         throws 
         TasteException 
         { 
        
         / 
         /创建一个 
         SlopeOneRecommender的实例 
        
         recommender 
         = 
         new 
         CachingRecommender 
         ( 
         new 
         SlopeOneRecommender 
         ( 
         dataModel 
         ) 
         ) 
         ; 
        
         } 
        
         / 
         /对外提供的推荐的接口，参数为用户标识和推荐项的个数 
        
         public  
         List 
         & 
         lt 
         ; 
         RecommendedItem 
         & 
         gt 
         ; 
         recommend 
         ( 
         long 
         userID 
         , 
         int 
         howMany 
         ) 
        
         throws 
         TasteException 
         { 
        
         return 
         recommender 
         . 
         recommend 
         ( 
         userID 
         , 
         howMany 
         ) 
         ; 
        
         } 
        
         . 
         . 
         . 
         . 
         . 
         . 
         . 
         . 
        
         }

Slope One 是一种非常快速简单的基于项目的推荐方法，它只需要使用用户的评分信息。具体的实现，只需要在我们的推荐引擎中包含一个 SlopeOneRecommender 的实例。

推荐引擎 API 设计与实现

完成了推荐引擎的设计与实现，下面我们需要设计一些 REST API，向外暴露推荐功能。为了提高推荐引擎的处理效率，这里采用 Singleton 模式实现一个推荐引擎的单例 MovieRecommenderSingleton。在 Servlet 启动的时候初始化推荐引擎的单例，以后每次调用推荐方法。

清单 6. Servlet 的实现

        
    

        
    

        
    

        
    

        
    
Python

      
  
 
    
     
      
          1 
        

          2 
        

          3 
        

          4 
        

          5 
        

          6 
        

          7 
        

          8 
        

          9 
        

          10 
        

          11 
        

          12 
        

          13 
        

          14 
        

          15 
        

          16 
        

          17 
        

          18 
        

          19 
        

          20 
        

          21 
        

          22 
        

          23 
        

          24 
        

          25 
        

          26 
        

          27 
        

          28 
        

          29 
        

          30 
        

          31 
        

          32 
        

          33 
        

          34 
        

          35 
        

          36 
        

          37 
        

          38 
        

          39 
        

          40 
        

          41 
        

          42 
        

          43 
        

          44 
        

          45 
        

          46 
        

          47 
        

          48 
        

          49 
        

          50 
        

          51 
        

          52 
        

          53 
        

          54 
        

          55 
        

          56 
        

          57 
        

          58 
        

          59 
        

          60 
        

          61 
        

          62 
        

          63 
        

          64 
        

          65 
        

          66 
        

          67 
        

          68 
        

          69 
        

          70 
        

          71 
        

          72 
        

          73 
        

          74 
        

          75 
        

          76 
        

          77 
        

          78 
        

          79 
        

          80 
        

          81 
        

          82 
        

          83 
        
 
       
         public 
         class 
         MovieRecommenderServlet 
         extends 
         HttpServlet 
         { 
        
 
            
         private  
         static  
         final  
         int 
         NUM_TOP_PREFERENCES 
         = 
         20 
         ; 
        
 
              
         private  
         static  
         final  
         int 
         DEFAULT_HOW_MANY 
         = 
         20 
         ; 
        

            
        
 
              
         private  
         Recommender  
         recommender 
         ; 
        

            
        
 
              
         @ 
         Override  
        
 
              
         public  
         void  
         init 
         ( 
         ServletConfig  
         config 
         ) 
         throws 
         ServletException 
         { 
        
 
                  
         super 
         . 
         init 
         ( 
         config 
         ) 
         ; 
        

            
        
 
                   
         / 
         /从 
         web 
         . 
         xml中读取需要创建的推荐引擎类名 
        
 
                  
         / 
         * 
        
 
                   
         * 
         & 
         lt 
         ; 
         servlet 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         servlet 
         - 
         name 
         & 
         gt 
         ; 
         movie 
         - 
         recommender 
         & 
         lt 
         ; 
         / 
         servlet 
         - 
         name 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         display 
         - 
         name 
         & 
         gt 
         ; 
         Movie  
         Recommender 
         & 
         lt 
         ; 
         / 
         display 
         - 
         name 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         description 
         & 
         gt 
         ; 
         Movie  
         recommender  
         servlet 
         & 
         lt 
         ; 
         / 
         description 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         servlet 
         - 
         class 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         com 
         . 
         ibm 
         . 
         taste 
         . 
         example 
         . 
         movie 
         . 
         servlet 
         . 
         MovieRecommenderServlet 
        
 
                   
         * 
            
         & 
         lt 
         ; 
         / 
         servlet 
         - 
         class 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         init 
         - 
         param 
         & 
         gt 
         ; 
        
 
                   
         * 
                    
         & 
         lt 
         ; 
         param 
         - 
         name 
         & 
         gt 
         ; 
         recommender 
         - 
         class 
         & 
         lt 
         ; 
         / 
         param 
         - 
         name 
         & 
         gt 
         ; 
        
 
                   
         * 
                    
         & 
         lt 
         ; 
         param 
         - 
         value 
         & 
         gt 
         ; 
        
 
                   
         * 
                    
         com 
         . 
         ibm 
         . 
         taste 
         . 
         example 
         . 
         movie 
         . 
         recommender 
         . 
         UserBasedRecommender 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         / 
         param 
         - 
         value 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         / 
         init 
         - 
         param 
         & 
         gt 
         ; 
        
 
                   
         * 
                
         & 
         lt 
         ; 
         load 
         - 
         on 
         - 
         startup 
         & 
         gt 
         ; 
         1 
         & 
         lt 
         ; 
         / 
         load 
         - 
         on 
         - 
         startup 
         & 
         gt 
         ; 
        
 
                   
         * 
         & 
         lt 
         ; 
         / 
         servlet 
         & 
         gt 
         ; 
        
 
                   
         * 
         / 
        
 
                  
         String 
         recommenderClassName 
         = 
         config 
         . 
         getInitParameter 
         ( 
         "recommender-class" 
         ) 
         ; 
        
 
                  
         if 
         ( 
         recommenderClassName 
         == 
         null 
         ) 
         { 
        
 
                      
         throw  
         new 
         ServletException 
         ( 
        
 
                          
         "Servlet init-param \"recommender-class\" is not defined" 
         ) 
         ; 
        
 
                  
         } 
        

            
        
 
                   
         try 
         { 
        
 
                      
         MovieRecommenderSingleton 
         . 
         initializeIfNeeded 
         ( 
         recommenderClassName 
         ) 
         ; 
        
 
                  
         } 
         catch 
         ( 
         TasteException  
         te 
         ) 
         { 
        
 
                      
         throw  
         new 
         ServletException 
         ( 
         te 
         ) 
         ; 
        
 
                  
         } 
        
 
                  
         recommender 
         = 
         MovieRecommenderSingleton 
         . 
         getInstance 
         ( 
         ) 
         . 
         getRecommender 
         ( 
         ) 
         ; 
        
 
              
         } 
        

            
        
 
              
         @ 
         Override  
        
 
              
         public  
         void  
         doGet 
         ( 
         HttpServletRequest  
         request 
         , 
        
 
                  
         HttpServletResponse  
         response 
         ) 
         throws 
         ServletException 
         { 
        
 
                   
         / 
         / 
         Parameters 
         . 
         USER_ID 
         = 
         "userID" 
        
 
                  
         String 
         userIDString 
         = 
         request 
         . 
         getParameter 
         ( 
         Parameters 
         . 
         USER_ID 
         ) 
         ; 
            
        
 
                  
         if 
         ( 
         userIDString 
         == 
         null 
         ) 
         { 
        
 
                      
         throw  
         new 
         ServletException 
         ( 
         "userID was not specified" 
         ) 
         ; 
        
 
                  
         } 
        
 
                  
         long 
         userID 
         = 
         Long 
         . 
         parseLong 
         ( 
         userIDString 
         ) 
         ; 
        
 
                  
         String 
         howManyString 
         = 
         request 
         . 
         getParameter 
         ( 
         Parameters 
         . 
         COUNT 
         ) 
         ; 
                
        
 
                  
         / 
         / 
         Parameters 
         . 
         COUNT 
         = 
         "count" 
        
 
                  
         int 
         howMany 
         = 
         howManyString 
         == 
         null 
         ? 
         DEFAULT_HOW_MANY 
         : 
        
 
                      
         Integer 
         . 
         parseInt 
         ( 
         howManyString 
         ) 
         ; 
        
 
                  
         String 
         format 
         = 
         request 
         . 
         getParameter 
         ( 
         Parameters 
         . 
         FORMAT 
         ) 
         ; 
                
        
 
                  
         / 
         / 
         Parameters 
         . 
         FORMAT 
         = 
         "format" 
        
 
                  
         if 
         ( 
         format 
         == 
         null 
         ) 
         { 
        
 
                      
         format 
         = 
         "json" 
         ; 
        
 
                  
         } 
        

            
        
 
                  
         try 
         { 
        
 
                      
         / 
         /为指定用户计算推荐的电影 
        
 
                      
         List 
         & 
         lt 
         ; 
         RecommendedItem 
         & 
         gt 
         ; 
         items 
         = 
         recommender 
         . 
         recommend 
         ( 
         userID 
         , 
         howMany 
         ) 
         ; 
        
 
                      
         / 
         /加载电影的相关信息， 
         RecommendMovieList是保存了一组推荐电影的相关信息和 
        
 
                      
         / 
         /引擎计算得到的他们的 
         ranking  
        
 
                      
         RecommendMovieList  
         movieList 
         = 
         new 
         RecommendMovieList 
         ( 
         items 
         ) 
         ; 
        
 
                      
         if 
         ( 
         "text" 
         . 
         equals 
         ( 
         format 
         ) 
         ) 
         { 
        
 
                          
         writePlainText 
         ( 
         response 
         , 
         movieList 
         ) 
         ; 
        
 
                      
         } 
         else 
         if 
         ( 
         "json" 
         . 
         equals 
         ( 
         format 
         ) 
         ) 
         { 
        
 
                          
         writeJSON 
         ( 
         response 
         , 
         movieList 
         ) 
         ; 
        
 
                      
         } 
         else 
         { 
        
 
                          
         throw  
         new 
         ServletException 
         ( 
         "Bad format parameter: " 
         + 
         format 
         ) 
         ; 
        
 
                      
         } 
        
 
                  
         } 
         catch 
         ( 
         TasteException  
         te 
         ) 
         { 
        
 
                      
         throw  
         new 
         ServletException 
         ( 
         te 
         ) 
         ; 
        
 
                  
         } 
         catch 
         ( 
         IOException  
         ioe 
         ) 
         { 
        
 
                      
         throw  
         new 
         ServletException 
         ( 
         ioe 
         ) 
         ; 
        
 
                  
         } 
        

            
        
 
              
         } 
        
 
              
         / 
         / 
         details  
         please  
         refer  
         to  
         the  
         src  
         code 
        
 
         } 
        
 
     
 
    
  

以上完成了电影推荐引擎服务器端的编程，下面我们使用 FireFox 的插件 Poster 测试一下 HTTP 请求，查看推荐引擎的返回结果。对任意一个用户，推荐引擎应该基于一定的规则计算得到一组电影以及预计的评分，为了有更好的用户体验，引擎在拿到推荐电影序号的列表后，从电影信息数据库中查询得到电影的相关信息，包括电影的名称，发表时间以及类型等信息。这里我们采用 JSON 作为推荐引擎的响应格式。

图 4. 用 Poster 测试 Servlet 的结果

用户界面展示

实现一个推荐引擎的最后一步就是编写客户端代码，为电影推荐引擎提供一个友好的用户界面。下面展示一下我们为电影推荐引擎写的一个简单的用户界面：右边红色框中的是该用户已经打分的电影列表，左边蓝色框中是推荐引擎为用户推荐的电影列表。

首先，展示一下基于用户的推荐引擎的推荐结果，推荐引擎会根据用户已打分的电影找到用户的“邻居”，将“邻居”们比较喜欢的电影推荐给当前用户。

图 5. 基于用户的推荐结果

其次，图 6 展示了基于内容的推荐引擎的推荐结果，推荐引擎会根据用户已打分的电影找到相似的电影，推荐给当前用户。

图 6. 基于内容的推荐结果

最后，展示 SlopeOne 推荐引擎的推荐结果，这种推荐引擎计算速度较快，效果很好，是一种非常快速简单的基于项目的推荐方法。

图 7. SlopeOne 实现的推荐结果

总结

目前几乎所有大型的电子商务系统，都不同程度地使用了各种形式的推荐引擎。推荐技术的使用，不仅大大的提高了用户购物的体验，增加了用户的粘着度，而且电子商务公司也由于推荐系统的应用而大大的提高了交叉销售的可能，从而大大的提高了营业额。今天，你有自己的商品推荐系统么？

借鉴于电子商务的成功经验，我们可以把推荐技术应用到其他的领域。像我们在文章中所演示的那样，你可以创建一个电影的推荐引擎。如果你是一个 blogger，那么你可以创建一个博客的推荐引擎，如果你是一个新闻提供商，你可以使用推荐技术为不同的用户推荐它可能关心的新闻，等等。

今天，你推荐了么？

参考资料

“Apache Mahout 简介” （Grant Ingersoll，developerWorks，2009 年 10 月）：Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念，并演示了如何使用 Mahout 来实现文档集群、提出建议和组织内容。
Apache Mahout：Apache Mahout 项目的主页，搜索关于 Mahout 的所有内容。
Taste Documentation：Taste 的介绍文档，阅读 Taste 文档。
GroupLens：从 GroupLens 项目获取真实的电影评分数据。
机器学习：机器学习的 Wikipedia 页面，可帮助您了解关于机器学习的更多信息。
developerWorks Java 技术专区：数百篇关于 Java 编程各个方面的文章。

源代码下载

http://www.cserzs.com/built-on-apache-mahout-social-recommendation-engine

你可能感兴趣的:(Mahout)

传统推荐算法库使用--mahout初体验 Huterox 推荐算法算法机器学习
文章目录前言环境准备调用混合总结前言郑重声明：本博文做法仅限毕设糊弄老师使用，不建议生产环境使用！！！老项目缝缝补补又是三年，本来是打算直接重写写个社区然后给毕设使用的。但是怎么说呢，毕竟毕设的主角不是xx社区，这个社区是为我的编译器服务的，为了推广这个编译器，然后我才做了这个社区。然而不幸的是，开题答辩的时候，各位“专家”叫我以xx社区为主，听起来高级。于是没有办法，我只能强行做个社区，怎么做呢
基于音乐/电影/图书的协同过滤推荐算法代码实现 74b3a3e489d4
基于音乐/电影/图书的协同过滤推荐算法代码实现一、开发工具及使用技术MyEclipse10、jdk1.7、tomcat7、jsp、javascript、jquery、bootstrap、webuploader、layer、ssh、mysql、navicat、mahoutAPI等。二、开发过程1、本文主要介绍基于音乐的协同过滤推荐算法代码实现，电影、图书等推荐原理相同。2、本文使用的推荐算法有：基于
Hadoop 大数据技术原理与应用 kk8_ hadoop 大数据 hdfs
Hadoop大数据技术原理与应用大数据概述定义特征大量，多样，高速，价值研究意义应用场景医疗，金融，零售Hadoop概述历史优势扩容能力强，成本低，高效率，可靠性，高容错Hadoop生态分布式存储系统（HDFS）分布式计算框架（MapReduce）资源管理（YARN）数据迁移（Sqoop）数据挖掘算法库（Mahout）分布式数据库（HBase）分布式协调服务（Zookeeper）数据仓库（Hive
【大数据分析与挖掘技术】概述 Francek Chen 大数据技术基础数据分析数据挖掘 Mahout
目录一、数据挖掘简介（一）数据挖掘对象（二）数据挖掘流程（三）数据挖掘的分析方法（四）经典算法二、Mahout（一）Mahout简介（二）主要特性（三）Mahout安装与配置一、数据挖掘简介需要是发明之母。近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市
【大数据分析与挖掘技术】Mahout推荐算法 Francek Chen 大数据技术基础数据分析人工智能数据挖掘 Mahout
目录一、推荐的定义与评估（一）推荐的定义（二）推荐的评估二、Mahout中的常见推荐算法（一）基于用户的推荐算法（二）基于物品的推荐算法（三）基于SVD的推荐算法（四）基于线性插值的推荐算法（五）基于聚类的推荐算法三、对GroupLens数据集进行推荐与评价（一）如何使用推荐器进行推荐（二）如何评估推荐器的好坏推荐是Mahout机器学习算法的主题之一，它极大地渗透到了人们日常生活的方方面面，比如，
计算机毕业设计之全网独家Spark租房爬虫数据分析与推荐系统租房大数据租房app 租房数据分析租房爬虫房源推荐系统房源数据分析房源可视化 haochengxu2022 数据分析爬虫推荐系统 spark 爬虫数据分析推荐系统
一、网站·登录与注册、注销·短信验证码修改密码·我的信息：身份证实名认证·租房业务流程（预约+看房+支付+完成+评价）、进度步骤条展示·支付宝沙箱支付·房屋浏览、中介信息查看·房屋推荐（基于mahout协同过滤算法）·房屋评价、点赞与收藏二、后端·统计主页、个人信息（带头像上传）、权限管理、用户管理、资讯管理、通知管理、日志管理、评论管理、轮播图管理、房屋管理、中介管理、订单管理。·中介权限可以登
推荐系统中协同过滤算法实现分析 weixin_33853794 人工智能 python 数据库
2019独角兽企业重金招聘Python工程师标准>>>原创博客，欢迎转载，转载请注明：http://my.oschina.net/BreathL/blog/62519最近研究Mahout比较多，特别是里面协同过滤算法；于是把协同过滤算法的这个实现思路与数据流程，总结了一下，以便以后对系统做优化时，有个清晰的思路，这样才能知道该如何优化且优化后数据亦能正确。推荐中的协同过滤算法简单说明下：首先，通过
大数据分析- 基于Hadoop/Mahout的大数据挖掘 shenmanli 大数据 hadoop 数据挖掘行业应用开发人员
随着互联网、移动互联网和物联网的发展，我们已经切实地迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合，对大数据的分析已经成为一个非常重要且紧迫的需求。目前对大数据的分析工具，首选的是Hadoop平台。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。一、培训对象1，系统架构师、系
“大数据分析挖掘-基于Hadoop/Mahout/Mllib的大数据挖掘（含Spark、Storm和Docker应用介绍）”培训 shenmanli 培训课程公开课企业培训大数据 hadoop spark
随着互联网、移动互联网和物联网的发展，我们已经切实地迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合，对大数据的分析已经成为一个非常重要且紧迫的需求。目前对大数据的分析工具，首选的是Hadoop/Yarn平台。Hadoop/Yarn在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。为解决广大
springboot集成mahout实现简单基于协同过滤算法的文章推荐算法程序个人练习生开源项目学习算法 spring boot 推荐算法
文章目录参考文章前言1.建表并且生成一些数据首先，建立一个用户文章操作表（user_article_operation）使用casewhen语句简单统计数据2.代码与测试只需要根据表生成相应实体类（注意要加一个value属性来存储分数）主要代码如下，其实就两个方法userArticleOperationMapper.getAllUserPreference()方法收集数据mapper文件如下测试算
java电影推荐系统_基于Mahout的电影推荐系统语文乌托邦 java电影推荐系统
1.Mahout简介ApacheMahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等，并且，在Mahout的最近版本中还加入了对ApacheHadoop的支持，使这些算法可以更高效的运行在云计算环境中。2.Taste简介T
mahout 源码解析之聚类--聚类迭代模型 theonlytank2011 数据挖掘 mahout源码 mahout源码解析
在前面讲聚类策略时，包org.apache.mahout.clustering.iterator里面还有几个类没有进行讲解，这次做下收尾工作。ClusterIterator利用ClusterClassifier和指定的迭代次数将样本进行聚类。其中有三个具体的函数。iterate主要对内存中的数据进行聚类，输入就为一个Vector类型的迭代器。publicClusterClassifieritera
理论学习--【Hadoop生态原理学习】 zenas_yuan Hadoop hadoop
一、Hadoop原理1.核心：HDFS(存储)、MapReduce(分析)解决大量数据存储与处理的问题离线分析：hive实现查询：hbaseBI分析：Mahout2.版本1.0mapreduce还进行资源调度2.0mapreduce=yarn（资源调度）+mapreduce（进行计算运行在yarn上），HDfs:nn,ha2.1.2yarn还支持strom、spark、。。选择考虑因素：是否开源、
推荐系统-基于物品协同过滤算法代码实现 Moutai码农大数据推荐系统算法推荐算法大数据 spark
1、简介当前Spark没有像mahout那样，严格区分基于物品的协同过滤推荐（ItemCF）和基于用户的协同过滤推荐（UserCF），只有基于模型的协同过滤推荐算法ALS（model-basedCF）。但ALS算法对于一些特定的问题(用户数量较小的场景，以及物品数量明显小于用户数量的场景)，效果并不理想，不像mahout提供了各种推荐算法选择。为了充分利用spark在速度上带来的提升同时为满足一些
java+jsp+mysql实现在线电影推荐系统movieCFWeb mahout实现基于用户的协同过滤推荐算法基于项目的协同过滤推荐算法 74b3a3e489d4
java+jsp+mysql实现在线电影推荐系统movieCFWeb一、项目简介http://localhost:8080/movieCFWeb/前台http://localhost:8080/movieCFWeb/admin后台自定义数据，mahout实现基于用户的协同过滤推荐算法前台包含用户注册、登录、搜索电影、分页、电影详情、评分、修改信息、评分列表、推荐电影等功能后台包括用户、电影、评分、
2.3 初探Hadoop世界 howard2005 数据清洗和预处理大数据离线分析 hadoop 大数据分布式
文章目录零、学习目标一、导入新课二、新课讲解（一）Hadoop的前世今生1、Google处理大数据三大技术2、Hadoop如何诞生3、Hadoop主要发展历程（二）Hadoop的优势1、扩容能力强2、成本低3、高效率4、可靠性5、高容错性（三）Hadoop的生态体系1、HDFS分布式文件系统2、MapReduce分布式计算框架3、Yarn资源管理框架4、Sqoop数据迁移工具5、Mahout数据挖
「大数据集群的搭建和使用」背景知识：大数据Hadoop生态圈介绍优秀的Athena在休息大数据集群的搭建和使用大数据 hadoop 分布式
目录一、Hadoop简介二、Hadoop的运行模式1.单机模式2.伪分布式模式3.完全分布式模式三、Hadoop生态圈组件1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.HBase7.HCatalog8.Avro9.Thrift10.Drill11.Mahout12.Sqoop13.Flume14.Ambari15.Zookeeper四、Hadoop优缺点五、Hadoop学
【大数据】Hadoop 生态系统及其组件 G皮T #Hadoop hadoop big data 大数据 hdfs hive mapreduce yarn
Hadoop生态系统及其组件1.Hadoop生态系统的组成2.Hadoop生态系统简介2.1HDFS2.2MapReduce2.3YARN2.4Hive2.5Pig2.6HBase2.7HCatalog2.8Avro2.9Thrift2.10Drill2.11Mahout2.12Sqoop2.13Flume2.14Ambari2.15Zookeeper2.16Oozie1.Hadoop生态系统的组
26Hbase介绍及其数据模型和架构（hbase学习1）文茶君
Hbase介绍Hadoop生态系统spark已经替代mahouthbase简介：非关系型数据库知识面扩展cassandra、hbase、mongodb（文档型数据库）、rediscouchdb，文件存储数据库Neo4j非关系型图数据库HbaseHadoopDatabase，是一个高可靠性、高性能、面向列（面向列的KV数据库）、可伸缩（动态扩展机器。不需要停服务）、实时读写的分布式数据库利用Hado
Item-Based Recommendations with Hadoop liuyuan185442111 Old Hadoop hadoop 大数据分布式
Mahout在MapReduce上实现了Item-BasedCollaborativeFiltering，这里我尝试运行一下。安装Hadoop从下载Mahout并解压准备数据下载1MillionMovieLensDataset，解压得到ratings.dat，用sed‘s/:[0-9]{1,}):[0-9]{1})::[0-9]{1,}$/,\1,\2/’ratings.dat处理成需要的格式。运
【大数据毕设】基于Hadoop的音乐推荐系统论文(三) Maynor996 #课设＆毕设大数据课程设计 hadoop
博主介绍：✌全网粉丝6W+,csdn特邀作者、博客专家、大数据领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战✌文末获取项目联系摘要本文基于Hadoop技术，设计并实现了一个名为“酷酷音乐网站”的系统，用于音乐资源的存储、管理和推荐。该系统采用Hadoop生态系统中的组件，包括HDFS、MapReduce、HBase和Mahout等，实现
如何使用Java进行机器学习? 玥沐春风 java 机器学习开发语言
在Java中进行机器学习，可以使用各种开源机器学习库和框架来实现。以下是一些常用的Java机器学习库：Weka：Weka是一个非常流行的机器学习库，提供了大量的算法和工具，以及用于数据预处理、特征选择和可视化的功能。Deeplearning4j：Deeplearning4j是一个用于深度学习的开源库，支持多种神经网络模型和训练算法，可以用于图像分类、文本分析等任务。ApacheMahout：Apa
阿里云上部署java8和hadoop3.0、spark、hive及Mahout karwik 大数据
1.安装JDK1.8到oracle官网：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmllinux是64位的，安装jdk-8u131-linux-x64.tar.gz安装及配置参考http://blog.csdn.net/rchm8519/article/details/48721
【大数据】图解 Hadoop 生态系统及其组件 G皮T #Hadoop 大数据 hadoop 分布式 hdfs mapreduce yarn hive
图解Hadoop生态系统及其组件1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.Mahout7.HBase8.Zookeeper9.Sqoop10.Flume11.Oozie12.Ambari13.Spark在了解Hadoop生态系统及其组件之前，我们首先了解一下Hadoop的三大组件，即HDFS、MapReduce、YARN，它们共同构成了Hadoop分布式计算框架的核心
斯皮尔曼相关性 —— Spearman Correlation ifnoelse 推荐算法 user cache action 存储
斯皮尔曼相关性可以理解为是排列后（Rank）用户喜好值之间的Pearson相关度。《MahoutinAction》中有这样的解释：假设对于每个用户，我们找到他最不喜欢的物品，重写他的评分值为“1”；然后找到下一个最不喜欢的物品，重写评分值为“2”，以此类推。然后我们对这些转换后的值求Pearson相关系数，这就是Spearman相关系数。斯皮尔曼相关度的计算舍弃了一些重要信息，即真实的评分值。但它
java+jsp+mysql实现个性化租车推荐系统carcfrs mahout实现基于用户、项目的协同过滤推荐算法 SSH（spring+struts+hibernate）开发框架 74b3a3e489d4
java+jsp+mysql实现个性化租车推荐系统carcfrs一、项目简介只有前台用户，没有管理员，功能是用户登录、注册、评论、评分、收藏、热点推荐、基于用户根据评分进行协同过滤推荐算法，数据爬虫爬取一嗨租车数据。二、项目展示
Mahout教程_编程入门自学教程_菜鸟教程-免费教程分享菜鸟一记笔记
教程简介Mahout是ApacheSoftwareFoundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用ApacheHadoop库，Mahout可以有效地扩展到云中。Mahout教程-使用此入门教程，从简介，机器學習，环境，推荐，聚
SSH（Spring+Hibernate+Struts）开发框架开发购物商城推荐系统shop mahout实现基于用户、项目的协同过滤推荐算法个性化购物推荐系统 74b3a3e489d4
SSH（Spring+Hibernate+Struts）开发框架开发购物商城推荐系统shop项目简介1、前台：http://localhost:8080/ComputerRecom/后台：http://localhost:8080/ComputerRecom/admin/login.jsp用户名：admin密码：admin；2、推荐使用mahout接口实现基于用户、项目的协同过滤推荐算法，ssh开
大数据学习记录（hadoop hive flume azkaban sqoop）左上晨大数据 hadoop hive flume azkaban
大数据学习记录（hadoophiveflumeazkabansqoop）1.hadoop对海量数据进行分布式处理2.核心组件：HDFS（分布式文件系统）、YARN（运算资源调度系统）、MAPREDUCE（分布式运算编程框架）3.HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具4.HBASE：基于HADOOP的分布式海量数据库5.Mahout：基于mapreduce/spark/f
构建智能电商推荐系统：大数据实战中的Kudu、Flink和Mahout应用【上进小菜猪大数据】上进小菜猪大数据专栏合集大数据 flink 人工智能
上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。本文将介绍如何利用Kudu、Flink和Mahout这三种技术构建一个强大的大数据分析平台。我们将详细讨论这些技术的特点和优势，并提供代码示例，帮助读者了解如何在实际项目中应用它们。通过本文的指导，读者将能够掌握如何使用这些工具来处理大规模数据集，并进行智能分析。在当今的信息时代，大数据分析成为了各行各业中不可或缺的一环。为了有效地处理海量
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key