mrwang

Mahout的taste推荐系统里的几种Recommender分析

Taste简介

看自:http://blog.csdn.net/zhoubl668/article/details/13297583

Mahout 是apache下的一个java语言的开源大数据机器学习项目，与其他机器学习项目不同的是，它的算法多数是mapreduce方式写的，可以在hadoop上运行，并行化处理大规模数据。

协同过滤在mahout里是由一个叫taste的引擎提供的，它提供两种模式，一种是以jar包形式嵌入到程序里在进程内运行，另外一种是MapReduce Job形式在hadoop上运行。这两种方式使用的算法是一样的，配置也类似。基本上搞明白了一种，就会另外一种了。

Taste的系统结构如下图

650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5559/ed4fcc98-3e71-3f7f-bd96-98597963f171.png" alt="ed4fcc98-3e71-3f7f-bd96-98597963f171.png" />

其中：

Perference：表示用户的喜好数据，是个三元组（userid, itemid, value），分别表示用户id, 物品id和用户对这个物品的喜好值。

DataModel：是Perference的集合，可以认为是协同过滤用到的user*item的大矩阵。DateModel可以来自db, 文件或者内存。

Similarity：相似度计算的接口，各种相似度计算算法都是继承自这个接口，具体相似度计算的方法，可以参考这篇文章：http://anylin.iteye.com/blog/1721978

Recommender: 利用Similarity找到待推荐item集合后的各种推荐策略，这是最终要暴露个使用者的推荐接口，本文将重点介绍下taste里各种recommender的实现策略，有错误之处，请多指正。

各种Recommender介绍

按照协同过滤方法的分类， taste里的recommender可以分别划到对应的分类下：

Item-based:

GenericItemBasedRecommender

GenericBooleanPrefItemBasedRecommender

KnnItemBasedRecommender

User-based:

GenericUserBasedRecommender

GenericBooleanPerfUserBasedRecommender

Model-based:

SlopeOneRecommender

SVDRecommender

TreeClusteringRecommender

ItemAverageRecommender

ItemUserAverageRecommender

每种Recommender的详细介绍如下：

GenericUserBasedRecommender

一个很简单的user-based模式的推荐器实现类，根据传入的DataModel和UserNeighborhood进行推荐。其推荐流程分成三步：

第一步，使用UserNeighborhood获取跟指定用户U_i最相似的K个用户{U₁…U_k}；

第二步，{U₁…U_k}喜欢的item集合中排除掉U_i喜欢的item, 得到一个item集合 {Item₀...Item_m}

第三步，对{Item₀...Item_m}每个item_j计算 U_i可能喜欢的程度值perf(U_i, Item_j) ，并把item按这个数值从高到低排序，把前N个item推荐给U_i。其中perf(U_i, Item_j)的计算公式如下：

650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5562/cc78ecaa-f3bd-3976-8337-c57c62106db1.png" alt="cc78ecaa-f3bd-3976-8337-c57c62106db1.png" height="42" width="291" />

其中 650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5564/370e439e-6685-36b5-a532-5df62d961b6d.png" alt="370e439e-6685-36b5-a532-5df62d961b6d.png" height="21" width="69" />是用户U_l对Item_j的喜好值。

GenericBooleanPerfUserBasedRecommender

继承自GenericUserBasedRecommender，处理逻辑跟GenericUserBasedRecommender一样，只是的计算公式变成如下公式

650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5568/dee0cc62-6524-31a2-99ac-6df408b0d3e5.png" alt="dee0cc62-6524-31a2-99ac-6df408b0d3e5.png" height="62" width="283" />

其中650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5564/370e439e-6685-36b5-a532-5df62d961b6d.png" alt="370e439e-6685-36b5-a532-5df62d961b6d.png" height="21" width="69" />是布尔型取值，不是0就是1。

GenericItemBasedRecommender

一个简单的item-based的推荐器，根据传入的DateModel和ItemSimilarity去推荐。基于Item的相似度计算比基于User的相似度计算有个好处是，item数量较少，计算量也就少了，另外item之间的相似度比较固定，所以相似度可以事先算好，这样可以大幅提高推荐的速度。

其推荐流程可以分成三步：

第一步，获取用户U_i喜好的item集合{It₁…It_m}

第一步，使用MostSimilarItemsCandidateItemsStrategy(有多种策略, 功能类似UserNeighborhood) 获取跟用户喜好集合里每个item最相似的其他Item构成集合 {Item₁…Item_k}；

第二步，对{Item₁...Item_k}里的每个item_j计算 U_i可能喜欢的程度值perf(U_i, Item_j) ，并把item按这个数值从高到低排序，把前N个Item推荐给U_i。其中perf(U_i, Item_j)的计算公式如下：

650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5576/3e00bcbb-3d9b-33c0-a0c1-f7d6c193a742.png" alt="3e00bcbb-3d9b-33c0-a0c1-f7d6c193a742.png" height="42" width="296" />

其中650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5578/16d44f6b-43e9-3a90-9380-c065f7ef927a.png" alt="16d44f6b-43e9-3a90-9380-c065f7ef927a.png" height="21" width="52" /> 是用户U_l对Item_l的喜好值。

GenericBooleanPrefItemBasedRecommender

继承自GenericItemBasedRecommender，处理逻辑跟GenericItemBasedRecommender一样，只是的计算公式变成如下公式

650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5582/ddd04a93-0eee-3258-a044-ddb836b2d6fc.png" alt="ddd04a93-0eee-3258-a044-ddb836b2d6fc.png" height="62" width="287" />

KnnItemBasedRecommender

继承自GenericItemBasedRecommender，处理逻辑跟GenericItemBasedRecommender一样，只是的计算公式比较复杂，基于一篇论文提到的算法，论文地址在这里

http://public.research.att.com/~volinsky/netflix/BellKorICDM07.pdf。根据论文介绍，该算法对数据进行了一些预处理，同时改进了邻居选取策略，再不怎么增加计算量的情况下，可以较大幅度提高推荐准确度。

ItemAverageRecommender

这是一个提供给实验用的推荐类，简单但计算快速，推荐结果可能会不够好。它预测一个用户对一个未知item的喜好值是所有用户对这个item喜好值的平均值，预测公式如下。

650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5584/34d958c4-da43-3aa6-ad20-3ca217c6d99f.png" alt="34d958c4-da43-3aa6-ad20-3ca217c6d99f.png" height="21" width="185" />

ItemUserAverageRecommender

在ItemAverageRecommender的基础上，考虑了用户喜好的平均值和全局所有喜好的平均值进行调整，它的预测公式如下：

650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5588/d8c8f300-7df3-3e91-a85e-c73bb6f2537e.png" alt="d8c8f300-7df3-3e91-a85e-c73bb6f2537e.png" height="42" width="303" />

其中 650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5590/5e2a9662-05d3-3973-a214-e2ae31b0b93d.png" alt="5e2a9662-05d3-3973-a214-e2ae31b0b93d.png" height="42" width="75" />是所有用户对Item_j喜好的平均值， 650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5592/1334eaf4-cd90-3703-8421-8a03f94efba3.png" alt="1334eaf4-cd90-3703-8421-8a03f94efba3.png" height="21" width="54" />是用户U_l所有喜好的平均值，650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5594/09d37c9f-e6a7-3155-a38a-664cdd6fa18d.png" alt="09d37c9f-e6a7-3155-a38a-664cdd6fa18d.png" height="21" width="30" />是全局所有喜好值的平均值。

RandomRecommender

随机推荐item, 除了测试性能的时候有用外，没太大用处。

SlopeOneRecommender

基于Slopeone算法的推荐器，Slopeone算法适用于用户对item的打分是具体数值的情况。Slopeone算法不同于前面提到的基于相似度的算法，他计算简单快速，对新用户推荐效果不错，数据更新和扩展性都很不错，预测能达到和基于相似度的算法差不多的效果，很适合在实际项目中使用。

基本原理：

用户对item_a打分对item_b打分

X 3 4

Y 2 4

Z 4 ?

用户Z对item_b的打分可能是多少呢？ Slope one算法认为：所有用户对事物A对item_b的打分平均差值是：((3 - 4) + (2 - 4)) / 2 = -1.5，也就是说人们对item_b的打分一般比事物A的打分要高1.5，于是Slope one算法就猜测Z对item_b的打分是4 + 1.5 = 5.5

当然在实际应用中，用户不止X,Y 两个，跟item_b相关的item也不止A一个，所以slopeone的预测公式如下：

650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5596/647d4b9e-d81e-3d41-b22e-98d81c067f24.png" alt="647d4b9e-d81e-3d41-b22e-98d81c067f24.png" height="42" width="318" />

其中650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5598/8184dc61-3c7a-3998-b0d2-32546388133e.png" alt="8184dc61-3c7a-3998-b0d2-32546388133e.png" height="21" width="71" />表示与, 用户U_i打过分的除item_j之外所有其他item集合， 650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5600/e61e7e31-70d0-392d-8505-7c79fb026e40.png" alt="e61e7e31-70d0-392d-8505-7c79fb026e40.png" height="21" width="74" />表示用户U_i对 item_k的打分。650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5604/9cc5ec0b-9ceb-3424-bf77-23a71c8d116a.png" alt="9cc5ec0b-9ceb-3424-bf77-23a71c8d116a.png" height="21" width="38" />表示除U_i外所有其他用户对item_k和item_j打分差值的平均值。

650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5606/91bb0a01-5ada-3d14-bddd-440ced6cbace.png" alt="91bb0a01-5ada-3d14-bddd-440ced6cbace.png" height="42" width="258" />

其中650) this.width=650;" src="http://dl.iteye.com/upload/attachment/0078/5608/0a6443ed-8167-3a46-b8dd-72928998670e.png" alt="0a6443ed-8167-3a46-b8dd-72928998670e.png" height="21" width="11" />表示除U_i外其他所有用户的集合。

SVDRecommender

SVD(Singular Value Decomposition)的想法是根据已有的评分情况，分析出评分者对各个因子的喜好程度以及电影包含各个因子的程度，最后再反过来根据分析结果预测评分。电影中的因子可以理解成这些东西：电影的搞笑程度，电影的爱情爱得死去活来的程度，电影的恐怖程度。。。。。。SVD的想法抽象点来看就是将一个N行M列的评分矩阵R（R[u][i]代表第u个用户对第i个物品的评分），分解成一个N行F列的用户因子矩阵P（P[u][k]表示用户u对因子k的喜好程度）和一个M行F列的物品因子矩阵Q（Q[i][k]表示第i个物品的因子k的程度）。用公式来表示就是
R = P * T(Q) //T(Q)表示Q矩阵的转置

基于SVD矩阵分解技术的推荐器，暂时没有研究，具体可以参考这个文档。

https://cwiki.apache.org/confluence/display/MAHOUT/Collaborative+Filtering+with+ALS-WR

1、关于奇异值分解的理论基础，请参看下面的链接

http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html

2、关于奇异值分解的应用场景，请参看下面的例子

http://www.igvita.com/2007/01/15/svd-recommendation-system-in-ruby/

3、关于奇异值分解输入、输出文格式的件的转换，，请参考

http://bickson.blogspot.com/2011/02/mahout-svd-matrix-factorization.html

注意输出结果解析的时应该用NamedVector，而不是SequentialAccessSparseVector

4、输出结果解释

输入的矩阵记为A，mahout svd输出的结果为矩阵A^t *A的特征值和特征向量，需要注意的是，特征值是按照顺序排列的。要得到U和奇异值需要做进一步的运算（参照第一步里面提到的公式），V则是输出的特征向量。

TreeClusteringRecommender

基于树形聚类的推荐算法

特点

用户数目少的时候非常合适

计算速度快

需要预先计算

这个算法在mahout-0.8版本中，已经被@Deprecated。

基于模型的推荐算法、基于满意度得推荐算法（未实现）

mysql数据推荐算法_Mahout推荐算法基础爱看书的小兔纸 mysql数据推荐算法
转载自(http://www.geek521.com/?p=1423)Mahout推荐算法分为以下几大类GenericUserBasedRecommender算法：1.基于用户的相似度2.相近的用户定义与数量特点：1.易于理解2.用户数较少时计算速度快GenericItemBasedRecommender算法：1.基于item的相似度特点：1.item较少时就算速度更快2.当item的外部概念易于
传统推荐算法库使用--mahout初体验 Huterox 推荐算法算法机器学习
文章目录前言环境准备调用混合总结前言郑重声明：本博文做法仅限毕设糊弄老师使用，不建议生产环境使用！！！老项目缝缝补补又是三年，本来是打算直接重写写个社区然后给毕设使用的。但是怎么说呢，毕竟毕设的主角不是xx社区，这个社区是为我的编译器服务的，为了推广这个编译器，然后我才做了这个社区。然而不幸的是，开题答辩的时候，各位“专家”叫我以xx社区为主，听起来高级。于是没有办法，我只能强行做个社区，怎么做呢
基于音乐/电影/图书的协同过滤推荐算法代码实现 74b3a3e489d4
基于音乐/电影/图书的协同过滤推荐算法代码实现一、开发工具及使用技术MyEclipse10、jdk1.7、tomcat7、jsp、javascript、jquery、bootstrap、webuploader、layer、ssh、mysql、navicat、mahoutAPI等。二、开发过程1、本文主要介绍基于音乐的协同过滤推荐算法代码实现，电影、图书等推荐原理相同。2、本文使用的推荐算法有：基于
Hadoop 大数据技术原理与应用 kk8_ hadoop 大数据 hdfs
Hadoop大数据技术原理与应用大数据概述定义特征大量，多样，高速，价值研究意义应用场景医疗，金融，零售Hadoop概述历史优势扩容能力强，成本低，高效率，可靠性，高容错Hadoop生态分布式存储系统（HDFS）分布式计算框架（MapReduce）资源管理（YARN）数据迁移（Sqoop）数据挖掘算法库（Mahout）分布式数据库（HBase）分布式协调服务（Zookeeper）数据仓库（Hive
【大数据分析与挖掘技术】概述 Francek Chen 大数据技术基础数据分析数据挖掘 Mahout
目录一、数据挖掘简介（一）数据挖掘对象（二）数据挖掘流程（三）数据挖掘的分析方法（四）经典算法二、Mahout（一）Mahout简介（二）主要特性（三）Mahout安装与配置一、数据挖掘简介需要是发明之母。近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市
【大数据分析与挖掘技术】Mahout推荐算法 Francek Chen 大数据技术基础数据分析人工智能数据挖掘 Mahout
目录一、推荐的定义与评估（一）推荐的定义（二）推荐的评估二、Mahout中的常见推荐算法（一）基于用户的推荐算法（二）基于物品的推荐算法（三）基于SVD的推荐算法（四）基于线性插值的推荐算法（五）基于聚类的推荐算法三、对GroupLens数据集进行推荐与评价（一）如何使用推荐器进行推荐（二）如何评估推荐器的好坏推荐是Mahout机器学习算法的主题之一，它极大地渗透到了人们日常生活的方方面面，比如，
计算机毕业设计之全网独家Spark租房爬虫数据分析与推荐系统租房大数据租房app 租房数据分析租房爬虫房源推荐系统房源数据分析房源可视化 haochengxu2022 数据分析爬虫推荐系统 spark 爬虫数据分析推荐系统
一、网站·登录与注册、注销·短信验证码修改密码·我的信息：身份证实名认证·租房业务流程（预约+看房+支付+完成+评价）、进度步骤条展示·支付宝沙箱支付·房屋浏览、中介信息查看·房屋推荐（基于mahout协同过滤算法）·房屋评价、点赞与收藏二、后端·统计主页、个人信息（带头像上传）、权限管理、用户管理、资讯管理、通知管理、日志管理、评论管理、轮播图管理、房屋管理、中介管理、订单管理。·中介权限可以登
推荐系统中协同过滤算法实现分析 weixin_33853794 人工智能 python 数据库
2019独角兽企业重金招聘Python工程师标准>>>原创博客，欢迎转载，转载请注明：http://my.oschina.net/BreathL/blog/62519最近研究Mahout比较多，特别是里面协同过滤算法；于是把协同过滤算法的这个实现思路与数据流程，总结了一下，以便以后对系统做优化时，有个清晰的思路，这样才能知道该如何优化且优化后数据亦能正确。推荐中的协同过滤算法简单说明下：首先，通过
大数据分析- 基于Hadoop/Mahout的大数据挖掘 shenmanli 大数据 hadoop 数据挖掘行业应用开发人员
随着互联网、移动互联网和物联网的发展，我们已经切实地迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合，对大数据的分析已经成为一个非常重要且紧迫的需求。目前对大数据的分析工具，首选的是Hadoop平台。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。一、培训对象1，系统架构师、系
“大数据分析挖掘-基于Hadoop/Mahout/Mllib的大数据挖掘（含Spark、Storm和Docker应用介绍）”培训 shenmanli 培训课程公开课企业培训大数据 hadoop spark
随着互联网、移动互联网和物联网的发展，我们已经切实地迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合，对大数据的分析已经成为一个非常重要且紧迫的需求。目前对大数据的分析工具，首选的是Hadoop/Yarn平台。Hadoop/Yarn在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。为解决广大
springboot集成mahout实现简单基于协同过滤算法的文章推荐算法程序个人练习生开源项目学习算法 spring boot 推荐算法
文章目录参考文章前言1.建表并且生成一些数据首先，建立一个用户文章操作表（user_article_operation）使用casewhen语句简单统计数据2.代码与测试只需要根据表生成相应实体类（注意要加一个value属性来存储分数）主要代码如下，其实就两个方法userArticleOperationMapper.getAllUserPreference()方法收集数据mapper文件如下测试算
java电影推荐系统_基于Mahout的电影推荐系统语文乌托邦 java电影推荐系统
1.Mahout简介ApacheMahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等，并且，在Mahout的最近版本中还加入了对ApacheHadoop的支持，使这些算法可以更高效的运行在云计算环境中。2.Taste简介T
mahout 源码解析之聚类--聚类迭代模型 theonlytank2011 数据挖掘 mahout源码 mahout源码解析
在前面讲聚类策略时，包org.apache.mahout.clustering.iterator里面还有几个类没有进行讲解，这次做下收尾工作。ClusterIterator利用ClusterClassifier和指定的迭代次数将样本进行聚类。其中有三个具体的函数。iterate主要对内存中的数据进行聚类，输入就为一个Vector类型的迭代器。publicClusterClassifieritera
理论学习--【Hadoop生态原理学习】 zenas_yuan Hadoop hadoop
一、Hadoop原理1.核心：HDFS(存储)、MapReduce(分析)解决大量数据存储与处理的问题离线分析：hive实现查询：hbaseBI分析：Mahout2.版本1.0mapreduce还进行资源调度2.0mapreduce=yarn（资源调度）+mapreduce（进行计算运行在yarn上），HDfs:nn,ha2.1.2yarn还支持strom、spark、。。选择考虑因素：是否开源、
推荐系统-基于物品协同过滤算法代码实现 Moutai码农大数据推荐系统算法推荐算法大数据 spark
1、简介当前Spark没有像mahout那样，严格区分基于物品的协同过滤推荐（ItemCF）和基于用户的协同过滤推荐（UserCF），只有基于模型的协同过滤推荐算法ALS（model-basedCF）。但ALS算法对于一些特定的问题(用户数量较小的场景，以及物品数量明显小于用户数量的场景)，效果并不理想，不像mahout提供了各种推荐算法选择。为了充分利用spark在速度上带来的提升同时为满足一些
java+jsp+mysql实现在线电影推荐系统movieCFWeb mahout实现基于用户的协同过滤推荐算法基于项目的协同过滤推荐算法 74b3a3e489d4
java+jsp+mysql实现在线电影推荐系统movieCFWeb一、项目简介http://localhost:8080/movieCFWeb/前台http://localhost:8080/movieCFWeb/admin后台自定义数据，mahout实现基于用户的协同过滤推荐算法前台包含用户注册、登录、搜索电影、分页、电影详情、评分、修改信息、评分列表、推荐电影等功能后台包括用户、电影、评分、
2.3 初探Hadoop世界 howard2005 数据清洗和预处理大数据离线分析 hadoop 大数据分布式
文章目录零、学习目标一、导入新课二、新课讲解（一）Hadoop的前世今生1、Google处理大数据三大技术2、Hadoop如何诞生3、Hadoop主要发展历程（二）Hadoop的优势1、扩容能力强2、成本低3、高效率4、可靠性5、高容错性（三）Hadoop的生态体系1、HDFS分布式文件系统2、MapReduce分布式计算框架3、Yarn资源管理框架4、Sqoop数据迁移工具5、Mahout数据挖
「大数据集群的搭建和使用」背景知识：大数据Hadoop生态圈介绍优秀的Athena在休息大数据集群的搭建和使用大数据 hadoop 分布式
目录一、Hadoop简介二、Hadoop的运行模式1.单机模式2.伪分布式模式3.完全分布式模式三、Hadoop生态圈组件1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.HBase7.HCatalog8.Avro9.Thrift10.Drill11.Mahout12.Sqoop13.Flume14.Ambari15.Zookeeper四、Hadoop优缺点五、Hadoop学
【大数据】Hadoop 生态系统及其组件 G皮T #Hadoop hadoop big data 大数据 hdfs hive mapreduce yarn
Hadoop生态系统及其组件1.Hadoop生态系统的组成2.Hadoop生态系统简介2.1HDFS2.2MapReduce2.3YARN2.4Hive2.5Pig2.6HBase2.7HCatalog2.8Avro2.9Thrift2.10Drill2.11Mahout2.12Sqoop2.13Flume2.14Ambari2.15Zookeeper2.16Oozie1.Hadoop生态系统的组
26Hbase介绍及其数据模型和架构（hbase学习1）文茶君
Hbase介绍Hadoop生态系统spark已经替代mahouthbase简介：非关系型数据库知识面扩展cassandra、hbase、mongodb（文档型数据库）、rediscouchdb，文件存储数据库Neo4j非关系型图数据库HbaseHadoopDatabase，是一个高可靠性、高性能、面向列（面向列的KV数据库）、可伸缩（动态扩展机器。不需要停服务）、实时读写的分布式数据库利用Hado
Item-Based Recommendations with Hadoop liuyuan185442111 Old Hadoop hadoop 大数据分布式
Mahout在MapReduce上实现了Item-BasedCollaborativeFiltering，这里我尝试运行一下。安装Hadoop从下载Mahout并解压准备数据下载1MillionMovieLensDataset，解压得到ratings.dat，用sed‘s/:[0-9]{1,}):[0-9]{1})::[0-9]{1,}$/,\1,\2/’ratings.dat处理成需要的格式。运
【大数据毕设】基于Hadoop的音乐推荐系统论文(三) Maynor996 #课设＆毕设大数据课程设计 hadoop
博主介绍：✌全网粉丝6W+,csdn特邀作者、博客专家、大数据领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战✌文末获取项目联系摘要本文基于Hadoop技术，设计并实现了一个名为“酷酷音乐网站”的系统，用于音乐资源的存储、管理和推荐。该系统采用Hadoop生态系统中的组件，包括HDFS、MapReduce、HBase和Mahout等，实现
如何使用Java进行机器学习? 玥沐春风 java 机器学习开发语言
在Java中进行机器学习，可以使用各种开源机器学习库和框架来实现。以下是一些常用的Java机器学习库：Weka：Weka是一个非常流行的机器学习库，提供了大量的算法和工具，以及用于数据预处理、特征选择和可视化的功能。Deeplearning4j：Deeplearning4j是一个用于深度学习的开源库，支持多种神经网络模型和训练算法，可以用于图像分类、文本分析等任务。ApacheMahout：Apa
阿里云上部署java8和hadoop3.0、spark、hive及Mahout karwik 大数据
1.安装JDK1.8到oracle官网：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmllinux是64位的，安装jdk-8u131-linux-x64.tar.gz安装及配置参考http://blog.csdn.net/rchm8519/article/details/48721
【大数据】图解 Hadoop 生态系统及其组件 G皮T #Hadoop 大数据 hadoop 分布式 hdfs mapreduce yarn hive
图解Hadoop生态系统及其组件1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.Mahout7.HBase8.Zookeeper9.Sqoop10.Flume11.Oozie12.Ambari13.Spark在了解Hadoop生态系统及其组件之前，我们首先了解一下Hadoop的三大组件，即HDFS、MapReduce、YARN，它们共同构成了Hadoop分布式计算框架的核心
斯皮尔曼相关性 —— Spearman Correlation ifnoelse 推荐算法 user cache action 存储
斯皮尔曼相关性可以理解为是排列后（Rank）用户喜好值之间的Pearson相关度。《MahoutinAction》中有这样的解释：假设对于每个用户，我们找到他最不喜欢的物品，重写他的评分值为“1”；然后找到下一个最不喜欢的物品，重写评分值为“2”，以此类推。然后我们对这些转换后的值求Pearson相关系数，这就是Spearman相关系数。斯皮尔曼相关度的计算舍弃了一些重要信息，即真实的评分值。但它
java+jsp+mysql实现个性化租车推荐系统carcfrs mahout实现基于用户、项目的协同过滤推荐算法 SSH（spring+struts+hibernate）开发框架 74b3a3e489d4
java+jsp+mysql实现个性化租车推荐系统carcfrs一、项目简介只有前台用户，没有管理员，功能是用户登录、注册、评论、评分、收藏、热点推荐、基于用户根据评分进行协同过滤推荐算法，数据爬虫爬取一嗨租车数据。二、项目展示
Mahout教程_编程入门自学教程_菜鸟教程-免费教程分享菜鸟一记笔记
教程简介Mahout是ApacheSoftwareFoundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用ApacheHadoop库，Mahout可以有效地扩展到云中。Mahout教程-使用此入门教程，从简介，机器學習，环境，推荐，聚
SSH（Spring+Hibernate+Struts）开发框架开发购物商城推荐系统shop mahout实现基于用户、项目的协同过滤推荐算法个性化购物推荐系统 74b3a3e489d4
SSH（Spring+Hibernate+Struts）开发框架开发购物商城推荐系统shop项目简介1、前台：http://localhost:8080/ComputerRecom/后台：http://localhost:8080/ComputerRecom/admin/login.jsp用户名：admin密码：admin；2、推荐使用mahout接口实现基于用户、项目的协同过滤推荐算法，ssh开
大数据学习记录（hadoop hive flume azkaban sqoop）左上晨大数据 hadoop hive flume azkaban
大数据学习记录（hadoophiveflumeazkabansqoop）1.hadoop对海量数据进行分布式处理2.核心组件：HDFS（分布式文件系统）、YARN（运算资源调度系统）、MAPREDUCE（分布式运算编程框架）3.HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具4.HBASE：基于HADOOP的分布式海量数据库5.Mahout：基于mapreduce/spark/f
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

Mahout的taste推荐系统里的几种Recommender分析

Taste简介

各种Recommender介绍

GenericUserBasedRecommender

GenericBooleanPerfUserBasedRecommender

GenericItemBasedRecommender

GenericBooleanPrefItemBasedRecommender

KnnItemBasedRecommender

ItemAverageRecommender

ItemUserAverageRecommender

RandomRecommender

SlopeOneRecommender

SVDRecommender

TreeClusteringRecommender

你可能感兴趣的:(mahout)