lixuguang

使用Mahout搭建推荐系统之入门篇4-Mahout实战

目录[-]

用意：结合上篇博客，写写代码熟悉一下Mahout。很多地方想法都比较粗糙，亟待指正。

代码放在了： https://github.com/xiaoqiangkx/qingRS

一、基本内容

1. 加载数据: 判断userID和itemID的大小关系

2. 过滤数据: 评分较少的用户直接过滤掉, 那些评分均一致且评分数量多的用户过滤掉. 计算过滤百分比, 如果过滤过多, 则需要考虑其它方法了.

3. DataModel选择: 选择数据库存储还是文件存储；选择GenericDataModel还是GenericBooleanDataModel

4. 选择相似矩阵和参数, 如N值和门限值；可视化(可选).

二、运行环境

JAVA MYSQL等配置参考"最美的词" 基于mahout的电影推荐系统

Mahout环境搭建

本篇使用mahout 0.8的taste等相关jar包进行开发, jar包可以从 http://mirror.bit.edu.cn/apache/mahout/mahout-distribution-0.8.tar.gz中摘取，也可以在百度网盘上下载 http://pan.baidu.com/s/1iSOWk.

与上次不同, 0.8版本的distribution合并了两个包, 上次漏了两个log包, 最终只需要引入7个包即可.

mahout核心类不变: 提供推荐Model等核心类

mahout-core-0.8.jar

mahout-math-0.8.jar

辅助类: 提供Log和部分数学公式类.

slf4j-api-1.7.5.jar commons-logging-1.1.1.jar slf4j-jcl-1.7.5.jar提供Log服务

guava-14.1.0.jar合并了两个google相关的数学类google-collections.jar和guava.jar

commons-math3-3.2.jar包取代了uncommons-maths-1.2.jar类

三、程序运行

搭建基本框架并进行简单测试

我在博文1的框架下做了一点小改动, 从而说明推荐算法算法的结果不稳定性以及调参的重要性. 推荐系统不像一般的业务逻辑, 搭建好系统只完成了极小的一部分, 重点在于调参和响应速度.

类似于博客1中叙述所述, 搭建基本的框架, 并引入movielens 100K中的u.data数据,运行成功.

工程目录结构:

[数据格式说明: movielens u.data数据格式为"244 51 2 880606923", 以tab隔开. 表示ID为244的用户对ID为51的物品打分为2分, 时间为880606923, 猜测类似于从1970年1月1日开始记的秒数, 数量级差不多, 暂时不使用此参数.]

首先介绍User-based和Item-based的方法.

以User-based为例, 将每一个物品表示为一个维度, 那么每个用户都可以表示为一个向量. 如果一个有{101, 102, 103, 104, 105}五个物品, 用户1对101评分为2.0, 对105评分为3.0, 那么用户1可以表示为[2.0, 0, 0, 0, 3.0]. 那么用户之间就有距离, 距离由Similarity相似性决定, 常见的如欧拉距离. 如果我们确定了所有用户间的距离, 那么可以使用N近邻法或者门限法确定每个人的相邻圈子, 如下所示.

如何选择每个item或者user响铃圈子:

常见的有N近邻法和门限值法. 如下面2图所示:

此图表示N = 3时,选择与1最近的前三位2, 4, 5而排除3. 1的圈子由2, 4, 5组成.

此图表示门限(Threshold)选择法, 4, 5 在门限之内, 而2. 3在门限之外. 1的圈子由4, 5组成.

总结: 那么接下来的问题就是如何定义相似性, 即计算距离了.

3.1 调整N值和Threshold值对推荐结果的影响：

重要代码片段如下:

public static void main(String[] args) throws Exception {


        int userId = 1;
        int rankNum = 2;
        
        QingRS qingRS = new QingRS();
        for(int neighberNum = 2; neighberNum < 10; neighberNum++) {
                System.out.println("neigherNum=" + neighberNum);
                qingRS.initRecommenderIntro(filename, neighberNum);
                String resultStr = qingRS.getRecommender(userId, rankNum);
                System.out.println(resultStr);
        }


}

运行结果：

A. 当neigherhood从2到9变化时, 推荐的物品前期在变化, 后期趋于稳定.

neigherNum=2

Recommend=313 4.5
neigherNum=3
Recommend=286 5.0
neigherNum=4
Recommend=286 5.0
neigherNum=5
Recommend=990 5.0
neigherNum=6
Recommend=990 5.0
neigherNum=7
Recommend=990 5.0
neigherNum=8
Recommend=990 5.0
neigherNum=9
Recommend=990 5.0

解释: neigherhood一开始变化时, 参考的人数增多了, 所谓三个臭皮匠顶过一个诸葛亮, 推荐将会变化, 但是随着neigherhood的变大, 加再多的人进来也只是凑人数而已没有多大的决定能力.

B. 当rankNum从2到10变化时, 感觉上rankNum的改变不应该影响推荐结果.

List<RecommendedItem> recommendations = recommender.recommend(userid,
rankNum);

但是: 我们发现除了neigherNum = 2以外, 推荐结果均发生了变化, 而且数据开始震荡, 如果将neigherNum放大到30, 推荐结果依旧不停地震荡.

neigherNum=2

Recommend=313 4.5
neigherNum=3
Recommend=323 5.0
neigherNum=4
Recommend=898 5.0
neigherNum=5
Recommend=323 5.0
neigherNum=6
Recommend=323 5.0
neigherNum=7
Recommend=898 5.0
neigherNum=8
Recommend=326 5.0
neigherNum=9
Recommend=326 5.0

解释???: 问题应该出在排序算法上, Mahout为了节约内存使用了qSort, 因此排序算法不稳定. 但是我去查看Mahout源代码发现GenericUserBasedRecommender中使用了Collections.sort(), sort默认使用的是MergeSort, 所以排序应该是稳定的. 依旧存在着疑问.

3.2. 针对DataModel做一些数据分析,

类似于博文2, 判断item和user数量, value范围, 方差等.

代码如下:

package com.qingfeng.rs.test;

import java.io.File;
import java.io.IOException;
import org.apache.mahout.cf.taste.common.TasteException;
import org.apache.mahout.cf.taste.impl.common.LongPrimitiveIterator;
import org.apache.mahout.cf.taste.impl.model.file.FileDataModel;
import org.apache.mahout.cf.taste.model.DataModel;

public class QingDataModelTest {
	private final static String filename = "data/u.data";

	public static void main(String[] args) throws IOException, TasteException {
		DataModel dataModel = new FileDataModel(new File(filename));
		// compute the max and min value
		// 计算最大最小值
		float maxValue = dataModel.getMaxPreference();
		float minValue = dataModel.getMinPreference();

		// compute the number of usersNum and itemsNum
		// 计算用户和物品总数
		int usersNum = dataModel.getNumUsers();
		int itemsNum = dataModel.getNumItems();

		int[] itemsNumForUsers = new int[usersNum];
		int[] usersNumForItems = new int[itemsNum];

		LongPrimitiveIterator userIDs = dataModel.getUserIDs();
		int i = 0;
		while (userIDs.hasNext()) {
			itemsNumForUsers[i++] = dataModel.getPreferencesFromUser(
					userIDs.next()).length();
		}
		assert (i == usersNum);

		LongPrimitiveIterator itemIDs = dataModel.getItemIDs();
		i = 0;
		while (itemIDs.hasNext()) {
			usersNumForItems[i++] = dataModel.getPreferencesForItem(
					itemIDs.next()).length();
		}
		assert (i == itemsNum);

		// compute mean and variance
		// 计算平均值和方差
		double usersMean;
		double usersVar;

		int sum = 0;
		int sqSum = 0;
		for (int num : itemsNumForUsers) {
			sum += num;
			sqSum += num * num;
		}
		usersMean = (double) sum / usersNum;
		double userSqMean = (double) sqSum / usersNum;
		usersVar = Math.sqrt(userSqMean - usersMean * usersMean);

		double itemsMean;
		double itemsVar;
		sum = 0;
		sqSum = 0;
		for (int num : usersNumForItems) {
			sum += num;
			sqSum += num * num;
		}
		itemsMean = (double) sum / itemsNum;
		double itemsSqMean = (double) sqSum / itemsNum;
		itemsVar = Math.sqrt(itemsSqMean - itemsMean * itemsMean);

		System.out.println("Preference=(" + minValue + ", " + maxValue + ")");
		System.out.println("usersNum=" + usersNum + ", userMean=" + usersMean
				+ ", userVar=" + usersVar);
		System.out.println("itemsNum=" + itemsNum + ", itemsMean=" + itemsMean
				+ ", itemsVar=" + itemsVar);
	}
}

设置门限过滤数据

在代码中加入过滤模块

for (int num : itemsNumForUsers) {
	sum += num;
	if (num < 20) {
		countLower++;
		// System.out.println("user warning(" + countLower + ")=" + num);
	}
	sqSum += num * num;
}
System.out.println("user warning(" + countLower + ")");


for (int num : usersNumForItems) {
	sum += num;
	if (num < 20) {
		countLower++;
		//System.out.println("item warning(" + countLower + ")=" + num);
	}
	sqSum += num * num;
}
System.out.println("item warning(" + countLower + ")");

运行结果如下

user warning(0)
item warning(743)
Preference=(1.0, 5.0)
usersNum=943, userMean=106.04453870625663, userVar=100.87821227051644
itemsNum=1682, itemsMean=59.45303210463734, itemsVar=80.3599467406018

分析：与官方的1000个用户, 1700部电影的说法一致. http://www.grouplens.org/datasets/movielens/

user warning(0)
item warning(743) 表示有743个item评分个数小于20.

物品评分较为稀疏程度和物品总数大小是一致的. 使用user-based则用户少,节约内存, 且矩阵致密。

设置门限为20时, 发现物品矩阵稀疏、方差大和过滤器的统计结果item warning(743)大是一致, 此处先不过滤数据, 后期再说.

注：当然优秀的过滤器需要改变门限值来不停的调试

3.3 选择DataModel, 并计算内存使用情况

由于数据有rate, 所以不使用Boolean形式的存储.

预估内存开销:

由上文分析可知: Preference ~= usersNum * userMean ~= 100K, 每个Preference消耗28bytes,

预估内存开销= 28bytes * 100K = 2.8 Mbytes. 此外相似矩阵如果使用邻接矩阵方式存储, max{usersNum, itemsNum}**2 * 4bytes(float) = 8Mbytes左右. 因此内存总结开销在10M左右.

[但是查看Mahout源代码org.apache.mahout.cf.taste.impl中相关文件发现, 相似矩阵是临时计算的, 每次recommend时通过重写Estimator接口的estimate方法来具体实现. 可以mahout还是考虑到内存开销, 牺牲了计算速度吧. 所以估计程序运行内存开销依旧在2.8Mbytes左右. 究竟哪个是正确的理解呢?]

因此我使用in-memory形式的GenericDataModel将数据直接加载到内存中.

实验测试内存开销:

通过多次调用System.gc()来回收内存, 通过Rumtime.totalMemory和Runtime.freeMemory()查看内存使用状态.

http://docs.oracle.com/javase/6/docs/api/

代码如下:

public class QingMemoryTest {
	private static final String filename = "data/u.data";

	public static void main(String[] args) throws Exception {
		DataModel dataModel = new FileDataModel(new File(filename));
		UserSimilarity similarity = new PearsonCorrelationSimilarity(dataModel);
		UserNeighborhood neighborhood = new NearestNUserNeighborhood(5,
				similarity, dataModel);

		Recommender recommender = new GenericUserBasedRecommender(dataModel,
				neighborhood, similarity);
		System.out.println("1: jvm free-memory= "
				+ Runtime.getRuntime().freeMemory() + "Bytes");
		System.gc();
		System.out.println("2: jvm free-memory= "
				+ Runtime.getRuntime().freeMemory() + "Bytes");

		// dataModel被回收, 所以推荐结果错误.
		System.out.println(recommender.recommend(1, 2).get(1).getValue());
	}
}

运行结果如下:

start: jvm used-memory= 0.5967178344726562MB

after dataModel: jvm used-memory= 19.2872314453125MB
after similarity: jvm used-memory= 19.2872314453125MB
after neighborhood: jvm used-memory= 19.58240509033203MB
after recommender: jvm used-memory= 19.58240509033203MB
recommend=340
after recommend first: jvm used-memory= 19.877883911132812MB
after gc: jvm used-memory= 9.829483032226562MB
recommend=340
after recommend second: jvm used-memory= 9.829483032226562MB

分析: 由上述数据可见,gc回收内存后, JVM内存消耗回收了10Mbytes, 与猜测一致.

问题: 回收完数据后, 为什么recommender还可以进行推荐, 而且没有额外的内存开销???

数据增长10倍, 即使用1M数据进行测试

简单统计分析结果:

user warning(0)
item warning(663)
Preference=(1.0, 5.0)
usersNum=6040, userMean=165.5975165562914, userVar=192.73107252940773
itemsNum=3706, itemsMean=269.88909875876953, itemsVar=383.9960197430679

估计内存消耗: usersNum和itemsNum增长了3到6倍, 而相似矩阵消耗内存为平方级别, 那么内存消耗上线为9到36倍; 此外数据增长10倍, DataModel内存消耗为线性增长, 增长10倍内存消耗. 那么估计内存消耗= 2.8M * 10 + (9~36)*8M = 100M ~ 316M内存之间. 如果不存储相似矩阵, 那么内存消耗为28M左右.

由于数据以"::"作为分割符, 用python简单处理一下,替换为\t

f = open("result.dat", "w")
for line in open("ratings.dat", "r"):
	newLine = line.replace("::", "\t")
	f.write(newLine)

运行结果如下

start: jvm used-memory= 0.5967178344726562MB

after dataModel: jvm used-memory= 204.9770050048828MB
after similarity: jvm used-memory= 204.9770050048828MB
after neighborhood: jvm used-memory= 204.9770050048828MB
after recommender: jvm used-memory= 204.9770050048828MB
recommend=2908
after recommend first: jvm used-memory= 208.10643768310547MB
after gc: jvm used-memory= 76.12030029296875MB
recommend=2908
after recommend second: jvm used-memory= 76.12030029296875MB

分析: 由上述数据可以: 数据回收了132Mbytes, 76M为运行开销. 与估计内存消耗移植. DataModel线性增长, 相似矩阵平方级别增长.

结论: 如果评分数增加到10M级别, 用户或者物品数增长3~10倍, 那么需要4G到40G的内存才能快速的计算出推荐结果, 需要增加内存条, 设置JVM配置以及使用hadoop来实现. 另外真实的数据用户数达到GB级别, 总数达到TB级别, 需要的内存数量和运算量是十分恐怖的. 传统地算法已经无法满足要求, 需要借助Hadoop这种分布式来实现运算.

当然内存不够大, 硬盘可以很大, 处理10M级别以上的推荐数据时, 选择使用MysqlJDBCDataModel来实现存储.

另外: 据数盟的一位Q友说, "淘宝有8kw的商品（记忆也许有出入），用户2亿，多大的矩阵啊". 每次想到这里, 都会默默地闭上双眼, 遥想远方的宇宙, 数据又是多么地浩淼. 在上帝眼中, 我们也许还只是玩过家家, 学1+1的小孩子吧.

3.4. 选择相似性矩阵和调参

此外，后期希望考虑user-based, item-based, slope-one算法的比较, 同时参考运行时间.

相似矩阵选择下面4种

PearsonCorrelationSimilarity EuclideanDistanceSimilarity TanimotoCoefficientSimilarity LogLikeLihoodSimilarity

[ 注:其中EuclideanDistanceSimilarity比较特殊, 它没有实现UserSimilarity接口, 所以不能放到一个Collection<UserSimilarity>容器中 ]

[注: 勿看了org.apache.mahout.math.hadoop.similarity.cooccurrence.measures文件]

参数调整只选择近邻N和threashold

这里给出代码原型, 但是在普通PC上跑100K的数据集都太慢了, 使用intro.csv这个toy数据跑一跑.

N选择[2, 4, 8, ... 64], Threshold选择[0.9, 0.85, ... 0.7];

代码如下:

public class QingParaTest {

	private final String filename = "data/intro.csv";
	private double threshold = 0.95;
	private int neighborNum = 2;
	private ArrayList<UserSimilarity> userSims;
	private final int SIM_NUM = 4;
	private final int NEIGHBOR_NUM = 64;
	private final double THRESHOLD_LOW = 0.7;

	public static void main(String[] args) throws IOException, TasteException {

		new QingParaTest().valuate();

	}

	public QingParaTest() {
		super();
		this.userSims = new ArrayList<UserSimilarity>();
	}

	private void valuate() throws IOException, TasteException {
		DataModel dataModel = new FileDataModel(new File(filename));

		RecommenderEvaluator evaluator = new AverageAbsoluteDifferenceRecommenderEvaluator();

		// populate Similarity
		populateUserSims(dataModel);

		int simBest = -1;
		double scoreBest = 5.0;
		int neighborBest = -1;
		double thresholdBest = -1;
		System.out.println("SIM\tNeighborNum\t\tThreshold\tscore");
		for (int i = 0; i < SIM_NUM; i++) {
			for (neighborNum = 2; neighborNum <= NEIGHBOR_NUM; neighborNum *= 2) {

				for (threshold = 0.75; threshold >= THRESHOLD_LOW; threshold -= 0.05) {
					double score = 5.0;
					QingRecommenderBuilder qRcommenderBuilder = new QingRecommenderBuilder(
							userSims.get(i), neighborNum, threshold);

					// Use 70% of the data to train; test using the other 30%.
					score = evaluator.evaluate(qRcommenderBuilder, null,
							dataModel, 0.7, 1.0);
					System.out.println((i + 1) + "\t" + neighborNum + "\t"
							+ threshold + "\t" + score);

					if (score < scoreBest) {
						scoreBest = score;
						simBest = i + 1;
						neighborBest = neighborNum;
						thresholdBest = threshold;
					}
				}
			}
		}
		System.out.println("The best parameter");
		System.out.println(simBest + "\t" + neighborBest + "\t" + thresholdBest
				+ "\t" + scoreBest);
	}

	private void populateUserSims(DataModel dataModel) throws TasteException {
		UserSimilarity userSimilarity = new PearsonCorrelationSimilarity(
				dataModel);
		userSims.add(userSimilarity);
		userSimilarity = new TanimotoCoefficientSimilarity(dataModel);
		userSims.add(userSimilarity);
		userSimilarity = new LogLikelihoodSimilarity(dataModel);
		userSims.add(userSimilarity);

		userSimilarity = new EuclideanDistanceSimilarity(dataModel);
		userSims.add(userSimilarity);

	}

}

class QingRecommenderBuilder implements RecommenderBuilder {

	private UserSimilarity userSimilarity;
	private int neighborNum;
	private double threshold;

	public QingRecommenderBuilder(UserSimilarity userSimilarity,
			int neighborNum, double threshold) {
		super();
		this.userSimilarity = userSimilarity;
		this.neighborNum = neighborNum;
		this.threshold = threshold;
	}

	@Override
	public Recommender buildRecommender(DataModel dataModel)
			throws TasteException {
		UserNeighborhood neighborhood = new NearestNUserNeighborhood(
				neighborNum, threshold, userSimilarity, dataModel);
		return new GenericUserBasedRecommender(dataModel, neighborhood,
				userSimilarity);
	}

}

运行结果如下:

SIM NeighborNum Threshold score
1 2 0.75 0.4858379364013672
1 2 0.7 NaN
1 4 0.75 0.4676065444946289
1 4 0.7 NaN
1 8 0.75 0.8704338073730469
1 8 0.7 0.014162302017211914
1 16 0.75 NaN
1 16 0.7 0.7338032722473145
1 32 0.75 0.7338032722473145
1 32 0.7 0.4858379364013672
1 64 0.75 NaN
1 64 0.7 1.0

The best parameter

1 8 0.7 0.014162302017211914

分析: 运行最佳的结果为N = 8, Threshold = 0.7 当然, 这个方法, 十分的粗糙, 但是也说明了参数的重要性, 毕竟推荐系统上线了必须有优秀的A\B Test结果, 要不然还不如使用打折, 优惠券来的简单实在.

顺便截一张Mahout in Action上一个真实案例的数据, 如下图所示

item-based与user_based一致, 基本上就是就Similarity, Neighborhood和Recommender的User换成Item即可.

3.5 slope-one

public class SlopeOne {
	public static void main(String[] args) throws IOException, TasteException {
		DataModel dataModel = new FileDataModel(new File("data/intro.csv"));

		RecommenderEvaluator evaluator = new AverageAbsoluteDifferenceRecommenderEvaluator();
		double score = evaluator.evaluate(new SlopeOneNoWeighting(), null,
				dataModel, 0.7, 1.0);
		System.out.println(score);
	}

}

class SlopeOneNoWeighting implements RecommenderBuilder {
	public Recommender buildRecommender(DataModel model) throws TasteException {
		DiffStorage diffStorage = new MemoryDiffStorage(model,
				Weighting.UNWEIGHTED, Long.MAX_VALUE);
		return new SlopeOneRecommender(model, Weighting.UNWEIGHTED,
				Weighting.UNWEIGHTED, diffStorage);
	}
}

运行结果为: 1.3571428571428572 当然这个结果意义不大, 因为数据集很小.

四、总结

推荐系统的难点在于各种参数、算法的选择，以及推荐系统整体架构的测试；如果希望搭建商业级别的应用，在数据和架构上所花的时间要比算法调参多一些。

五、Similarity和Algorithm相关总结

如何计算相似性:

常见的方法如下表所示: Similarity只是描述计算方法, 并不计算并保存相似矩阵.

相似性的基本思路就是不适用欧式距离的, 都得加上权重或者门限来防止交集较小的相似距离.

相似距离(距离越小值越大)	优点	缺点	取值范围
PearsonCorrelation 类似于计算两个矩阵的协方差	不受用户评分偏高或者偏低习惯影响的影响	1. 如果两个item相似个数小于2时无法计算相似距离. [可以使用item相似个数门限来解决.] 没有考虑两个用户之间的交集大小[使用weight参数来解决] 2. 无法计算两个完全相同的items	[-1, 1]
EuclideanDistanceSimilarity 计算欧氏距离, 使用1/(1+d)	使用与评分大小较重要的场合	如果评分不重要则需要归一化, 计算量大同时每次有数据更新时麻烦	[-1, 1]
CosineMeasureSimilarity 计算角度	与PearsonCorrelation一致		[-1, 1]
SpearmanCorrelationSimilarity 使用ranking来取代评分的 PearsonCorrelation	完全依赖评分和完全放弃评分之间的平衡	计算rank消耗时间过大不利于数据更新	[-1, 1]
CacheUserSimilarity 保存了一些tag, reference	缓存经常查询的user-similarity	额外的内存开销
TanimotoCoefficientSimilarity 统计两个向量的交集占并集的比例同时并集个数越多, 越相近.	适合只有相关性而没有评分的情况	没有考虑评分,信息丢失了	[-1,1]
LogLikeLihoodSimilarity 是TanimoteCoefficientSimilarity 的一种基于概率论改进	计算两者重合的偶然性考虑了两个item相邻的独特性	计算复杂	[-1,1]

如何选择推荐算法:

user-based算法: 最古老的算法, 计算相似的人群, 最大的问题是存储相似矩阵, 由于每个用户喜欢的物品在变化, 导致相似矩阵不停的变化. 更新相似矩阵计算量可能较大. 针对搜索引擎来说, 搜索词如果比用户数目多的话,可以考虑user-based.

item-based算法: 与user-based类似, 每个物品被喜欢的用户个数不停地变化, 相似矩阵持续地更新. 在互联网时代,商品上百万, 用户上亿. 那么使用item-based比较靠谱, 物品相似矩阵变化较小, Amazon的推荐算法就是使用item-based为基础的.

SVD: 现在比较流行的算法, 因为可以进行降维. 发掘有价值的特征维度来取代用户维度或者商品维度. 举个例子: 例如两个人分别喜欢保时捷和法拉利, user-based和item-based计算的相似性都很低, 但是SVD引入跑车或者奢侈品这种潜在的特征后, 两者就有相似性了. 当然缺点在于, SVD需要将整个矩阵加载到内存进行矩阵分解, 对内存消耗大, 不知道SVD的矩阵分解有没有Map-Reduce实现方法.

Slope-One算法: 上述三种算法都不太适合作为在线算法和更新数据, 但是Slope-One可以. 举个例子, 假设所有用户评价电影A比电影B高1.0分, 评价电影C和电影A一致. 如果一个用户评价电影B为2.0分, 评价电影C为4.0分, 那么用户评价电影A为3.0分或者4.0分, 最佳的方法的取两者的加权平均值, 权重由同时出现次数决定. Slope-One可以离线计算所有的n*(n-1)/2中相关性, 当一个用户更新了电影时, 相关性更新快捷；通过遍历一遍电影即可获得所有电影的评分,从而排序给出推荐. 缺点是相关性计算复杂. [个人觉得这个计算量也不小, 取决于电影个数以及用户评分电影个数]

六、参考资料

[1] Sean Owen "Mahout in Action" http://book.douban.com/subject/4893547/

基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
如何使用Java爬虫获取阿里巴巴热卖商品推荐：代码示例与实践指南小爬虫程序猿 Java java 爬虫 python
在电商领域，获取热卖商品推荐对于商家和开发者来说至关重要。阿里巴巴提供了热卖商品推荐API接口，能够根据消费者的购买历史、浏览行为、搜索习惯等数据，自动推荐符合其需求的商品。以下将详细介绍如何使用Java爬虫获取阿里巴巴热卖商品推荐，并提供相关的代码示例。一、阿里巴巴热卖商品推荐API接口简介阿里巴巴热卖商品推荐API接口是一种基于人工智能算法的推荐系统，能够根据消费者的购买历史、浏览行为、搜索习
美食推荐系统协同过滤余弦函数推荐美食 Springboot Vue Element-UI前后端分离小盼江源码课题设计毕业设计美食 spring boot vue.js
个性化美食推荐系统协同过滤余弦函数推荐美食Echart数据统计SpringbootVueElement-UI前后端分离【亮点功能】1.Springboot+Vue+Element-UI+Mysql前后端分离2.Echarts图表统计数据,直观展示数据情况3.发表评论后，用户可以回复评论,回复的评论可以被再次回复,一级评论可以添加图片附件4.推荐美食列表展示,使用协同过滤余弦函数根据用户的评论,收藏
C#遇见TensorFlow.NET：开启机器学习的全新时代墨夶 C#学习资料1 机器学习 c#tensorflow
在当今快速发展的科技世界里，机器学习（MachineLearning,ML）已经成为推动创新的重要力量。从个性化推荐系统到自动驾驶汽车，ML的应用无处不在。对于那些习惯于使用C#进行开发的程序员来说，将机器学习集成到他们的项目中似乎是一项具有挑战性的任务。但随着TensorFlow.NET的出现，这一切变得不再困难。今天，我们将一起探索如何利用这一强大的工具，在熟悉的.NET环境中轻松构建、训练和
python爬虫 django搜索修改更新数据_Django+python+BeautifulSoup垂直搜索爬虫 weixin_39897070 python爬虫 django搜索修改更新数据
使用python+BeautifulSoup完成爬虫抓取特定数据的工作，并使用Django搭建一个管理平台，用来协调抓取工作。因为自己很喜欢Djangoadmin后台，所以这次用这个后台对抓取到的链接进行管理，使我的爬虫可以应对各种后期的需求。比如分时段抓取，定期的对已经抓取的地址重新抓取。数据库是用python自带的sqlite3，所以很方便。这几天正好在做一个电影推荐系统，需要些电影数据。本文
基于微信小程序的设计—美食推荐系统设计（附论文+源码） picking_bananas 微信小程序美食小程序毕业设计
关键词：微信小程序；美食管理；美食推荐；毕业；我们专注于软件开发工程领域，熟练掌握多种开发技术，包括基于SpringBoot、Vue.js、SSM框架的应用开发，以及针对AndroidAPP和微信小程序的开发。（具体流程参见文章最后段落）微信小程序是一种基于微信平台的轻量级应用程序，具有易于开发、易于传播、易于使用等特点。美食推荐系统则是一种通过推荐美食来提高用户的美食体验的应用程序。基于微信小程
毕业设计--基于Python+Django框架的豆瓣图书评论推荐可视化系统源码空间站11 python 课程设计 django 毕业设计人工智能后端豆瓣图书爬虫
1.系统概述本系统是一个基于Python和Django框架的豆瓣图书评论推荐可视化系统。通过收集并分析豆瓣图书的评论数据，结合可视化技术，系统能够为用户推荐感兴趣的图书，并以直观的方式展示图书评论的统计信息和分析结果。2.项目目标本项目的主要目标是设计并实现一个豆瓣图书评论推荐系统，具体目标如下：图书评论数据采集与存储：系统能够从豆瓣平台抓取图书评论数据，并将其存储在本地数据库中（db.sqlit
PyTorch 神经协同过滤 (NCF) 推荐系统教程陌北v1 pytorch python NCF 神经协同过滤
目录教程概述1.神经协同过滤模型概述NCF模型的主要组成部分：2.数据加载与预处理3.定义神经协同过滤模型4.训练模型5.模型评估6.推荐物品7.完整示例8.总结在本教程中，我们将使用PyTorch实现一个神经协同过滤（NeuralCollaborativeFiltering，简称NCF）推荐系统。神经协同过滤是一种基于深度学习的推荐系统模型，通过学习用户和物品的嵌入表示来预测用户对物品的评分，进
【机器学习：三十一、推荐系统：从基础到应用】 KeyPan 机器学习机器学习人工智能决策树算法深度学习
1.推荐系统概述推荐系统是一种根据用户的兴趣和偏好，为用户提供个性化建议的技术，广泛应用于电子商务、流媒体平台和社交媒体等领域。通过分析用户行为数据，推荐系统可以帮助用户发现他们感兴趣的内容，同时提升平台的用户体验和商业收益。定义与作用推荐系统是一种数据过滤技术，旨在从海量数据中筛选出用户可能感兴趣的信息。它不仅能提升用户的满意度，还能增加平台的转化率和黏性。分类推荐系统主要分为以下三类：基于内容
ChatRec的实践：交互式推荐系统的进步 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
交互式推荐系统，Chat-Rec，对话推荐，自然语言处理，机器学习，用户行为分析，个性化推荐1.背景介绍推荐系统作为互联网时代的重要技术支柱，在电商、社交媒体、内容平台等领域发挥着至关重要的作用。传统的推荐系统主要依赖于用户历史行为数据，例如浏览记录、购买历史等，通过协同过滤、内容过滤等算法，预测用户潜在的兴趣并提供个性化推荐。然而，随着用户需求的不断变化和个性化的程度不断提高，传统的推荐系统面临
AI如何帮助电商企业进行数据分析 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
电商数据分析，人工智能，机器学习，深度学习，推荐系统，预测模型，客户画像1.背景介绍在当今数字化时代，电商行业蓬勃发展，数据成为企业最重要的资产。电商企业每天都会产生海量的数据，包括用户行为、商品信息、交易记录等。如何有效地分析这些数据，挖掘其中的价值，对于电商企业的运营、营销和发展至关重要。传统的数据分析方法往往难以应对海量数据的处理和复杂分析需求，而人工智能（AI）技术的出现为电商数据分析带来
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
如何利用AI技术来提升用户的个性化体验和社区参与度？ Itfuture03 AI前沿技术人工智能
要利用AI技术提升用户的个性化体验和社区参与度，可以采取以下几种策略：个性化推荐系统：通过AI算法分析用户的行为和偏好，提供定制化的服务和内容推荐，如智能推荐活动、健康管理等，让居民感受到社区的温暖和关怀。智能助手与聊天机器人：引入AI驱动的虚拟助手，提供实时帮助、个性化建议和交互式对话，改善客户体验。自然语言处理（NLP）：实现具有AI能力的NLP，创建对用户友好的应用程序，简化用户体验，如客服
什么是监督学习（Supervised Learning）救救孩子把 AI AI 学习
一、监督学习概述监督学习（SupervisedLearning）是一种极具威力的机器学习方法，能够训练算法以识别数据中的模式，并据此进行精准的预测或分类。借助已有的标记数据，监督学习模型学会了从输入到输出的映射关系，进而在各类实际问题中实现自动化决策。无论是医疗诊断、金融市场分析、客户行为预测，还是提升生产效率以及个性化推荐系统等领域，监督学习都彰显出巨大的潜力与价值。随着技术的持续进步，监督学习
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
DL参考资源（二） antkillerfarm 深度学习
DL参考资源推荐系统https://zhuanlan.zhihu.com/p/26237106深度学习在推荐算法上的应用进展http://i.dataguru.cn/mportal.php?mod=view&aid=11463深度学习在推荐领域的应用https://mp.weixin.qq.com/s/hGvQvddD3i858XSK4z08Ug主要推荐系统算法总结及Youtube深度学习推荐算法
Springboot+vue.js+协同过滤推荐+余弦相似度算法实现新闻推荐系统计算机程序优异哥
针对海量的新闻资讯数据，如何快速的根据用户的检索需要，完成符合用户阅读需求的新闻资讯推荐？本篇文章主要采用余弦相似度及基于用户协同过滤算法实现新闻推荐，通过余弦相似度算法完成针对不同新闻数据之间的相似性计算，实现分类标签。通过协同过滤算法发现具备相似阅读习惯的用户，展开个性化推荐。本次新闻推荐系统：主要包含技术：springboot，mybatis，mysql，javascript，vue.js，
基于实时深度学习的推荐系统架构设计和技术演进阿里云云栖号云栖号技术分享架构阿里巴巴
简介：整理自5月29日阿里云开发者大会，秦江杰和刘童璇的分享，内容包括实时推荐系统的原理以及什么是实时推荐系统、整体系统的架构及如何在阿里云上面实现，以及关于深度学习的细节介绍本文整理自5月29日阿里云开发者大会，大数据与AI一体化平台分论坛，秦江杰和刘童璇带来的《基于实时深度学习的推荐系统架构设计和技术演进》。分享内容如下：实时推荐系统的原理以及什么是实时推荐系统整体系统的架构及如何在阿里云上面
Make It a Chorus: Knowledge- and Time-aware Item Modeling for Sequential Recommendation sigir 20 农场主机器学习
介绍的博客作者讲解摘要传统的推荐系统主要针对固有的、长期的用户偏好进行建模，而动态的用户需求也是非常重要的。通常，历史消费会影响用户对其关系项的需求。例如，用户倾向于一起购买互补产品(iPhone和AirPods)，而不是替代产品(Powerbeats和AirPods)，尽管替代购买的产品仍然迎合了他/她的偏好。为了更好地模拟历史序列的影响，以前的研究引入了项目关系的语义来捕捉用户的推荐需求。然而
【计算机毕设文章】美食信息推荐系统 xn19950718 计算机毕设文章参考案例课程设计美食数据库前端开发语言需求分析
毕业设计（论文）题目：美食信息推荐系统摘要使用旧方法对美食信息推荐系统的信息进行系统化管理已经不再让人们信赖了，把现在的网络信息技术运用在美食信息推荐系统的管理上面可以解决许多信息管理上面的难题，比如处理数据时间很长，数据存在错误不能及时纠正等问题。这次开发的美食信息推荐系统对菜谱管理、字典管理、论坛管理、论坛收藏管理、饮食资讯管理、用户管理、管理员管理等进行集中化处理。经过前面自己查阅的网络知识
菜谱推荐系统(前台android原生,后台java,SSH,mysql) weixingliang_123 菜谱食谱 android 数据库 java 编程语言 mysql
Android菜谱推荐系统(前台android原生,后台java,SSH,mysql)(程序代码,MySQL数据库)【运行环境】MyEclipse(后台)Eclipse(前台)JDK1.7tomcat7【技术栈】JAVA,JSP,mvc,SSH,MYSQL,HTML,CSS,JAVASCRIPT,JQUERY,android原生【项目包含内容】【下载全套源码】【项目功能介绍】
【机器学习】朴素贝叶斯方法的概率图表示以及贝叶斯统计中的共轭先验方法 Lossya 机器学习概率论人工智能朴素贝叶斯共轭先验
引言朴素贝叶斯方法是一种基于贝叶斯定理的简单概率模型，它假设特征之间相互独立。文章目录引言一、朴素贝叶斯方法的概率图表示1.1节点表示1.2边表示1.3无其他连接1.4总结二、朴素贝叶斯的应用场景2.1文本分类2.2推荐系统2.3医疗诊断2.4欺诈检测2.5情感分析2.6邮件过滤2.7信息检索2.8生物信息学三、朴素贝叶斯的优点四、朴素贝叶斯的局限性4.1特征独立性假设4.2敏感于输入数据的表示4
推荐系统统计库——systemstat 荣正青
推荐系统统计库——systemstatsystemstatRustlibraryforgettingsysteminformation|alsoonhttps://codeberg.org/valpackett/systemstat项目地址:https://gitcode.com/gh_mirrors/sy/systemstat简介systemstat是一个用Rust语言编写的强大库，它可以获取操
ssm+vue计科毕业论文(毕设)最全开题怎么选 Ankhiu java web 毕设
文章目录1前言2选题汇总3详细介绍题目1:基于SSM的毕业设计管理系统题目2:基于SSM的病人跟踪治疗信息管理系统题目3:基于SSM的大学生兼职跟踪系统题目4:基于SSM的大学生企业推荐系统题目5:基于SSM的电影院在线售票系统题目6:基于SSM的房屋出租出售系统题目7:基于SSM的房屋租赁系统题目8:基于SSM的个人健康信息管理系统题目9:基于SSM的共享充电宝管理系统题目10:基于SSM的即动
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

使用Mahout搭建推荐系统之入门篇4-Mahout实战

一、基本内容

二、运行环境

三、程序运行

3.1 调整N值和Threshold值对推荐结果的影响：

3.2. 针对DataModel做一些数据分析,

类似于博文2, 判断item和user数量, value范围, 方差等.

3.3 选择DataModel, 并计算内存使用情况

3.4. 选择相似性矩阵和调参

3.5 slope-one

四、总结

五、Similarity和Algorithm相关总结

六、参考资料

你可能感兴趣的:(Mahout,推荐系统)