mahout

这几天看推荐系统,系统看了一下mahout的基于item-based的推荐系统。

大概因为我是一个编程菜鸟,所以对开源的东西,一直不怎么热心。我的关注点在算法上,不在程序上。这个玩意虽然听说那么久了,可真正去了解,也是最近。

感觉写的还是很不错的,至少开始时,如果你想在别人的代码基础上改改来用,这个还是很好的参考的。而且感觉现在mahout做的越来越普及了,都涉及到dirichlet了。再者,以我这编程水平,mahout的编程还是挺不错的感觉。不过,不太认同的一点时,在推荐系统中,很多数据都是load到内存中的,这个必然会造成一个问题,占用内存太多,其实我想了想是可以用mapreduce来实现的,只是就没有那么紧凑了,而且需要更多的mapreduce了。目前对我们来说,item量不算大,这样做无可厚非,虽然计算起来也是慢慢的,可还可以忍受。但是,我想对于豆瓣、hulu, amazon他们虽然都是基于item-based的,但是应该不会也这么做的。item太多,这样做肯定不行。


另外,感觉其中的参数很多的,具体每个参数的调整和选择,我想这个需要经验和实践的,这个是程序之外的事情了。

下一个目标是mahout中的classifier和其中的lda, dirichlet实现吧,看看人家写的和我自己想的有什么不一样。

你可能感兴趣的:(mapreduce,编程,算法)