转-推荐引擎记录1

最近推荐引擎成为显学,主要原因应该是电子商务的蓬勃发展。头些日子和图灵的两位老师吃饭,我甚至了解到因为推荐引擎以及机器学习领域的日渐火爆,图灵出的线性代数最近销量都很好,更别提大家现在到处都可以看到这个领域相关的招聘。我最近的创业项目iApp4Me其实也是一个推荐引擎的应用,我关注这个领域有很长一段时间了。这个领域还很新,还有很多未知的可能性,非常有意思。

不过在我关注的过程中,我发现很多人其实对什么是推荐引擎一知半解,这有点像5-6年前的技术界对搜索引擎的理解一样,那时候有人曾在CSDN言之凿凿的说Google其实用的就是Mysql无非是服务器多,而且管理员水平高而已。虽然大多数的高校的计算机专业都有信息检索课程,但是很多甚至是名校的毕业生也说不清楚搜索引擎是怎么回事儿。

事实上技术界开始对搜索引擎技术大规模的扫盲是从lucene这个开源软件的出现以后开始的,在这个问题上某Cutting同学居功至伟。后来也是在他组织下Lucene项目组开发孵化出来了Google的MapRuduce架构的开源实现Hadoop。在Yahoo、在阿里巴巴以及全世界很多公司和组织中Hadoop都起到了很大的作用。后来,lucene项目组还孵化了Mahout,一个基于Hadoop和Lucene的机器学习、推荐引擎项目。现在推荐引擎的实践中,这个Mahout这个项目也起到了很大的作用。值得推荐的相关开源项目还有weka,Javaml,numpy等。

当然光有这些开源项目也是不够的,如果你完全不理解推荐引擎的理论,你也很难玩转它。今天我发现了IBM开发者社区近期出现了一组文章《探索推荐引擎的秘密》,写的很好,可以算作非常好的这个领域的综述的文章,非常适合给不了解或者一知半解的人建立概念,所以在这里推荐给大家。

  • 探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探
  • 探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 – 协同过滤
  • 探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 – 聚类

你可能感兴趣的:(转-推荐引擎记录1)