《Programming Collective Intelligence》review

  最近javaeye上“书托”应该算比较流行的词汇了,我也赶把时髦当把“书托”,推荐一本浅显易懂的机器学习方面的入门书籍,最近读了OReilly出版社的<>,开始看了电子版的,后来徐师兄送我一本,这本书非常浅显易懂,并且结合真实可运行代码,介绍了机器学习最常用的算法,并结合实例使用python代码,使用许多OPen API来构建可用的系统。书中的算法相对简单,但对于理解机器学习方面的算法应该说是很好的入门级别的书了。如果能够以此扩展开来,读一些相关的文献书籍,会有很大收获。

补充一些机器学习和web 挖掘的书籍,从网上看到推荐的:
1. 《Programming Collective Intelligence》,近年出的入门好书,培养兴趣是最重要的一环,一上来看大部头很容易被吓走的:P

2. Peter Norvig 的《AI, Modern Approach 2nd》(无争议的领域经典)。 

3. 《The Elements of Statistical Learning》,数学性比较强,可以做参考了。 

4. 《Foundations of Statistical Natural Language Processing》,自然语言处理领域公认经典。 

5. 《Data Mining, Concepts and Techniques》,华裔科学家写的书,相当深入浅出。 

6. 《Managing Gigabytes》,信息检索好书。 

7. 《Information Theory:Inference and Learning Algorithms》,参考书吧,比较深。 

8、《Machine Learning, Tom Michell》, 1997. 
老书,牛人。现在看来内容并不算深,很多章节有点到为止的感觉,但是很适合新手(当然,不能"新"到连算法和概率都不知道)入门。比如决策树部分就很精彩,并且这几年没有特别大的进展,所以并不过时。另外,这本书算是对97年前数十年机器学习工作的大综述,参考文献列表极有价值。国内有翻译和影印版,不知道绝版否。 

9、《Modern Information Retrieval, Ricardo Baeza-Yates et al》. 1999 
老书,牛人。貌似第一本完整讲述IR的书。可惜IR这些年进展迅猛,这本书略有些过时了。翻翻做参考还是不错的。另外,Ricardo同学现在是Yahoo Research for Europe and Latin Ameria的头头。 

10、《Pattern Classification (2ed)》, Richard O. Duda, Peter E. Hart, David G. Stork 大约也是01年左右的大块头,有影印版,彩色。没读完,但如果想深入学习ML和IR,前三章(介绍,贝叶斯学习,线性分类器)必修。 还有些经典与我只有一面之缘,没有资格评价。另外还有两本小册子,论文集性质的,倒是讲到了了不少前沿和细节,诸如索引如何压缩之类。可惜忘了名字,又被我压在箱底,下次搬家前怕是难见天日了。 

11、《Mining the Web - Discovering Knowledge from Hypertext Data》 
12、说一本名气很大的书:《Data Mining: Practical Machine Learning Tools and Techniques》。Weka 的作者写的。可惜内容一般。理论部分太单薄,而实践部分也很脱离实际。DM的入门书已经不少,这一本应该可以不看了。如果要学习了解 Weka ,看文档就好。第二版已经出了,没读过,不清楚。 
13、《Introduction to Information Retrieval》,这书刚刚正式出版,内容当然up to date。另外信息检索第一大牛Croft老爷也正在写教科书,应该很快就要面世了。据说是非常pratical的一本书
14、《Pattern Recognition and Machine Learning》. 没有影印的,但是网上能下到。经典中的经典。Pattern Classification 和这本书是两本必读之书。《Pattern Recognition and Machine Learning》是很新(07年),深入浅出,手不释卷。 

你可能感兴趣的:(Web,Mining,classification,自然语言处理,算法,processing,出版,yahoo)