正统教材:
主要是下面这两本(第一本好些,虽然第二本好像国内用的比较多):
- Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining.
- Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques.
但比较新的还是推荐Stanford课程讲义总结出来的, 课件也很好。跟传统教材相比,更侧重大规模数据处理的一些技术,例如高维数据分析。
Mining of Massive Dataset, by Anand Rajaraman and Jeff Ullman ( Derived from Stanford CS345) (网上可以直接下载: infolab.stanford.edu/~ullman... )
通俗读本:
更通俗的入门的推荐这本, 很多例子,生动,强调动手和实际问题解决而不是理论:
Programming Collective Intelligence, by Toby Segaran, August 2007.
(有中文版: china-pub.com/129896&a... )
拓展性读物:
个人也很喜欢下面这本(网上可以下到PDF),一本多个大牛写的关于一些大规模数据分析和挖掘的应用合集,适合进阶的时候当闲书看看。
Beautiful Data by Toby Segaran, Jeff Hammerbacher ( oreilly.com/catalog... )
还有两本参考书是我放在书架上有什么需要用到,但没有接触过就看看的, 两本都有影印版本:
The Text Mining Handbook by R. Feldman and J. Sanger ( book.douban.com/subject... )
Web Data Mining by Bing Liu ( book.douban.com/subject... )
基础理论性读物:
最后,想要打好基础,可以回过头来看看这本偏理论的书:
The Elements of Statistical Learning (统计学习基础) by Trevor Hastie etc ( book.douban.com/subject... )
当然,如果你是有志于专门深入数据挖掘的某个细分领域,最好直接读相关的survey论文,和最新的直接看各大数据挖掘相关会议论文即可 ( KDD/SIGMOD/VLDB/ICDE/WSDM/ICDM etc)