刚接触到数据挖掘的时候,看过一篇文章,介绍了数据挖掘方面有三本经典书籍:
(1)J.HanandM.Kamber,DataMining:ConceptsandTechniques.
本书从数据库角度看待数据挖掘,强调效率(Efficiency)。按照本书观点,数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。
(2)I.H.WrittenandE.Frank.DataMining:PracticalMachineLearningsandTechniques.
本书从机器学习角度看待数据挖掘,强调有效(Effectiveness)。按照这本书的观点,数据挖掘是从数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
(3)D.Hand,H.MannilaandP.Smith,PrincipleofDataMining.
本书从统计学的角度看待数据挖掘,因为统计学是一门数学,所以本书强调数学上的正确性(Validity)。按照本书观点,数据挖掘是分析(往往是大量的)数据集以找到未曾预料的关系,并以可理解又有用的新颖方式呈现给数据用户的过程。
这段时间做数据挖掘,补充基础知识时也主要以这几本书为指导。然后最后自己用来研读的书却是以下这本:
(4)Pang-NingTan,VipinKumaretc.IntroductiontoDataMining
http://book.douban.com/subject/1465939/ )。
国内目前有翻译版( http://book.douban.com/subject/1786120/ ),这是我现在觉得最好的数据挖掘教材。关于分类、关联规则、聚类每一主题都分两章来讲述:第一章讲基本部分,第二章讲高级部分,让人由浅入深。另有单独的一章介绍异常检测。本书的第一作者是物理背景出身,所以讲解很重视对于算法的理解(优缺点与适用范围等)。本书能找到PDF版完整的习题答案,非常适合于自学。
若要从以上三本书再推荐另一本入门书,我会推荐I.H.Written的那本,这本书第I部分以输入、输出、算法、评估的脉络来讲解数据挖掘;第II部分介绍Weka软件使用。读这本书的好处读了之后马上可以用Weka来实验各种数据挖掘算法。
其次推荐的是DavidHand的《数据挖掘原理》( http://book.douban.com/subject/1103515/ ),本书作者是一名统计学家,所以里面会涉及到数据挖掘相对于统计的独特之处的内容,非常有价值;另外,本书以约化主义的观点来看待数据挖掘算法,认为有了数据集与明确的数据挖掘任务,数据挖掘算法可以看成是{模型结构、评分函数、搜索方法、数据管理技术}的四元组,然后逐一来讲解每一数据挖掘算法组件,让人觉得清楚明了。本书的第二章“测量与数据”也是很有价值的,因为我们虽然通过数据来做推断,但是数据是通过测量理论与事实(Reality)相联系的。