机器学习(Machine Learning, ML)无疑是目前计算机领域最热门的方向了。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、线性代数等多门学科。下面罗列了机器学习的经典书单,分享给有志于成为机器学习大牛的各位。
本书把高深的数学原理讲得通俗易懂,让非专业读者也能领略数学的魅力。读者通过具体的例子学到的是思考问题的方式 —— 如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。同时本书以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用,非常适合作为机器学习的入门读物。
本书展示了机器学习中核心的算法和理论,并阐明了算法的运行过程。作者Tom Mitchell是CMU的大师,这本书是领域内翻译的较好的书籍,本书主要在于启发,讲述公式为什么成立而不是推导,这本书现在几乎是机器学习的必读书目。
传说中的“西瓜书”。本书作为机器学习领域的入门教材,在内容上尽可能涵盖机器学习基础知识的各方面。 为了使尽可能多的读者通过本书对机器学习有所了解, 作者试图尽可能少地使用数学知识。 然而, 少量的概率、统计、代数、优化、逻辑知识似乎不可避免。因此, 本书更适合大学三年级以上的理工科本科生和研究生, 以及具有类似背景的对机器学习感兴趣的人士。
作者李航是国内机器学习领域的几个大家之一。本书全面系统地介绍了统计学习的主要方法,叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。书中写了十个算法,每个算法的介绍都很干脆,直接上公式,是彻头彻尾的“干货书”。
本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。这本书最大的优势就是里面没有理论推导和复杂的数学公式,也是很不错的入门书。
本书是全面的机器学习教材之一。书中首先介绍了机器学习的构成要素(任务、模型、特征)和机器学习任务,接着详细分析了逻辑模型(树模型、规则模型)、几何模型(线性模型和基于距离的模型)和概率模型,然后讨论了特征、模型的集成,以及被机器学习研究者称为“实验”的方法。作者不仅使用了已有术语,还引入了一些新的概念,同时提供了大量精选的示例和插图解说。
本书用丰富的图示,从最小二乘法出发,对基于最小二乘法实现的各种机器学习算法进行了详细的介绍。第Ⅰ部分介绍了机器学习领域的概况;第Ⅱ部分和第Ⅲ部分分别介绍了各种有监督的回归算法和分类算法;第Ⅳ部分介绍了各种无监督学习算法;第Ⅴ部分介绍了机器学习领域中的新兴算法。书中大部分算法都有相应的MATLAB程序源代码,可以用来进行简单的测试。本书适合所有对机器学习有兴趣的初学者阅读。
全书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。
本书是关于机器学习的内容全面的教科书,其中有些内容在一般的在机器学习导论书中很少介绍。主要内容包括监督学习,贝叶斯决策理论,参数、半参数和非参数方法,多元分析,隐马尔可夫模型,增强学习,核机器,图模型,贝叶斯估计和统计检验。书中对所有学习算法都进行了解释,以便读者可以很容易地将书中的公式转变为计算机程序。
数学建模是用数学方法解决各种实际问题的桥梁。本书分离散建模和连续建模两部分介绍了整个建模过程的原理,通过本书的学习,读者将会在创造性模型和经验模型的构建、模型分析以及模型研究方面进行实践,增强解决问题的能力。
本书是自然语言处理领域公认的经典,全面系统地介绍了统计自然语言处理技术,涵盖的内容十分广泛,包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。
本书全面而系统地介绍了人工智能的理论和实践,阐述了人工智能领域的核心内容,并深入介绍了各个主要的研究方向,毫无争议的领域经典。
本书是模式识别和场景分析领域奠基性的经曲名著。书中包含许多实例,各种不同方法的对比,丰富的图表,以及大量的课后习题和计算机练习。
本书全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
本书全面阐述了模式识别的基础理论、最新方法以及各种应用。模式识别是信息科学和人工智能的重要组成部分,主要应用领域有图像分析、光学字符识别、信道均衡、语言识别和音频分类等。本书在完美地结合当前的理论与实践的基础上,讨论了贝叶斯分类、贝叶斯网络、线性和非线性分类器设计、上下文相关分类、特征生成、特征选取技术、学习理论的基本概念以及聚类概念与算法。
本书完整全面地讲述数据挖掘的概念、方法、技术和全新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群点检测,并研讨了挖掘网络、复杂数据类型以及重要应用领域。本书可作为数据挖掘和知识发现领域的教师、研究人员和开发人员的一本必读书。
本书作者不仅透彻地论述了传统信息论的内容和最新编码算法,而且以高度的学科驾驭能力,匠心独具地在一个统一框架下讨论了贝叶斯数据建模、蒙特卡罗方法、聚类算法、神经网络等属于机器学习和推理领域的主题,从而很好地将诸多学科的技术内涵融会贯通。
通过大量代码和图表全面系统地阐述了和推荐系统有关的理论基础,介绍了评价推荐系统优劣的各种标准(比如覆盖率、满意度)和方法(比如AB测试),总结了当今互联网领域中各种和推荐有关的产品和服务。这本书对推荐系统的介绍很全面,适合初涉推荐领域以及有兴趣实际应用的读者学习。
本书主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括:分布式文件系统以及Map-Reduce工具;相似性搜索;数据流处理以及针对易丢失数据等特殊情况的专用处理算法;搜索引擎技术,如谷歌的PageRank;频繁项集挖掘;大规模高维数据集的聚类算法;Web应用中的关键问题:广告管理和推荐系统。
本书涵盖了数据挖掘和信息检索的核心主题。数据挖掘部分主要由关联规则和序列模式、监督学习(分类)、无监督学习(聚类)这三大最重要的数据挖掘任务,以及半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。
本书是机器学习和数据挖掘领域的经典畅销教材,被众多国外名校选为教材。书中详细介绍用于数据挖掘领域的机器学习技术和工具以及实践方法,并且提供了一个公开的数据挖掘工作平台Weka。本书主要内容包括:数据输入/输出、知识表示、数据挖掘技术(决策树、关联规则、基于实例的学习、线性模型、聚类、多实例学习等)以及在实践中的运用。
传说中的“花书”,被誉为AI圣经。本书由全球知名的三位专家IanGoodfellow、YoshuaBengio和AaronCourville撰写,是深度学习领域奠基性的经典教材。全书的内容包括3个部分:第1部分介绍基本的数学工具和机器学习的概念,它们是深度学习的预备知识;第2部分系统深入地讲解现今已成熟的深度学习方法和技术;第3部分讨论某些具有前瞻性的方向和想法,它们被公认为是深度学习未来的研究重点。本书适合各类读者阅读,包括相关专业的大学生或研究生,以及不具有机器学习或统计背景、但是想要快速补充深度学习知识,以便在实际产品或平台中应用的软件工程师。
简称PRML,侧重于概率模型,是贝叶斯方法的扛鼎之作。
如今,机器学习正在互联网上下掀起热潮,而Python则是非常适合开发机器学习系统的一门优秀语言。作为动态语言,它支持快速探索和实验,并且针对Python的机器学习算法库的数量也与日俱增。本书最大的特色,就是结合实例分析教会读者如何通过机器学习解决实际问题。本书将向读者展示如何从原始数据中发现模式,首先从Python与机器学习的关系讲起,再介绍一些库,然后就开始基于数据集进行比较正式的项目开发了,涉及建模、推荐及改进,以及声音与图像处理。通过流行的开源库,我们可以掌握如何高效处理文本、图片和声音。同时,读者也能掌握如何评估、比较和选择适用的机器学习技术。
本书介绍了Spark的基础知识,从利用Spark API来载入和处理数据,到将数据作为多种机器学习模型的输入。此外还通过详细的例子和现实应用讲解了常见的机器学习模型,包括推荐系统、分类、回归、聚类和降维。另外还介绍了一些高阶内容,如大规模文本数据的处理,以及Spark Streaming下的在线机器学习和模型评估方法。如果你是一名Scala、Java或Python开发者,对机器学习和数据分析感兴趣,并想借助Spark框架来实现常见机器学习技术的大规模应用,那么本书便是为你而写。
Mahout作为Apache的开源机器学习项目,把推荐系统、分类和聚类等领域的核心算法浓缩到了可扩展的现成的库中。使用Mahout,你可以立即在自己的项目中应用亚马逊、Netflix及其他互联网公司所采用的机器学习技术。本书出自Mahout核心成员之手,得到Apache官方推荐,权威性毋庸置疑。作者凭借多年实战经验,为读者展现了丰富的应用案例,并细致地介绍了Mahout的解决之道。
本书主要介绍如何将测试驱动开发运用于机器学习算法。每一章都通过示例介绍了机器学习技术能够解决的有关数据的具体问题,以及求解问题和处理数据的方法。具体涵盖了测试驱动的机器学习、机器学习概述、K近邻分类、朴素贝叶斯分类、隐马尔可夫模型、支持向量机、神经网络、聚类、核岭回归、模型改进与数据提取等内容。通过学习本书,你将能够利用机器学习技术解决涉及数据的现实问题。
神经网络是计算智能和机器学习的重要分支,在诸多领域都取得了很大的成功。在众多神经网络著作中,本书是影响最为广泛的。作者结合近年来神经网络和机器学习的最新进展,从理论和实际应用出发,全面、系统地介绍了神经网络的基本模型、方法和技术,并将神经网络和机器学习有机地结合在一起。
本书具有深入浅出系列的一贯特色,提供最符合直觉的理解方式,让统计理论的学习既有趣又自然。从应对考试到解决实际问题,无论你是学生还是数据分析师,都能从中受益。本书涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等。本书运用充满互动性的真实世界情节,教给你有关这门学科的所有基础,为这个枯燥的领域带来鲜活的乐趣,不仅让你充分掌握统计学的要义,更会告诉你如何将统计理论应用到日常生活中。
统计学习理论是研究利用经验数据进行机器学习的一种一般理论,属于计算机科学、模式识别和应用统计学相交叉与结合的范畴,本书作者Vapnik便是其主要创立者。统计学习理论基本内容诞生于20世纪60~70年代,到90年代中期发展到比较成熟并受到世界机器学习界的广泛重视,其核心内容反映在Vapnik的两部重要著作中,本书即是其中一部,另一部是《统计学习理论的本质》。
本书是矩阵分析领域无争议的经典,从数学分析的角度阐述了矩阵分析的经典和现代方法,主要内容有特征值、特征向量、范数、相似性、酉相似、三角分解、极分解、正定矩阵、非负矩阵等,新版全面修订和更新,增加了奇异值、CS分解和Weyr标准范数等相关的小节,扩展了与逆矩阵和矩阵块相关的内容,对基础线性代数和矩阵理论作了全面总结。
本书涉及面极广,不仅讨论了概率论在离散空间中的诸多课题,也涉及了概率论在物理学、化学、生物学(特别是遗传学)、博弈论及经济学等方面的应用。
本书不仅涵盖了凸优化的所有基本概念和主要结果,还详细介绍了几类基本的凸优化问题以及将特殊的优化问题表述为凸优化问题的变换方法,这些内容对灵活运用凸优化知识解决实际问题非常有用。通过本书能够对凸优化理论和方法建立完整的认识。
作者根据在教学、研究和咨询中的经验,写了这本适合学生和实际工作者的书。本书提供连续优化中大多数有效方法的全面的最新的论述。每一章从基本概念开始,逐步阐述当前可用的最佳技术。本书强调实用方法,包含大量图例和练习,适合广大读者阅读。