Spark机器学习-Nick Pentreath
在线阅读 百度网盘下载(803k)
书名:Spark机器学习
作者:Nick Pentreath
格式:EPUB, HTMLZ, PDF
书号:9787115399830
路径:点击打开
出版:人民邮电出版社
排序作者:Pentreath, Nick
排序书名:Spark机器学习
日期:08 12月 2018
uuid:7967da2f-a032-4576-825e-f324ec7a9c83
id:495
出版日期:10月 2015
修改日期:08 12月 2018
大小:4.35MB
语言:中文
本书内容
第1章 “Spark的环境搭建与运行”,会讲到如何安装和搭建Spark框架的本地开发环境,以及怎样使用Amazon EC2在云端创建Spark集群。之后介绍Spark编程模型和API。最后分别用Scala、Java和Python语言创建一个简单的Spark应用。
第2章 “设计机器学习系统”,会展示一个贴合实际的机器学习系统案例。随后会针对该案例设计一个基于Spark的智能系统所对应的高层架构。
第3章 “Spark上数据的获取、处理与准备”,会详细介绍如何从各种免费的公开渠道获取用于机器学习系统的数据。我们将学到如何进行数据处理和清理,并通过可用的工具、库和Spark函数将它们转换为符合要求的数据,使之具备可用于机器学习模型的特征。
第4章 “构建基于Spark的推荐引擎”,展示了如何创建一个基于协同过滤的推荐模型。该模型将用于向给定用户推荐物品,以及创建与给定物品相似的物品。这一章还会讲到如何使用标准指标来评估推荐模型的效果。
第5章 “Spark构建分类模型”,阐述如何创建二元分类模型,以及如何利用标准的性能评估指标来评估分类效果。
第6章 “Spark构建回归模型”,扩展了第5章中的分类模型以创建一个回归模型,并详细介绍回归模型的评估指标。
第7章 “Spark构建聚类模型”,探索如何创建聚类模型以及相关评估方法的使用。你会学到如何分析和可视化聚类结果。
第8章 “Spark应用于数据降维”,将通过多种方法从数据中提取其内在结构并降低其维度。你会学到一些常见的降维方法,以及如何对它们进行应用和分析。这里还会讲到如何将降维的结果作为其他机器学习模型的输入。
第9章 “Spark高级文本处理技术”,介绍处理大规模文本数据的方法。这包括从文本提取特征以及处理文本数据常见的高维特征的方法。
第10章 “Spark Streaming在实时机器学习上的应用”,对Spark Streaming进行综述,并介绍在流数据上的机器学习中它如何实现对在线和增量学习方法的支持。
前言
近年来,被收集、存储和分析的数据量呈爆炸式增长,特别是与网络、移动设备相关的数据,以及传感器产生的数据。大规模数据的存储、处理、分析和建模,以前只有Google、Yahoo!、Facebook和Twitter这样的大公司才涉及,而现在越来越多的机构都会面对处理海量数据的挑战。
面对如此量级的数据以及常见的实时利用该数据的需求,人工驱动的系统难以应对。这就催生了所谓的大数据和机器学习系统,它们从数据中学习并可自动决策。
为了能以低成本实现对大规模数据的支持,Google、Yahoo!、Amazon和Facebook涌现了大量开源技术。这些技术旨在通过在计算机集群上进行分布式数据存储和计算来简化大数据处理。
这些技术中最广为人知的是Apache Hadoop,它极大简化了海量数据的存储(通过Hadoop Distributed File System,即HDFS)和计算(通过Hadoop MapReduce,一种在集群里多个节点上进行并行计算的框架)流程,并降低了相应的成本。
然而,MapReduce有其严重的缺点,如启动任务时的高开销、对中间数据和计算结果写入磁盘的依赖。这些都使得Hadoop不适合迭代式或低延迟的任务。Apache Spark是一个新的分布式计算框架,从设计开始便注重对低延迟任务的优化,并将中间数据和结果保存在内存中。Spark提供简洁明了的函数式API,并完全兼容Hadoop生态系统。
不止如此,Spark还提供针对Scala、Java和Python语言的原生API。通过Scala和Python的API,Spark应用程序可充分利用Scala或Python语言的优势。这些优势包括使用相关的解释程序进行实时交互式的程序编写。Spark目前还自带一个分布式机器学习和数据挖掘工具包MLlib。经过重点开发,这个包中已经包括一些针对常见计算任务的高质量、可扩展的算法。本书会涉及其中的部分算法。
在大型数据集上进行机器学习颇具挑战性。这主要是因为常见的机器学习算法并非为并行架构而设计。大部分情况下,设计这样的算法并不容易。机器学习模型一般具有迭代式的特性,而这与Spark的设计目标一致。并行计算的框架有很多,但很少能在兼顾速度、可扩展性、内存处理和容错性的同时,还提供灵活、表达力丰富的API。Spark是其中为数不多的一个。
本书将关注机器学习技术的实际应用。我们会简要介绍机器学习算法的一些理论知识,但总的来说本书注重技术实践。具体来说,我们会通过示例程序和样例代码,举例说明如何借助Spark、MLlib以及其他常见的免费机器学习和数据分析套件来创建一个有用的机器学习系统。
来源:我是码农,转载请保留出处和链接!
本文链接:http://www.54manong.com/?id=1138