Spark机器学习实战-专栏介绍

前言

目前国内关于Spark机器学习实战的优质资料比较欠缺,很多文章写的不清不楚,随着Spark技术生态的成熟,很多公司都把它作为大数据处理的框架,但是在实际应用中,难免遇到很多的坑。作者从多年实际工作经验出发,参考多方面的资料,编写这个实战性质的专栏,希望能够给即将使用到或者正在使用Spark进行机器学习的同学一些帮助。

背景

近年来,大规模数据的存储、处理、分析和建模,已经越来越普及了,像Google、Facebook、Alibaba这样的大公司都搭建了一套自己的机器学习平台来面对处理海量数据的挑战。大部分这些机器学习平台都是通过在计算机集群上进行分布式数据存储和计算来简化大数据处理。

Apache hadoop是最广为人知的大数据技术,它极大地简化了海量数据的存储和计算,并极大地降低了相应的学习成本。但是Hadoop在启动任务时开销高及需要把中间数据和计算结果写入磁盘,这种使得Hadoop不适合迭代式或低延迟的任务。Apache Spark是一个新的分布式计算框架,在设计起初就针对Hadoop的缺点进行了优化,并通过内存实现中间数据和结果的读写。此外,Spark提供了简洁明了的函数式API可完全兼容Hadoop生态系统。

Spark提供了针对Scala、Java和Python语言的原生API,并且还自带一个分布式机器学习和数据挖掘工具包MLlib。

本专栏主要关注Spark机器学习的实际应用,会简要介绍机器学习算法的一些理论知识,并会把重心放在Spark机器学习的技术实践上来。考虑到目前学术界和工业界普遍使用Spark python进行编程,本专栏将通过示例程序和样例代码,举例说明如何借助Spark、MLlib以及一些开源的机器学习库来搭建一个有用的机器学习系统。

你可能感兴趣的:(Spark机器学习实战,spark,机器学习,big,data)