前言

大数据、人工智能正在改变或颠覆各行各业,包括我们的生活。大数据、人工智能方面的人才已经供不应求,但作为人工智能的核心一机器学习, 因涉及的知识和技能比较多,除了需要具备一定的数学基础、相关业务知识外,还要求有比较全面的技术储备,如操作系统、数据库、开发语言、数据分析工具、大数据计算平台等,无形中提高了机器学习的门槛。

如何降低机器学习的门槛,让更多有志于机器学习、人工智能的人能更方便或顺畅地使用、驾驭机器学习?

如何使原本复杂、专业性强的工作或操作简单化?

封装是一个有效方法。封装降低了我们操作照相机的难度、降低了我们维护各种现代设备的成本,同时也提升了我们使用这些设备的效率。除封装外,过程的标准化、流程化同样是目前现代企业用于提升生产效率,降低成本,提高质量的有效方法。

硬件如此,软件行业同样如此。目前很多机器学习的开发语言或平台,正在这些方面加大力度,比如:对特征转换、特征选择、数据清理、数据划分、模型评估及优化等算法的封装;对机器学习过程的进行流程化、标准化、规范化;给大家比较熟悉的语言或工具提供API等方法或措施,以简化机器学习中间过程,缩短整个开发周期,使我们能更从容地应对市场的变化。Spark 在这方面可谓后来居上,尤其是最近发布的版本,明显加大了这方面的力度,我们可以从以下几个方面看出这种趋势:

1)Spark机器学习的API,正在由基于RDD过渡到基于Dataset或DatalFrame,基于RDD的API在Spark2.2后处于维护阶段,Spark3.0 后将停止使用(来自Spark官网);

2)建议大家使用Spark ML,尤其是它的Pipeline;

3)增加大量特征选择、特征转换、模型选择和优化等算法;

4)丰富、增强Spark与Java、Python. R的API,使其更通用。

深度实践Spark机器学习

限于平台篇幅原因,小编只截取了一部分,为了方便大家更好的阅读,小编把相关的资料都整理好了,有感兴趣的朋友可以帮忙转发文章后,关注私信回复【学习】来获取

第1章 了解机器学习
腾讯AI主管带你深度实践Spark机器学习_第1张图片

第2章 构建Spark机器学习系统
腾讯AI主管带你深度实践Spark机器学习_第2张图片

第3章 ML Pipeline原理与实战
腾讯AI主管带你深度实践Spark机器学习_第3张图片

第4章 特征腾讯AI主管带你深度实践Spark机器学习_第4张图片
提取、转换和选择

腾讯AI主管带你深度实践Spark机器学习_第5张图片

第5章 模型选择和优化
腾讯AI主管带你深度实践Spark机器学习_第6张图片

第6章 Spark MLlib基础
腾讯AI主管带你深度实践Spark机器学习_第7张图片

第7章 构建Spark ML推荐模型
腾讯AI主管带你深度实践Spark机器学习_第8张图片

第8章 构建Spark ML分类模型
腾讯AI主管带你深度实践Spark机器学习_第9张图片

第9章 构建Spark ML回归模型
腾讯AI主管带你深度实践Spark机器学习_第10张图片

第10章 构建Spark ML聚类模型
腾讯AI主管带你深度实践Spark机器学习_第11张图片

第11章 PySpark 决策树模型
腾讯AI主管带你深度实践Spark机器学习_第12张图片

第12章 SparkR朴素 贝叶斯模型
腾讯AI主管带你深度实践Spark机器学习_第13张图片

第13章 使用Spark Streaming构建在线学习模型
腾讯AI主管带你深度实践Spark机器学习_第14张图片

第14章 ensorFlowOnSpark详解
腾讯AI主管带你深度实践Spark机器学习_第15张图片