spark MLlib机器学习教程

spark MLlib机器学习教程
来源地址:
https://blog.csdn.net/qq_30498935/article/details/82352348

机器学习介绍

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

机器学习算法是从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法.

机器学习可分未一下几种类别

     监督学习:输入数据被称为训练数据,它们有已知的标签和结果。常见的算法包括回归分析和统计分类

    无监督学习:输入数据不带标签或者没有一个已知的结果。常见算法有聚类

    半监督学习:输入数据由带标签和不带标签组成。有分类和回归

    强化学习:输入数据作为作为来自环境的激励供给模型,且模型做出反应。反馈作为环境的惩罚或奖赏。包括Q学习,时序差分学习。

常见算法

分类和回归-----线性回归、逻辑回归、贝叶斯分类、决策树分类等

聚类----KMeans聚类、LDA主题、KNN等

关联规则-----Apriori、FPGrowth等

推荐-----协同过滤、ALS等

神经网络-----BP、RBF、 SVM等

深度神经网络等

二、spark介绍

 引用官网一句话:Apache Spark™ is a unified analytics engine for large-scale data processing.

Spark, 是一种"One Stack to rule them all"的大数据计算框架, 期望使用一个技术堆栈就 完美地解决大数据领域的各种计算任务

Spark使用Spark RDD、 Spark SQL、 Spark Streaming、 MLlib、 GraphX成功解决了大数 据领域中, 离线批处理、 交互式查询、 实时流计算、 机器学习与图计算等最重要的任务和问题。

          Spark Core用于离线计算  

           Spark SQL用于交互式查询 

           Spark Streaming用于实时流式计算 

           Spark MLlib用于机器学习 

           Spark GraphX用于图计算 

三、spark MLlib介绍

  spark MLlib 是spark中可以扩展的机器学习库,它有一系列的机器学习算法和实用程序组成。包括分类、回归、聚类、协同过滤、等,还包含一些底层优化的方法

  1.机器学习算法:常规机器学习算法包括分类、回归、聚类和协同过滤。

   2.特征工程:特征提取、特征转换、特征选择以及降维。

   3.管道:构造、评估和调整的管道的工具。

   4.存储:保存和加载算法、模型及管道

   5.实用工具:线性代数,统计,数据处理等。

接下来的课程包括

             spark MLlib机器学习教程-----入门教程【一】

              spark MLlib机器学习教程-----矩阵向量【二】

              spark MLlib机器学习教程-----线性回归【三】

              spark MLlib机器学习教程-----逻辑回归【四】

              spark MLlib机器学习教程-----保序回归【五】

              spark MLlib机器学习教程-----贝叶斯分类算法【六】

              spark MLlib机器学习教程-----SVM支持向量机算法【七】

              spark MLlib机器学习教程-----决策数算法【八】

              spark MLlib机器学习教程-----Kmeans聚类算法【九】

              spark MLlib机器学习教程-----LDA主题模型算法【十】

              spark MLlib机器学习教程-----FPGrowth关联规则挖掘算法【十一】

              spark MLlib机器学习教程-----ALS交替最小二乘算法【十二】

              spark MLlib机器学习教程-----协同过滤推荐算法【十三】spark MLlib机器学习教程-----神经网络算法【十四】

你可能感兴趣的:(spark,分布式开发,存储)