spark mllib 之了解机器学习

  • 了解机器学习
    • 机器学习的定义
    • 大数据与机器学习
    • 机器学习、人工智能及深度学习
    • 机器学习的任务
    • 如何选择合适的算法
    • spark 机器学习的优势

了解机器学习

机器学习的定义

  • 目前没有一个统一的标准
  • 维基百科对机器学习的解释
    • 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是经验学习中改善具体算法
    • 机器学习是对能够通过经验自动改进的计算机算法的研究
    • 机器学习是用数据和以往的经验来优化计算机程序的性能标准

从上面3点定义看出机器学习强调3个关键词:算法、经验、性能

大数据与机器学习

  • 机器学习如果数据量不够,机器学习无论是性能还是准确性都比较差
  • 数据越多机器学习就越能体现优势
  • 机器学习的任务,就是要在大数据量的基础上,发掘其中蕴含的有用信息

机器学习、人工智能及深度学习

  • 人工智能:是计算机科学的一个分支,目的是开发一种拥有智能行为的机器
  • 对于机器学习来说,特征抽取比较困难
  • 深度学习是机器学习的一个分支,深度学习解决的核心问题之一就是自动将简单的特征组合成更加复杂的特征,并利用这些组合特征来解决问题。它除了可以学习特征和任务之间的关联之外,还能自动从简单特征抽取更加复杂的特征

spark mllib 之了解机器学习_第1张图片

  • 人工智能是一类非常广泛的问题,机器学习是解决这里问题的重要手段;深度学习是机器学习的一个重要的分支,在很多人工智能问题上,深度学习的方法突破了传统机器学习方法的瓶颈,推动人工智能快速的发展

spark mllib 之了解机器学习_第2张图片

机器学习的任务

  • 机器学习方法
    • 监督学习
    • 无监督学习
    • 半监督学习
    • 强化学习
    • -
  • 分类问题:将新数据划分到合适的类别中,一般用于类别型的目标特征
  • 回归算法适用于目标特征为连续型
  • 分类和回归,都是先根据标签值或目标值建立模型或规则,然后利用这些带有目标值的数据形成的模型或规则,对新数据进行识别或预测。这两种方法属于监督学习方法
  • 无监督学习不指定目标值或预先无法知道目标值,它可以把相似或相近的数据划分到相同的组里。聚类就是无监督学习模型

spark mllib 之了解机器学习_第3张图片

如何选择合适的算法

spark mllib 之了解机器学习_第4张图片

spark 机器学习的优势

  • 完整的大数据生态系统。spark-sql,spark-MLlib,spark-Graphx,spark-streaming
  • 高性能大数据计算平台:因为数据被加载至集群主机的分布式内存中,所有数据可以快递的转换和迭代,并缓存后续频繁访问的需求,还可以在同一个应用程序实现共享内存(使用广播变量实现和线程间共享进程的内存空间)。比较hadoop MapReduce 要快很多
  • 与 Hadoop、Hive、Hbase 等无缝连接:spark 可以直接访问 Hadoop、Hive、Hbase等的数据,同时可以使用 Hadoop 集群资源管理器(YARN)
  • 易用,通用,好用:spark 编程非常高效、简洁,支持多语言的API,如 scala、Java、Python、R、SQL等,同时提供类似于 Shell 交互式开发环境 REPL

你可能感兴趣的:(spark,机器学习)